【python】图像、音频、视频等文件数据采集

【python】图像、音频、视频等文件数据采集

  • 先安装所需要的工具
  • 一、Tesseract-OCR
  • Tesseract-OCR环境变量设置
  • 验证是否配置成功
  • 示例
  • 语言包下载失败
  • 二、ffmpeg
  • 验证是否安装成功
  • 示例
  • 先安装所需要的工具

    一、Tesseract-OCR

    Tesseract是一个 由HP实验室开发 由Google维护的开源的光学字符识别(OCR)引擎,可以在 Apache 2.0 许可下获得。它可以直接使用,或者(对于程序员)使用 API​​ 从图像中提取输入,包括手写的或打印的文本。

    以下是关于Tesseract的常用网址
    下载地址:https://digi.bib.uni-mannheim.de/tesseract/
    官方网站:https://github.com/tesseract-ocr/tesseract
    语言包地址:https://github.com/tesseract-ocr/tessdata

    下载最新的就行


    下载好了进行安装即可,
    就是到这里注意一下,把框框中的那两个勾选上,他会自动下载语言包,

    到安装位置这里的时候,建议把位置换到D盘,路径最好不要有中文,不要引起一些奇奇怪怪的报错,选好路径后,要把这个路径复制下来,可以先放一个笔记里面,一会配置环境变量要用的


    后面就这里按照步骤进行就可以了。

    Tesseract-OCR环境变量设置

    安装好以后我们设置一下环境变量,用起来会舒服一些。
    首先电脑Win加R键
    然后输入sysdm.cpl这个命令回车

    点击环境变量,之后找到系统变量,再找到path点击编辑
    如图;

    点击这里看的新建,按当时复制的安装路线复制进去,之后一直点确定,点到退出那个界面就好了,

    现在就可以使用了

    验证是否配置成功

    打开命令提示符(CMD)

    按下 Win + R 键,输入 cmd 并回车,打开命令提示符。

    检查 Tesseract 是否安装

    在命令提示符中输入 tesseract -v 并回车。

    如果 Tesseract – OCR 环境配置正确,会显示 Tesseract 的版本信息,

    示例

    先安装需要的库

    pip install Pillow

    pip install pytesseract

    代码
    提取中文

    import pytesseract
    from PIL import Image
    
    def OCR_demo():
        # 导入OCR安装路径,如果设置了系统环境,就可以不用设置了
        # pytesseract.pytesseract.tesseract_cmd = r"D:\Program Files\Tesseract-OCR\tesseract.exe"
        # 打开要识别的图片
    
        image = Image.open('one.jpeg')
        # 使用pytesseract调用image_to_string方法进行识别,传入要识别的图片,lang='chi_sim'是设置为中文识别,
        text = pytesseract.image_to_string(image, lang='chi_sim')
    
        print(text)
    
    
    if __name__ == '__main__':
        OCR_demo()
    

    识别结果

    提取数字

    from PIL import Image
    import pytesseract
    
    
    # 如果 tesseract 不是安装在默认路径,请取消注释并设置正确的路径
    # pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
    
    def ocr_numbers(image_path, output_txt_path):
        # 打开图像文件
        image = Image.open(image_path)
    
        # 使用 pytesseract 进行 OCR 识别
        # 由于是数字,我们不需要特别指定语言包
        text = pytesseract.image_to_string(image)
    
        # 提取并只保存数字(可选,如果图像中只包含数字,这一步可以省略)
        # 这里使用简单的正则表达式来提取数字
        import re
        numbers = re.findall(r'\d+', text)
        numbers_str = ' '.join(numbers)  # 将数字列表转换为字符串,用空格分隔
    
        # 将识别出的数字保存到指定的 .txt 文件中
        with open(output_txt_path, 'w') as file:
            file.write(numbers_str)
    
        # 在控制台输出已识别的消息
        print("已识别数字并保存到:", output_txt_path)
    
    
    # 替换为你的图像文件路径和想要保存的 .txt 文件路径
    image_path = '数字.jpg'
    output_txt_path = '数字.txt'
    
    # 调用函数进行 OCR 识别并保存结果
    ocr_numbers(image_path, output_txt_path)
    

    提取英文

    from PIL import Image
    import pytesseract
    
    
    # 如果 pytesseract 不是安装在默认路径,请设置正确的路径
    # pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # Windows 示例
    # pytesseract.pytesseract.tesseract_cmd = '/usr/local/bin/tesseract'  # macOS 示例(可能需要调整)
    # pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract'  # Linux 示例(可能需要调整)
    
    def ocr_english_text(image_path, output_txt_path):
        # 打开图像文件
        image = Image.open(image_path)
    
        # 使用 pytesseract 进行 OCR 识别
        text = pytesseract.image_to_string(image, lang='eng')  # 指定语言为英语
    
        # 将识别出的文本保存到指定的 .txt 文件中
        with open(output_txt_path, 'w', encoding='utf-8') as file:
            file.write(text)
    
        # 在控制台输出已识别的消息
        print("已识别英语文本并保存到:", output_txt_path)
    
    
    # 替换为你的图像文件路径和想要保存的 .txt 文件路径
    image_path = '英语.jpg'
    output_txt_path = '英语识别结果.txt'
    
    # 调用函数进行 OCR 识别并保存结果
    ocr_english_text(image_path, output_txt_path)
    

    语言包下载失败

    当上面已经是安装好了,但是可能会有人遇见这种情况,这就语言包下载失败,就需要我们单独去下载语言包了。
    语言包地址:https://github.com/tesseract-ocr/tessdata


    如图下载图片上面这两个语言包就可以了(点进去里面有下载)

    要获取适用于Tesseract 3.04或3.05的语言数据文件,请从3.04分支获取。

    更多信息以及所有语言的完整列表,请参阅Tesseract维基百科。


    下载好以后把这两个文件复制到你的Tesseract-OCR\tessdata这个文件夹就可以了。

    二、ffmpeg

    简介
    FFmpeg全称为Fast Forward Moving Picture Experts Group,于2000年诞生,是一款免费,开源的音视频编解码工具及开发套件。它的功能强大,用途广泛,大量用于视频网站和商业软件(比如 Youtube 和 iTunes)。

    官网链接;https://www.ffmpeg.org/download.html#build-windows
    官网界面,根据自己的系统,下载相应的版本下载,

    选择一个下载,就第一个就可以7z格式的。

    下载好以后,需要先解压,解压完后,

    就需要添加环境变量了,就和上面差不多的流程,

    唯一不一样的是路径要准确到bin文件

    这样就不用每次都指定路径了这点和上面是一样的。

    先win加r键,这个上面都有了,按照上面的来就可以了

    唯一和上面不一样的是这个要准确到bin文件
    路径应该是这个样子的才可以

    D:\ffmpeg-5.0.1-essentials_build\ffmpeg-5.0.1-essentials_build\bin

    之后就和上面都一样了,确定、确定、确定。

    验证是否安装成功

    打开命令提示符cmd窗口

    输入命令ffmpeg -version

    如果你看到打印出 FFmpeg 版本,则表示 FFmpeg 安装成功。

    示例

    提取视频中的音频

    from moviepy.editor import VideoFileClip
    
    # 视频文件路径
    video_file_path = '大棋局.mp4'  # 替换为你的MP4视频文件路径
    
    # 创建一个VideoFileClip对象
    video = VideoFileClip(video_file_path)
    
    # 从视频中提取音频
    audio = video.audio
    
    # 设置输出音频文件路径和格式
    output_audio_file_path = 'output_audio.mp3'  # 你可以根据需要更改输出文件名和格式
    
    # 写入音频文件
    audio.write_audiofile(output_audio_file_path)
    
    # 释放资源
    video.close()
    audio.close()
    

    作者:努力的小好

    物联沃分享整理
    物联沃-IOTWORD物联网 » 【python】图像、音频、视频等文件数据采集

    发表回复