Pythonwhisper:音频转文字技术详解

首先安装python
1.这里安装python3.8版本,上一个文档有些,然后压缩文件我也保存了这个包,可以直接安装。
2.最新版本的环境安装whisper会报错。

进入python环境
1.首先进入到解压目录。
2.然后命令行执行命令:source ./Scripts/activate
3.即可进入到环境

翻译音视频为文本
1.替换音视频路径,这里我找了几个音频和视频文件供测试,在以下文件夹。

2.代码中此处替换音视频文件路径

3.然后执行命令,将视频或者音频翻译成文字(注意此处是在切换到python环境的命令行执行的,不是新打开的命令行)

4.查看转换结果(需要等待一下。)

5.代码

import whisper

# 选择模型,可根据需求选择不同的模型,如 'tiny', 'base', 'small', 'medium', 'large'
model = whisper.load_model("tiny")

# 要处理的音频文件路径
audio_file = "./source/gjryg.mp3"

# 进行语音识别
result = model.transcribe(audio_file)

# 提取识别结果中的文本
transcribed_text = result["text"]

# 打印识别结果
print("识别结果:")
print(transcribed_text)

# 如果你想将结果保存到文件中
with open("transcription.txt", "w", encoding="utf-8") as f:
    f.write(transcribed_text)

6.whisper 环境安装
1.Python环境安装(3.8.10)
官网下载地址:https://www.python.org/downloads/windows/




新建一个python环境

# 新建一个python环境
$ python -m venv whisper_env
# 切换到环境中
$  source ./whisper_env/Scripts/activate


安装 whisper

# 安装命令 (这个安装依赖较多比较慢)
$ pip install -U openai-whisper


# 检查是否安装成功
$ whisper --help


python 中 whisper 的使用

import whisper

class WhisperTranscriber(object):

    def __init__(self, model_name):
        self.model = whisper.load_model(model_name)

    def whisper_transcribe(self, audio_path):
        audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')
        return audio['text']

if __name__ == '__main__':

    transcriber = WhisperTranscriber("large")
    # text = transcriber.whisper_transcribe("zl.mp4")
    # text = transcriber.whisper_transcribe("xsdb.mp3")
    text = transcriber.whisper_transcribe("./source/a061a743-c63f-42ea-9a77-a547665d4c86.mp4")
    print(text)

音频识别文字

视频识别文字

作者:浮光掠影ペ

物联沃分享整理
物联沃-IOTWORD物联网 » Pythonwhisper:音频转文字技术详解

发表回复