Pythonwhisper:音频转文字技术详解
首先安装python
1.这里安装python3.8版本,上一个文档有些,然后压缩文件我也保存了这个包,可以直接安装。
2.最新版本的环境安装whisper会报错。
进入python环境
1.首先进入到解压目录。
2.然后命令行执行命令:source ./Scripts/activate
3.即可进入到环境
翻译音视频为文本
1.替换音视频路径,这里我找了几个音频和视频文件供测试,在以下文件夹。
2.代码中此处替换音视频文件路径
3.然后执行命令,将视频或者音频翻译成文字(注意此处是在切换到python环境的命令行执行的,不是新打开的命令行)
4.查看转换结果(需要等待一下。)
5.代码
import whisper
# 选择模型,可根据需求选择不同的模型,如 'tiny', 'base', 'small', 'medium', 'large'
model = whisper.load_model("tiny")
# 要处理的音频文件路径
audio_file = "./source/gjryg.mp3"
# 进行语音识别
result = model.transcribe(audio_file)
# 提取识别结果中的文本
transcribed_text = result["text"]
# 打印识别结果
print("识别结果:")
print(transcribed_text)
# 如果你想将结果保存到文件中
with open("transcription.txt", "w", encoding="utf-8") as f:
f.write(transcribed_text)
6.whisper 环境安装
1.Python环境安装(3.8.10)
官网下载地址:https://www.python.org/downloads/windows/
新建一个python环境
# 新建一个python环境
$ python -m venv whisper_env
# 切换到环境中
$ source ./whisper_env/Scripts/activate
安装 whisper
# 安装命令 (这个安装依赖较多比较慢)
$ pip install -U openai-whisper
# 检查是否安装成功
$ whisper --help
python 中 whisper 的使用
import whisper
class WhisperTranscriber(object):
def __init__(self, model_name):
self.model = whisper.load_model(model_name)
def whisper_transcribe(self, audio_path):
audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')
return audio['text']
if __name__ == '__main__':
transcriber = WhisperTranscriber("large")
# text = transcriber.whisper_transcribe("zl.mp4")
# text = transcriber.whisper_transcribe("xsdb.mp3")
text = transcriber.whisper_transcribe("./source/a061a743-c63f-42ea-9a77-a547665d4c86.mp4")
print(text)
音频识别文字
视频识别文字
作者:浮光掠影ペ