Pythonwhisper：音频转文字技术详解

首先安装python
1.这里安装python3.8版本，上一个文档有些，然后压缩文件我也保存了这个包，可以直接安装。
2.最新版本的环境安装whisper会报错。

进入python环境
1.首先进入到解压目录。
2.然后命令行执行命令：source ./Scripts/activate
3.即可进入到环境

翻译音视频为文本
1.替换音视频路径，这里我找了几个音频和视频文件供测试，在以下文件夹。

2.代码中此处替换音视频文件路径

3.然后执行命令，将视频或者音频翻译成文字（注意此处是在切换到python环境的命令行执行的，不是新打开的命令行）

4.查看转换结果（需要等待一下。）

5.代码

import whisper

# 选择模型，可根据需求选择不同的模型，如 'tiny', 'base', 'small', 'medium', 'large'
model = whisper.load_model("tiny")

# 要处理的音频文件路径
audio_file = "./source/gjryg.mp3"

# 进行语音识别
result = model.transcribe(audio_file)

# 提取识别结果中的文本
transcribed_text = result["text"]

# 打印识别结果
print("识别结果:")
print(transcribed_text)

# 如果你想将结果保存到文件中
with open("transcription.txt", "w", encoding="utf-8") as f:
    f.write(transcribed_text)

6.whisper 环境安装
1.Python环境安装（3.8.10）
官网下载地址：https://www.python.org/downloads/windows/

新建一个python环境

# 新建一个python环境
$ python -m venv whisper_env
# 切换到环境中
$  source ./whisper_env/Scripts/activate

安装 whisper

# 安装命令 （这个安装依赖较多比较慢）
$ pip install -U openai-whisper

# 检查是否安装成功
$ whisper --help

python 中 whisper 的使用

import whisper

class WhisperTranscriber(object):

    def __init__(self, model_name):
        self.model = whisper.load_model(model_name)

    def whisper_transcribe(self, audio_path):
        audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')
        return audio['text']

if __name__ == '__main__':

    transcriber = WhisperTranscriber("large")
    # text = transcriber.whisper_transcribe("zl.mp4")
    # text = transcriber.whisper_transcribe("xsdb.mp3")
    text = transcriber.whisper_transcribe("./source/a061a743-c63f-42ea-9a77-a547665d4c86.mp4")
    print(text)

音频识别文字

视频识别文字