学习实践-Whisper语音识别模型实战(部署+运行)

学习实践-Whisper语音识别模型实战(部署+运行)

    正在检查是否收录...

1、Whisper内容简单介绍

OpenAI的语音识别模型Whisper,Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。Open AI 强调 Whisper 的语音识别能力已达到人类水准。


左:输入的音频被分割成 30 秒的小段、转换为 log-Mel 频谱图,然后传递到编码器。

右:解码器经过训练以预测相应的文字说明,并与特殊的标记进行混合,这些标记指导单一模型执行诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等任务。

2、Whisper模型实战

Whisper模型GitHub代码地址
部署步骤如下:(注意使用的是Windows系统)

# 新建chatglm环境 conda create -n whisper python==3.8 # 激活chatglm环境 conda activate chatglm # 安装PyTorch环境 pip --trusted-host pypi.tuna.tsinghua.edu.cn install torch==1.10.1+cu102 torchvision==0.11.2+cu102 torchaudio==0.10.1 -f https://download.pytorch.org/whl/torch_stable.html # 一键安装依赖包 pip install -U openai-whisper #执行tiny demo whisper D:/11.mp4 --model tiny --language Chinese 

model tiny运行结果

model base运行结果

可以看出base model识别效果还是挺不错的,但由于追求速度,某些音相近的会被识别错误。
例如:
应供–因公
乘凯–陈凯
试验–誓言
逛该意目–灌溉亿亩

whisper语音识别openaichatcodepytorch多语言语言翻译自动语音识别open aicreate多任务ivaasr解码器windowshtml语音翻译git数据集语音转录时间戳pythongithuburl
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-5289.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

13个优秀开源语音识别引擎

上一篇

OPPO Find X7宣布支持AI通话摘要 通话结束即可一键生成

下一篇
  • 复制图片
按住ctrl可打开默认菜单