不到百行代码,使用Whisper进行视频字幕生成。

不到百行代码,使用Whisper进行视频字幕生成。

    正在检查是否收录...

前言

  最近在学习视频剪辑的时候,希望找一款软件进行翻译;发现大多数是调用某云的Api进行翻译。通过查询资料,打算使用Whisper进行本地视频语音的识别,然后进行字幕文件的编辑(srt),最后通过ffmpeg添加到视频中。
  Whisper 是 OpenAI 构建的通用语音识别模型。它于 2022 年底正式向公众发布,现已成为最先进的语音识别模型之一。可以进行多语言语音识别、语言翻译和语言识别。
  废话不多说,上代码。

一、安装

  Whisper需要用到英伟达显卡进行翻译,所以需要安装pytorch的cpu版本。

pip install torch --index-url https://download.pytorch.org/whl/cu118

安装openai-whisper模块

pip install -U openai-whisper

二、Whisper

根据自己显卡的显存大小,选择不同的whisper模型。

模型 要求的显存 速度 tiny 大于1GB ~32x base 大于1GB ~16x small 大于2GB ~6x medium 大于5GB ~2x large 大于10GB ~1x

1.下载模型

下载base模型到C:\Users\用户.cache\whisper

import whisper model = whisper.load_model("base") 

也可以指定下载路径

import whisper model = whisper.load_model("base", download_root="路径") 

2.视频语音识别

# 视频路径 video_path = "./Who are you.mp4" 

whisper语音识别openaipytorchapi多语言视频剪辑语言翻译idemediumcpuurl
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-9947.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

Jshop采集插件:电子商务新视界的利刃

上一篇

让大模型“瘦身”90%!清华&哈工大提出极限压缩方案:1bit量化,能力同时保留83%

下一篇
  • 复制图片
按住ctrl可打开默认菜单