AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快

AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快

    正在检查是否收录...

AssemblyAI 最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现,该模型在准确性和鲁棒性方面均取得了行业领先地位。先说结果,Universal-1比Whisper Large-v3更准确,比fast Whisper更快,38秒可以处理60分钟音频。

Universal-1训练于1250万小时的多语言音频数据,采用了 Conformer RNN-T 架构,在英语、西班牙语和德语的语音转文字准确性上均取得10% 以上的提升。该模型还展现出多语言转录能力,能够在单个音频文件中转录多种语言。

除了语音转文字准确性外,Universal-1还具有精确的时间戳估计能力,对于音视频编辑和说话者辨识等应用具有重要意义。该模型通过优化的解码器实现了13% 的时间戳准确度提升,比 Whisper Large-V3提高了26%。此外,Universal-1还实现了高效的并行推理,比 Whisper Large-V3在相同硬件上实现了5倍的加速。

为了构建 Universal-1,AssemblyAI 利用了 Conformer 编码器和 RNN-T 模型,通过大规模的自监督学习框架和大量的标记数据进行训练。他们利用 Google Cloud TPUs 和 JAX 进行训练,构建了可靠的基础设施和系统设计。除了多语音数据外,他们还结合了各种数据增强方法,提高了模型的准确性和鲁棒性。

AssemblyAI 的研究展示了他们在语音 AI 领域的领先地位,Universal-1模型在多语言环境下取得了令人瞩目的表现,为客户提供了准确、忠实和鲁棒的语音转文字能力。值得一提的是,Universal-1非开源,仅提供API调用。

产品入口:https://top.aibase.com/tool/universal-1

多语言whisper准确性语音转文字sem时间戳视频编辑系统设计数据增强tpu学习框架语音 aigoogle cloud基础设施研究成果解码器api调用apijax自监督学习
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-12630.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!

上一篇

超越GPT-4,斯坦福团队手机可跑的大模型火了,一夜下载量超2k

下一篇
  • 复制图片
按住ctrl可打开默认菜单