AI语音识别工具Universal-1：38秒可以处理60分钟音频比fast Whisper更快

SEO教程

正在检查是否收录...

AssemblyAI 最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现，该模型在准确性和鲁棒性方面均取得了行业领先地位。先说结果，Universal-1比Whisper Large-v3更准确，比fast Whisper更快，38秒可以处理60分钟音频。

Universal-1训练于1250万小时的多语言音频数据，采用了 Conformer RNN-T 架构，在英语、西班牙语和德语的语音转文字准确性上均取得10% 以上的提升。该模型还展现出多语言转录能力，能够在单个音频文件中转录多种语言。

除了语音转文字准确性外，Universal-1还具有精确的时间戳估计能力，对于音视频编辑和说话者辨识等应用具有重要意义。该模型通过优化的解码器实现了13% 的时间戳准确度提升，比 Whisper Large-V3提高了26%。此外，Universal-1还实现了高效的并行推理，比 Whisper Large-V3在相同硬件上实现了5倍的加速。

为了构建 Universal-1，AssemblyAI 利用了 Conformer 编码器和 RNN-T 模型，通过大规模的自监督学习框架和大量的标记数据进行训练。他们利用 Google Cloud TPUs 和 JAX 进行训练，构建了可靠的基础设施和系统设计。除了多语音数据外，他们还结合了各种数据增强方法，提高了模型的准确性和鲁棒性。

AssemblyAI 的研究展示了他们在语音 AI 领域的领先地位，Universal-1模型在多语言环境下取得了令人瞩目的表现，为客户提供了准确、忠实和鲁棒的语音转文字能力。值得一提的是，Universal-1非开源，仅提供API调用。

产品入口：https://top.aibase.com/tool/universal-1

多语言whisper准确性语音转文字sem时间戳视频编辑系统设计数据增强tpu学习框架语音 aigoogle cloud基础设施研究成果解码器api调用apijax自监督学习