Whisper-AT:一个统一语音识别和音频标签的模型

Whisper-AT:一个统一语音识别和音频标签的模型

    正在检查是否收录...

公众号/视频号/小红书/微博 :人工智能技术派
人工智能技术派(AITECH)成员:hws

⎣语音大模型⎤ Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers

背景介绍

        Whisper模型使用了从互联网收集的680,000小时的标注语音数据,这些数据来自多样化的环境和录音设置,进而使得Whispe比现有ASR模型具有更好的鲁棒性。通过下图可以看出whisper的编码大多数背景声音信息,也就是说whisper或许可以用作音频分类,基于这一发现,论文探索了“一个统一语音识别和音频标签的模型”的方案。

方案阐述

        上图是作者提出的“统一语音识别和音频标记”的模型架构,冻结Whisper的主干网络,也就是原来的whisper模型可以直接使用,识别效果不受任何影响。变动的地方是引入一个轻量级的音频标签模型(at-model),这里at-model架构的选择作者实验了4中方案,分别是:

Last-MLP:顾名思义只将whisper模型最后一层的输出作为特征输给at-model WA-MLP:WA指weighted average,这个方案取whisper所有层的输出,将平均值发送给at-model WA-Tr:这个方案将WA-MLP的线性层用一个单头的transformer代替 TL-Tr:全称“time and layer-wise Transformer ”,就是上图框架对应方案,每一层的输出单独进行temporal Transformer,各层的Transformer权重是共享的。

        作者为什么将whisper每一层的输出作为特征输入给at-model喃?关于这一点论文有实验结论:不同类别的声音采用whisper不同层的输出作为特征可以取得更好的分类效果(如下图)。

        因为额外增加了1个at-model,所以计算力相比whisper肯定是要增加的,为最小化这种影响,at-model做了如下优化设计:1)在时间维度引入池化层将序列长度从500降至25;2)增加一个线性变换层,将维度从1280降至512。

归纳总结

        综合看论文给出的实验结论(参下表),效果还是不错的。在精度相当的情况下,at-model取tl-tr时,at-model速度是AST的42倍。注意这里特指at-model部分,也就是说这里的42倍指的是纯音频标签部分的算力对比。

如果你是“语音识别+音频标签”任务,在识别算力没有增加的情况下,音频标签算力大大减少 如果你是单纯的“音频标签”任务,使用Whisper-Large就不太合适了,算力应该会超过AST,这个时候可以采用Whisper-Small外加一个更大的at-model(如表的最后一行),这个时候收益没那么大了,只有2.5倍,效果也差一些

同时,论文中给出了实现代码,为方便调试可以先下个tiny模型,执行whisper_transcribe_test_simple.py可以快速看到结果。

参考文献

Whisper-AT: https://www.isca-archive.org/interspeech_2023/gong23d_interspeech.pdf 实现代码:GitHub - YuanGongND/whisper-at: Code and Pretrained Models for Interspeech 2023 Paper "Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers"

whispertransformer语音识别人工智能智能技术人工智能技术asr声音信息hive多样化codepretrained model参考文献git公众号互联网rag轻量级githubpdf
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-12001.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

涨粉、爆单、冲上热榜这款AI真人视频数字人有点好用!

上一篇

开源大模型DBRX:1320亿参数,比Llama2-70B快1倍

下一篇
  • 复制图片
按住ctrl可打开默认菜单