SenseVoice多语言语音理解模型之最新部署落地经验

SenseVoice多语言语音理解模型之最新部署落地经验

    正在检查是否收录...

SenseVoice是阿里云通义实验室开发的一款多语言音频基础模型,专注于高精度多语言语音识别、情感辨识和音频事件检测。

SenseVoice支持超过50种语言的识别,并且在中文和粤语上的识别效果优于Whisper模型,提升了50%以上。

SenseVoice具备强大的情感识别能力,能够检测音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件。

SenseVoice模型在推理速度上表现出色,其小型模型SenseVoice-Small采用非自回归端到端框架,10秒音频的推理时间仅为70毫秒,比Whisper-large快15倍。

github项目地址:https://github.com/FunAudioLLM/SenseVoice。

一、环境安装

1、python环境

建议安装python版本在3.10以上。

2、库安装

pip install torch==2.0.0+cu118 torchvision==0.15.1+cu118 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple pip install funasr-onnx gradio -i https://pypi.tuna.tsinghua.edu.cn/simple

为了方便音频处理,还需要安装ffmpeg,命令如下:

apt install ffmpeg

3、SenseVoiceSmall模型下载

git lfs install git clone https://www.modelscope.cn/iic/SenseVoiceSmall.git

二、功能测试

1、运行测试:

(1)通过官方model代码进行调用测试

from model import SenseVoiceSmall import time import argparse class VoiceRecognitionModel: def __init__(self, model_dir="SenseVoiceSmall", device="cpu"): self.model_dir = model_dir self.device = device self.model, self.kwargs = SenseVoiceSmall.from_pretrained(model=self.model_dir, device=self.device) def infer(self, input_file, language="auto", use_itn=False): start_time = time.time() result = self.model.inference( data_in=input_file, language=language, use_itn=use_itn, **self.kwargs, ) elapsed_time_ms = (time.time() - start_time) * 1000 print(f"tts time: {elapsed_time_ms:.2f} ms") return result if name == "__main__": parser = argparse.ArgumentParser() parser.add_argument('--voice', type=str, default='voice/test1.wav', help='Path to the voice') args = parser.parse_args() model_dir="SenseVoiceSmall" device="cpu" recognizer = VoiceRecognitionModel(model_dir, device) result = recognizer.infer(args.voice) print(result)

(2)通过funasr进行调用测试

未完......

更多详细的内容欢迎关注:杰哥新技术

总结

**SenseVoice多语言音频基础模型概述**
SenseVoice,作为阿里云通义实验室的创新之作,是一款集高精度语音识别、深度情感辨识与先进音频事件检测于一体的多功能语音模型。该模型支持全球超过50种语言的识别,特别是在中文及粤语的识别效果上,相较于业内知名的Whisper模型,展现出超过50%的性能提升,实现了语音识别技术的又一里程碑。
**核心特性**:
- **多语言支持**:支持广泛的全球语言,确保无论用户来自何方,都能享受到流畅的语音识别体验。
- **精准识别**:中文与粤语识别精度超越业内领先模型,满足多元文化背景下的精准需求。
- **情感辨识**:不仅能够识别语音内容,更能洞察情绪变化,如音乐、掌声、笑声、哭声、咳嗽及喷嚏等常见人机交互声音,实现更人性化的互动体验。
- **高效推理**:采用非自回归端到端架构的SenseVoice-Small模型,在推理速度上令人瞩目,处理10秒音频仅需70毫秒,相比Whisper-large快达15倍,极大提升了处理效率与用户体验。
**应用安装与测试**:
- **环境配置**:建议使用Python 3.10及以上版本,并安装指定版本的PyTorch及相关依赖库,确保模型运行的稳定与兼容性。
- **模型下载**:通过GitHub或指定的模型仓库下载SenseVoiceSmall模型,为后续的功能测试做好准备。
- **功能测试**:支持通过官方提供的模型代码或funasr等工具进行功能验证,操作简单快捷,只需提供音频文件即可获得语音识别及情感分析结果。
SenseVoice以其卓越的性能与广泛的适用性,开辟了语音识别与交互的新篇章,无论是科研探索还是实际应用,都将为用户带来全新的体验与价值。如需获取更多信息或深入了解,请访问[GitHub项目地址](https://github.com/FunAudioLLM/SenseVoice)或直接关注“杰哥新技术”获取最新动态。 gitparse语音识别github多语言whisperpythonasr人机交互高精度cpu基础模型端到端pytorchllm互动体验模型运行url用户体验clone
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-19244.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

模板初阶(详解)

上一篇

Perplexity热度爆表,单月搜索量达2.5亿是去年一半,AI搜索让谷歌掉队?

下一篇
  • 复制图片
按住ctrl可打开默认菜单