Whisper-Dictation：基于OpenAI语音转文本模型的开源录音转文字应用

正在检查是否收录...

Whisper-Dictation：基于OpenAI语音转文本模型的开源录音转文字应用

whisper_dictation Fast! Offline, privacy-focused, hands-free voice typing, 2-way AI voice chat, with images, voice control, in under 4 GiB of VRAM. 项目地址: https://gitcode.com/gh_mirrors/wh/whisper_dictation

1. 项目目录结构及介绍

Whisper-Dictation项目遵循标准的Python项目组织结构，并且包含了必要的配置文件与脚本。以下是其主要目录结构及各部分简要说明：

├── .gitignore # Git忽略文件配置 ├── LICENSE # 许可证文件 ├── README.md # 项目的主要读我文件，包含概述和快速入门指南 ├── pyproject.toml # Python项目的配置文件，用于依赖管理和工具设置 ├── poetry.lock # 使用Poetry时的锁定文件，记录确切的依赖版本 ├── requirements.txt # 项目所需第三方库列表，非Poetry用户安装依赖所用 ├── run.sh # 脚本文件，用于运行应用程序 └── whisper-dictation.py # 主程序入口文件，实现录音转换成文本的核心逻辑

2. 项目的启动文件介绍

项目的核心在于whisper-dictation.py文件，此文件作为应用的主入口。通过执行该脚本可以启动基于OpenAI Whisper ASR模型的实时或离线语音识别功能。用户可以通过命令行参数来定制化配置，例如选择不同的Whisper模型大小（如'base', 'large'等）、修改触发录音的热键组合以及指定识别语言等。

启动示例（使用大型模型，自定义热键为右Command+Shift，并设定语言为英语）:

python whisper-dictation.py -m large -k cmd_r+shift -l en

3. 项目的配置文件介绍

Whisper-Dictation项目未直接提供一个传统意义上的独立配置文件。然而，配置项主要是通过命令行参数进行设置的，这可以视为一种灵活的“即时配置”方式。用户若需经常更改配置，可以通过编辑run.sh脚本来间接实现固定的配置加载，或者在调用whisper-dictation.py时手动添加参数。

尽管如此，对于环境依赖和版本管理，项目利用了pyproject.toml和poetry.lock文件来标准化依赖的安装和环境的构建，这些是现代Python项目中的关键“隐形”配置文件，确保了项目的环境一致性。

通过上述介绍，开发者和用户能够清楚地了解到如何操作这个项目，从理解基本架构到启动应用再到定制个性化配置，每一个步骤都变得清晰易行。

总结

**Whisper-Dictation项目总结**
**项目简介**：
Whisper-Dictation是一款基于OpenAI语音转文本模型的开源录音转文字应用，专注于快速、离线、隐私保护的免提语音输入，支持双向AI语音聊天、图像集成及语音控制，且对系统资源要求极低，仅需不到4GB的VRAM即可运行。
**核心特点**：
- **快速**：实时或离线语音识别，提升工作效率。
- **离线与隐私保护**：用户数据不依赖云端处理，确保隐私安全。
- **免提操作**：支持通过语音控制及自定义热键进行无接触操作。
- **灵活配置**：通过命令行参数轻松调整模型大小、触发键和语言设置。
- **资源优化**：轻量级设计，适应不同配置的设备。
**项目目录结构**：
- **.gitignore**：Git版本控制忽略文件列表。
- **LICENSE**：项目许可证文件。
- **README.md**：项目概述、功能介绍及快速入门指南。
- **pyproject.toml**：Python项目配置文件，管理依赖和工具设置。
- **poetry.lock**：依赖版本锁定文件，确保环境一致性。
- **requirements.txt**：非Poetry用户依赖列表。
- **run.sh**：运行脚本，方便一键启动应用。
- **whisper-dictation.py**：主程序入口，实现录音转文字的核心功能。
**启动与配置**：
- 通过执行`whisper-dictation.py`脚本启动应用，支持多种命令行参数以定制功能，如模型大小、触发热键和识别语言。
- 虽然没有传统意义上的独立配置文件，但可通过编辑`run.sh`脚本或手动添加命令行参数来实现配置固定化。
- 利用`pyproject.toml`和`poetry.lock`确保项目依赖和环境的一致性。
**项目地址**：
- [https://gitcode.com/gh_mirrors/wh/whisper_dictation](https://gitcode.com/gh_mirrors/wh/whisper_dictation)
**总结**：
Whisper-Dictation为开发者和用户提供了一款高效、便捷、隐私保护的语音转文字工具，通过灵活的配置选项和轻量级设计，满足了多种使用场景的需求。无论是个人笔记、会议记录还是创意激发，都能享受到前所未有的语音输入体验。 whispergitpoe命令行pythoncodeai语音openai隐私保护一致性录音转文字iva许可证轻量级语音控制chat语音输入开发者语音识别语音转文本