- 🎧 支持多种音频格式 (wav, mp3, ogg)
- 📝 将音频文件快速转换为文本
- ⚙️ 可选择不同的 Whisper 模型 (openai/whisper-large-v3, openai/whisper-medium, openai/whisper-small, openai/whisper-tiny)
- 🌐 支持多种语言 (中文、英文、法语、德语、西班牙语、日语、韩语)
- 🚀 可选 GPU 加速 (如果可用)
- 💾 支持将转录结果保存为 .txt 文件
- 📊 精确的转录进度显示
- ✨ 简洁友好的用户界面
-
克隆或下载仓库:
git clone https://github.com/loveboyme/SpeechRecognition
-
创建虚拟环境 (推荐):
python -m venv venv source venv/bin/activate # On Linux/macOS venv\Scripts\activate # On Windows
-
安装依赖:
pip install -r requirements.txt
或者,你可以手动安装以下:
pip install PyQt5 transformers torch librosa numpy
-
运行应用:
python SpeechRecognition.py
- 选择模型: 在下拉菜单中选择你想要使用的 Whisper 模型。更大的模型通常提供更高的准确性,但也需要更多的计算资源。模型文件将会在首次使用时下载并缓存。
- 选择语言: 选择音频中使用的语言。
- 打开音频文件: 点击 "打开音频文件" 按钮,选择你要转录的音频文件。
- 开始转录: 点击 "开始转录" 按钮开始转录过程。你可以在进度条中查看转录进度。
- 查看结果: 转录的文本将显示在下方的文本框中。
- 保存: 点击 "保存" 按钮将转录结果保存到 .txt 文件。
- 模型文件将下载并存储在当前工作目录下的 model 文件夹中。
- PyQt5:用于创建图形用户界面。
- Transformers:Hugging Face 提供的用于自然语言处理的库,包括 Whisper 模型。
- Torch:一个开源的深度学习框架,用于运行 Whisper 模型。
- Librosa:一个用于音频和音乐分析的 Python 库。
- Numpy:用于科学计算的 Python 库。
- 首次使用某个模型时,可能需要一些时间来下载模型文件。
- 如果你的系统有可用的 NVIDIA GPU 并且正确安装了 CUDA,应用将尝试使用 GPU 进行加速,从而加快转录速度。
- 转录的准确性可能受到音频质量、背景噪音和所选模型的影响。
感谢 Hugging Face 提供的 Transformers 库和预训练模型。