🎙️ 音频文件转文字工具

一个基于 PyQt 和 Transformers 的简单易用的音频转文字桌面应用。

🌟 功能特性

🎧 支持多种音频格式 (wav, mp3, ogg)
📝 将音频文件快速转换为文本
⚙️ 可选择不同的 Whisper 模型 (openai/whisper-large-v3, openai/whisper-medium, openai/whisper-small, openai/whisper-tiny)
🌐 支持多种语言 (中文、英文、法语、德语、西班牙语、日语、韩语)
🚀 可选 GPU 加速 (如果可用)
💾 支持将转录结果保存为 .txt 文件
📊 精确的转录进度显示
✨ 简洁友好的用户界面

🛠️ 安装指南

克隆或下载仓库:

git clone https://github.com/loveboyme/SpeechRecognition

创建虚拟环境 (推荐):

python -m venv venv
source venv/bin/activate  # On Linux/macOS
venv\Scripts\activate  # On Windows

安装依赖:

pip install -r requirements.txt

或者，你可以手动安装以下:

pip install PyQt5 transformers torch librosa numpy

运行应用:
```
python SpeechRecognition.py
```

⚙️ 使用方法

选择模型: 在下拉菜单中选择你想要使用的 Whisper 模型。更大的模型通常提供更高的准确性，但也需要更多的计算资源。模型文件将会在首次使用时下载并缓存。
选择语言: 选择音频中使用的语言。
打开音频文件: 点击 "打开音频文件" 按钮，选择你要转录的音频文件。
开始转录: 点击 "开始转录" 按钮开始转录过程。你可以在进度条中查看转录进度。
查看结果: 转录的文本将显示在下方的文本框中。
保存: 点击 "保存" 按钮将转录结果保存到 .txt 文件。

📂 模型文件

模型文件将下载并存储在当前工作目录下的 model 文件夹中。

📝 依赖

PyQt5：用于创建图形用户界面。
Transformers：Hugging Face 提供的用于自然语言处理的库，包括 Whisper 模型。
Torch：一个开源的深度学习框架，用于运行 Whisper 模型。
Librosa：一个用于音频和音乐分析的 Python 库。
Numpy：用于科学计算的 Python 库。

💡 注意事项

首次使用某个模型时，可能需要一些时间来下载模型文件。
如果你的系统有可用的 NVIDIA GPU 并且正确安装了 CUDA，应用将尝试使用 GPU 进行加速，从而加快转录速度。
转录的准确性可能受到音频质量、背景噪音和所选模型的影响。

🙏 感谢

感谢 Hugging Face 提供的 Transformers 库和预训练模型。

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
SpeechRecognition.py		SpeechRecognition.py
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🎙️ 音频文件转文字工具

🌟 功能特性

🛠️ 安装指南

⚙️ 使用方法

📂 模型文件

📝 依赖

💡 注意事项

🙏 感谢

About

Releases

Packages

Languages

loveboyme/SpeechRecognition

Folders and files

Latest commit

History

Repository files navigation

🎙️ 音频文件转文字工具

🌟 功能特性

🛠️ 安装指南

⚙️ 使用方法

📂 模型文件

📝 依赖

💡 注意事项

🙏 感谢

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages