免责声明

核心功能✨

💬 使用微信聊天记录微调LLM
🎙️ 使用微信语音消息结合大模型实现高质量声音克隆 👉WeClone-audio
🔗 绑定到微信机器人，实现自己的数字分身

特性与说明📋

Tip

新特性：WeClone-audio 模块，支持对微信语音进行克隆。

Note

聊天机器人后续使用 AstrBot 实现

Important

微调LLM最终效果很大程度取决于聊天数据的数量和质量

硬件要求

目前项目默认使用chatglm3-6b模型，LoRA方法对sft阶段微调，大约需要16GB显存。也可以使用LLaMA Factory支持的其他模型和方法，占用显存更少，需要自行修改模板的system提示词等相关配置。

需要显存的估算值：

训练方法	精度	7B	13B	30B	65B	8x7B
全参数	16	160GB	320GB	600GB	1200GB	900GB
部分参数	16	20GB	40GB	120GB	240GB	200GB
LoRA	16	16GB	32GB	80GB	160GB	120GB
QLoRA	8	10GB	16GB	40GB	80GB	80GB
QLoRA	4	6GB	12GB	24GB	48GB	32GB

软件要求

必需项	至少	推荐
python	3.8	3.10
torch	1.13.1	2.2.1
transformers	4.37.2	4.38.1
datasets	2.14.3	2.17.1
accelerate	0.27.2	0.27.2
peft	0.9.0	0.9.0
trl	0.7.11	0.7.11

可选项	至少	推荐
CUDA	11.6	12.2
deepspeed	0.10.0	0.13.4
bitsandbytes	0.39.0	0.41.3
flash-attn	2.3.0	2.5.5

环境搭建

git clone https://github.com/xming521/WeClone.git
conda create -n weclone python=3.10
conda activate weclone
cd WeClone
pip install -r requirements.txt

训练以及推理相关配置统一在文件settings.json

数据准备

请使用PyWxDump提取微信聊天记录。下载软件并解密数据库后，点击聊天备份，导出类型为CSV，可以导出多个联系人或群聊，然后将导出的位于wxdump_tmp/export 的 csv 文件夹放在./data目录即可，也就是不同人聊天记录的文件夹一起放在 ./data/csv。示例数据位于data/example_chat.csv。

数据预处理

项目默认去除了数据中的手机号、身份证号、邮箱、网址。还提供了一个禁用词词库blocked_words，可以自行添加需要过滤的词句（会默认去掉包括禁用词的整句）。执行 ./make_dataset/csv_to_json.py 脚本对数据进行处理。

在同一人连续回答多句的情况下，有三种处理方式：

文件	处理方式
csv_to_json.py	用逗号连接
csv_to_json-单句回答.py(已废弃)	只选择最长的回答作为最终数据
csv_to_json-单句多轮.py	放在了提示词的'history'中

模型下载

首选在Hugging Face下载ChatGLM3 模型。如果您在 Hugging Face 模型的下载中遇到了问题，可以通过下述方法使用魔搭社区，后续训练推理都需要先执行export USE_MODELSCOPE_HUB=1来使用魔搭社区的模型。
由于模型较大，下载过程比较漫长请耐心等待。

export USE_MODELSCOPE_HUB=1 # Windows 使用 `set USE_MODELSCOPE_HUB=1`
git lfs install
git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

配置参数并微调模型

(可选)修改 settings.json选择本地下载好的其他模型。
修改per_device_train_batch_size以及gradient_accumulation_steps来调整显存占用。
可以根据自己数据集的数量和质量修改num_train_epochs、lora_rank、lora_dropout等参数。

单卡训练

运行 src/train_sft.py 进行sft阶段微调，本人loss只降到了3.5左右，降低过多可能会过拟合，我使用了大概2万条整合后的有效数据。

python src/train_sft.py

多卡训练

pip install deepspeed
deepspeed --num_gpus=使用显卡数量 src/train_sft.py

使用浏览器demo简单推理

python ./src/web_demo.py

使用接口进行推理

python ./src/api_service.py

使用常见聊天问题测试

python ./src/api_service.py
python ./src/test_model.py

部署微信聊天机器人

Important

微信有封号风险，建议使用小号，并且必须绑定银行卡才能使用

python ./src/api_service.py # 先启动api服务
python ./src/wechat_bot/main.py

默认在终端显示二维码，扫码登录即可。可以私聊或者在群聊中@机器人使用。

截图

使用RAG补充知识

Todo

多模态

Todo

免责声明

Caution

请勿用于非法用途，否则后果自负。

1. 使用目的

本项目仅供学习交流使用，请勿用于非法用途，请勿用于非法用途，请勿用于非法用途，否则后果自负。
用户理解并同意，任何违反法律法规、侵犯他人合法权益的行为，均与本项目及其开发者无关，后果由用户自行承担。

2. 使用期限

您应该在下载保存使用本项目的24小时内，删除本项目的源代码和程序；超出此期限的任何使用行为，一概与本项目及其开发者无关。

3. 操作规范

本项目仅允许在授权情况下使用数据训练，严禁用于非法目的，否则自行承担所有相关责任；用户如因违反此规定而引发的任何法律责任，将由用户自行承担，与本项目及其开发者无关。
严禁用于窃取他人隐私，严禁用于窃取他人隐私，严禁用于窃取他人隐私，否则自行承担所有相关责任。

4. 免责声明接受

下载、保存、进一步浏览源代码或者下载安装、编译使用本程序，表示你同意本警告，并承诺遵守它;

5. 禁止用于非法测试或渗透

禁止利用本项目的相关技术从事非法测试或渗透，禁止利用本项目的相关代码或相关技术从事任何非法工作，如因此产生的一切不良后果与本项目及其开发者无关。
任何因此产生的不良后果，包括但不限于数据泄露、系统瘫痪、侵犯隐私等，均与本项目及其开发者无关，责任由用户自行承担。

6. 免责声明修改

本免责声明可能根据项目运行情况和法律法规的变化进行修改和调整。用户应定期查阅本页面以获取最新版本的免责声明，使用本项目时应遵守最新版本的免责声明。

7. 其他

除本免责声明规定外，用户在使用本项目过程中应遵守相关的法律法规和道德规范。对于因用户违反相关规定而引发的任何纠纷或损失，本项目及其开发者不承担任何责任。
请用户慎重阅读并理解本免责声明的所有内容，确保在使用本项目时严格遵守相关规定。

请用户慎重阅读并理解本免责声明的所有内容，确保在使用本项目时严格遵守相关规定。

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
WeClone-audio		WeClone-audio
data		data
img		img
make_dataset		make_dataset
src		src
.gitignore		.gitignore
README.md		README.md
ds_config.json		ds_config.json
requirements.txt		requirements.txt
settings.json		settings.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

核心功能✨

特性与说明📋

硬件要求

软件要求

环境搭建

数据准备

数据预处理

模型下载

配置参数并微调模型

单卡训练

多卡训练

使用浏览器demo简单推理

使用接口进行推理

使用常见聊天问题测试

部署微信聊天机器人

截图

使用RAG补充知识

多模态

免责声明

1. 使用目的

2. 使用期限

3. 操作规范

4. 免责声明接受

5. 禁止用于非法测试或渗透

6. 免责声明修改

7. 其他

About

Releases

Packages

Contributors 2

Languages

xming521/WeClone

Folders and files

Latest commit

History

Repository files navigation

核心功能✨

特性与说明📋

硬件要求

软件要求

环境搭建

数据准备

数据预处理

模型下载

配置参数并微调模型

单卡训练

多卡训练

使用浏览器demo简单推理

使用接口进行推理

使用常见聊天问题测试

部署微信聊天机器人

截图

使用RAG补充知识

多模态

免责声明

1. 使用目的

2. 使用期限

3. 操作规范

4. 免责声明接受

5. 禁止用于非法测试或渗透

6. 免责声明修改

7. 其他

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages