Skip to content

sorrystopper/MyGPT

Repository files navigation

注意!!!

  1. 我是用V100跑了9h pretrain后的模型+一坤时sft后的模型(人工看起来效果还不错?),因为是在服务器上跑的,懒得下载到本地(下起来可能会导致vscode卡住),要注意的是pretrain中的bash step_02.sh中的CUDA_VISIBLE_DEVICEworld_sizegpus参数都需要根据自己的卡来调整
  2. 如果你要参考我的代码,可以提前和我说一声?
  3. pretrain和sft的模型参数我没有放到这里,需要的话可以Q我。
  4. 有问题可以Q我 or Email at 1377765332@.com

train_tokenizer

train_tokenizer代码在train_tokenizer.py中,用bash step_01.sh运行,这里使用的是char-based的方法,后面看时间情况改成使用bpe的方法(看来是没时间弄了)。

pretrain

pretrain代码在pretrain.py中,用bash step_02.sh运行。 注意:

  1. --train_type pretrain来指定模型进行预训练。

Evaluation

python pretrain.py运行。 注意:

  1. pretrain.py代码中自己修改想要评测模型的位置。
  2. 修改eval_type变量来选择是对pretrain测试还是对sft测试

sft

bash step_02.sh运行。 注意:

  1. --train_type sft来指定模型进行supervised finetune

ceval

执行

cd ceval
bash ceval.sh

注意:

  1. ceval.sh中修改自己的模型路径和参数。
  2. 修改了generate.py,没懂为什么老师是用logits=logits[0][0],不应该是根据最近生成的token获得的词典大小的logits来预测ABCD吗?

总结

  1. 以上代码都能在我服务器上运行,且看起来效果还不错,如果有问题,可以Q我 or Email 1377765332@.com

About

NLP experiment

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published