请教下训练的显存需求 #20

denghj3 · 2024-03-27T07:09:45Z

想请教下，llama-pro训练的显存需求是多少，和lora比要多多少

hills-code · 2024-03-27T07:13:19Z

这取决于您添加的层数，以及训练的设置，根据我的经验8卡A100-40G是能够支持ctx-length=4096的预训练的，我试过将LoRA的rank调大到1024，使得lora和我们可训练的参数量相近，此时显存占用也是差不多的

denghj3 · 2024-03-27T07:40:30Z

这取决于您添加的层数，以及训练的设置，根据我的经验8卡A100-40G是能够支持ctx-length=4096的预训练的，我试过将LoRA的rank调大到1024，使得lora和我们可训练的参数量相近，此时显存占用也是差不多的

噢我理解是llama-pro在预训练时仅需调整新加的block，所以应该远小于全参数训练所需的显存？

hills-code · 2024-03-27T07:42:27Z

是的，但是如果新增加的要训练的层很多，同样也会带来很大的显存占用，并且训练的时候其实原有模型的参数也需要load进去，尽管不需要微调

denghj3 · 2024-03-27T08:01:34Z

是的，但是如果新增加的要训练的层很多，同样也会带来很大的显存占用，并且训练的时候其实原有模型的参数也需要load进去，尽管不需要微调

噢噢。感谢回答！~

tammypi · 2024-10-17T08:15:38Z

是的，但是如果新增加的要训练的层很多，同样也会带来很大的显存占用，并且训练的时候其实原有模型的参数也需要load进去，尽管不需要微调

请问为什么14B模型，可以在L20 40G * 2的机器上使用lora进行预训练，但是改为LLAMA_PRO之后，在A800 80G * 3的机器上，会显存溢出？
只有把层数改为1，才可以在A800 80 * 3的机器上训练，占用显存大概170G+。如果是14B模型，扩展的层数为1的话，是可以的吗？会对于效果产生影响吗？

tammypi · 2024-10-17T11:43:17Z

好像从图里看，添加几个块之间的差距并不大。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请教下训练的显存需求 #20

请教下训练的显存需求 #20

denghj3 commented Mar 27, 2024

hills-code commented Mar 27, 2024

denghj3 commented Mar 27, 2024

hills-code commented Mar 27, 2024

denghj3 commented Mar 27, 2024

tammypi commented Oct 17, 2024 •

edited

Loading

tammypi commented Oct 17, 2024 •

edited

Loading

请教下训练的显存需求 #20

请教下训练的显存需求 #20

Comments

denghj3 commented Mar 27, 2024

hills-code commented Mar 27, 2024

denghj3 commented Mar 27, 2024

hills-code commented Mar 27, 2024

denghj3 commented Mar 27, 2024

tammypi commented Oct 17, 2024 • edited Loading

tammypi commented Oct 17, 2024 • edited Loading

tammypi commented Oct 17, 2024 •

edited

Loading

tammypi commented Oct 17, 2024 •

edited

Loading