[transformer] refactor cache #2481

Mddct · 2024-04-15T16:46:33Z

TODO:

fix xxx formers

QA:

1 为什么要修改成 Tuple[torch.Tensor, torch.Tensor]

torch.cat 和torch.split 在attention里边没有必要
LLM 的实现，会把 k v cache 先申请max_len的，然后tuple（k_cache, v_cache）, 在attention 里边去写 copy （去写最一开始申请好的）
详细见：
- https://github.com/google/gemma_pytorch/blob/main/gemma/model.py#L268-#L264
- https://github.com/meta-llama/llama/blob/main/llama/model.py#L236-#L286

2 该pr 封装函数 _update_kv_cache:

避免到处同样的代码，
为将来支持LLM
jit /onnx 导出， forward_chunk 接口含义不变 (不影响jit 和onnx etc)

Mddct · 2024-04-16T13:00:17Z

稍等，先不合等后续几个pr, 因为xxxformers cache的逻辑也需要同步修改，但是现在xxx formers的实现代码冗余过多需要refactor，等以下pr merge 后，该pr同步修正

add casual model fix typo rm ckpt add topk topp sampler fix positoin [train_engine] support fsdp (wenet-e2e#2412) * [train_engine] support fsdp * [train_engine] support fsdp * unify scaler and amp * fp32&&fp16 works in fsdp env * fix fsdp in cv auto cast * try to fix wenet.join fsdp * implementing zero1 under fsdp is almost equivalent to deepspeed's zero1 * fix clip_and_grad_ * fix train summary * all wenet xxxformer works (-paraformer -transducer) * try to fix nan * add barrier for cv * add destroy group for end of all train * refactor wrap methods and ckpt works * fix ckpt * fix cv in dtype != float32 * fix ckpt in model mode * fix bf16 amp * refactor scaler and autocast, fix fp32 fp16 bf16 for fsdp * fix fp32 nullcontext to nullcontext() * modify after review * fix lint * fix lint LoRA support (wenet-e2e#2049) * support lora for v3.0.1 * format code and update lora attention && encoder * fix bug when lora_list is None --------- Co-authored-by: Xingchen Song(宋星辰) <xingchensong1996@163.com> [env] update python version and deepspeed version (wenet-e2e#2462) * [env] update python version and deepspeed version * [env] fix lint fix rope pos embdining (wenet-e2e#2463) * fix rope pos embdining * fix dropout * fix comment [transformer] add multi warmup and learning rate for different modules (wenet-e2e#2449) * [transformer] add multi warmup and learning rate for different modules * fix typo * it works in warmuplr * fix lr in tensorboard in step mode * fix cv log * cv works * refactor cv log * add helper lrs_to_string * fix lrstr * fix ddp multiple lr * fix initial step * revert to -1 * fix sub params dup * fix step * fix step * fix log * add assert for scheduler * add comment for log --------- Co-authored-by: Xingchen Song(宋星辰) <xingchensong1996@163.com> add generate add toto support sft & pretrain training forward gemm conversion works support init casual model [whisper] limit language to Chinese (wenet-e2e#2470) [train] convert tensor to scalar (wenet-e2e#2471) [workflow] upgrad python version to 3.10 (wenet-e2e#2472) * [workflow] upgrad python version to 3.10 * [workflow] try to pass refactor cache behaviour in training mode (reduce compute cost and memory) (wenet-e2e#2473) all gemma model works fix ut fix ut (wenet-e2e#2477) * fix ut * fix py version [transformer] Make MoE runnable (wenet-e2e#2474) [transformer] fix mqa (wenet-e2e#2478) enable mmap in torch.load (wenet-e2e#2479) [example] Add deespeed configs of different stages for illustration (wenet-e2e#2485) [example] Fix prefetch and step_save (wenet-e2e#2486) [ctl] simplified ctl (wenet-e2e#2483) * [ctl] simplified ctl * [ctl] unify [branchformer] simplified branchformer (wenet-e2e#2482) * [transformer] simplified branchformer * fix yaml * support mqa gradiengt ckpt sdpa * fix gradient checkponit * add deepspeed comment in layer dropout * fix comment [e_branchformer] simplified e_branchformer (wenet-e2e#2484) * [e_branchformer] simplified ctl * try to fix ut * try to fix ut * fix activation * fix att args * e-branformer works [transformer] refactor cache (wenet-e2e#2481) * [transformer] refactor cache * fix ut * unify cache type in branchformer and ebranchformer fix cache fix gradient ckpt in branchformer/ebranformer (wenet-e2e#2488) fix search after refactor cache (wenet-e2e#2490) generate works! unify chat pattern convert llama3 works [transformer] set use_reentrant=False for gradient ckpt (wenet-e2e#2491) [transformer] fix warning: ignore(True) has been deprecated (wenet-e2e#2492) * [transformer] fix warning: ignore(True) has been deprecated * [transformer] fix warning: ignore(True) has been deprecated [log] avoid reduntant logging (wenet-e2e#2493) fix w1 w2 w3 in feedforward add 70b temporarily mv LLM to wenet support llm dataset unify config add dataset yaml in script support llm dataset dynamic static bucket works [transformer] refacgtor mqa repeat (wenet-e2e#2497) [transformer] fix mqa in cross att (wenet-e2e#2498) [deepspeed] update json config (wenet-e2e#2499) training works pretrain works refactor covert fix flash att in generate llama works fix llama3 fix speed try fix ut support stop tokens in gen and support ppl support stop tokens in gen and support ppl

Mddct added 2 commits April 16, 2024 00:45

[transformer] refactor cache

d75754a

fix ut

21af200

xingchensong approved these changes Apr 16, 2024

View reviewed changes

xingchensong previously approved these changes Apr 17, 2024

View reviewed changes

Mddct added 2 commits April 17, 2024 14:28

Merge branch 'main' into Mddct-refactor-cache

574c591

unify cache type in branchformer and ebranchformer

32a245d

Mddct dismissed xingchensong’s stale review via 32a245d April 17, 2024 06:43

xingchensong approved these changes Apr 17, 2024

View reviewed changes

Mddct merged commit 01ee051 into main Apr 17, 2024
6 checks passed

Mddct deleted the Mddct-refactor-cache branch April 17, 2024 06:57

Mddct mentioned this pull request Apr 17, 2024

[transformer] fix search after refactor cache #2490

Merged

This was referenced Nov 7, 2024

error in _update_kv_and_cache with conformer model #2653

Open

_update_kv_and_cache func init cache report error #2635

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[transformer] refactor cache #2481

[transformer] refactor cache #2481

Mddct commented Apr 15, 2024 •

edited

Loading

Mddct commented Apr 16, 2024 •

edited

Loading

[transformer] refactor cache #2481

[transformer] refactor cache #2481

Conversation

Mddct commented Apr 15, 2024 • edited Loading

1 为什么要修改成 Tuple[torch.Tensor, torch.Tensor]

2 该pr 封装函数 _update_kv_cache:

Mddct commented Apr 16, 2024 • edited Loading

Mddct commented Apr 15, 2024 •

edited

Loading

Mddct commented Apr 16, 2024 •

edited

Loading