Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

放出来的vitae-rsva-dota权重可能有错 #41

Open
WenLinLliu opened this issue Sep 26, 2024 · 7 comments
Open

放出来的vitae-rsva-dota权重可能有错 #41

WenLinLliu opened this issue Sep 26, 2024 · 7 comments

Comments

@WenLinLliu
Copy link

Snipaste_2024-09-26_09-29-10 Snipaste_2024-09-26_09-29-30 backbone的有些层是qkv_bias,而有些层是q_bias和k_bias,请核实
@DotWang
Copy link
Collaborator

DotWang commented Sep 26, 2024

@WenLinLliu 我建议你把这两种bias打出来,看看哪个是None

@WenLinLliu
Copy link
Author

@WenLinLliu 我建议你把这两种bias打出来,看看哪个是None

都不是None

@WenLinLliu
Copy link
Author

Snipaste_2024-09-26_14-57-26

@DotWang
Copy link
Collaborator

DotWang commented Sep 26, 2024

@WenLinLliu 你提到的是qk部分,那应该是跟ViTAE没啥关系,是注意力部分,在这个仓库的issues里,有人成功复现了ViT-B+RVSA

#19

你看看这个权重是不是也是这样的

另外,最近我们拿同样的结构,跑了一个多任务预训练,你也可以试试那里的权重,看看有没有相同的现象

https://github.com/ViTAE-Transformer/MTP

如果这俩没有问题,那就说明一件事,我当时训完模型以后,不知道什么时候把bias这块改了一下,可能为了让代码长的都一样?你看看代码有没有什么注释掉的地方,能不能恢复回去,总之这个东西的时间太久了,原来训得权重早都找不到了,留下来的权重就是github上传的这些

@WenLinLliu
Copy link
Author

@WenLinLliu 你提到的是qk部分,那应该是跟ViTAE没啥关系,是注意力部分,在这个仓库的issues里,有人成功复现了ViT-B+RVSA

#19

你看看这个权重是不是也是这样的

另外,最近我们拿同样的结构,跑了一个多任务预训练,你也可以试试那里的权重,看看有没有相同的现象

https://github.com/ViTAE-Transformer/MTP

如果这俩没有问题,那就说明一件事,我当时训完模型以后,不知道什么时候把bias这块改了一下,可能为了让代码长的都一样?你看看代码有没有什么注释掉的地方,能不能恢复回去,总之这个东西的时间太久了,原来训得权重早都找不到了,留下来的权重就是github上传的这些

感谢回复

@WenLinLliu
Copy link
Author

@DotWang 一般attention里面用的qkv_bias,这里把q_bias和v_bias分开是什么用意

@DotWang
Copy link
Collaborator

DotWang commented Sep 28, 2024

@DotWang 这么做好像是为了让k没有bias,这份代码网络骨干是ViTAE-VitDet的代码,然后注意力是基于VSA代码上改的,我把两份代码拼了起来,不过我觉得性能上没啥区别,所以用的时候就比较随意了,可能混用什么的

# for free to join this conversation on GitHub. Already have an account? # to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants