Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

[20210404] Weekly Arxiv 만담 #4

Closed
jungwoo-ha opened this issue Mar 29, 2021 · 6 comments
Closed

[20210404] Weekly Arxiv 만담 #4

jungwoo-ha opened this issue Mar 29, 2021 · 6 comments

Comments

@jungwoo-ha
Copy link
Owner

jungwoo-ha commented Mar 29, 2021

@veritas9872
Copy link

Efficient Linear Transformers with Kernel Methods:

Rethinking Attention with Performers:
Paper: https://openreview.net/forum?id=Ua6zuk0WRH
GitHub: https://github.com/google-research/google-research/tree/master/performer/fast_attention
Blog: https://ai.googleblog.com/2020/10/rethinking-attention-with-performers.html
PyTorch Implementation (HuggingFace): https://github.com/norabelrose/transformers-plus-performers/blob/master/src/transformers/modeling_performer_attention.py

Random Feature Attention:
Paper: https://openreview.net/forum?id=QtTKTdVrFBB

ICLR 2021에서 Kernel method을 사용해 self-attention의 O(N^2)을 O(N)으로 바꾸고자 하는 논문 2개가 oral session과 spotlight paper로 선정되었습니다. 구글과 딥마인드에서 나온 연구인데 softmax를 직접 연산하는 대신 kernel(SVM에서의 kernel과 동일한 kernel입니다)을 통해서 attention을 연산합니다.

Transformer의 가장 큰 문제점 중 하나인 quadratic growth를 해결할 수 있는 방법론으로 앞으로 많은 발전을 이룰 것을 예상합니다.

@tteon
Copy link

tteon commented Apr 2, 2021

Unsupervised Hyperbolic Representation Learning via Message Passing Auto-Encoders

paper ; https://arxiv.org/pdf/2103.16046.pdf
github ; https://github.com/junhocho/HGCAE

기존 Euclidean space 에서 진행하였던 embedding 과 본 논문 저자가 주장하는 hyperbolic 에서 진행한 embedding 방법론을 비교하고자 link prediction , node clustering task 를 통해 우수함을 보임.

Question; Table 2에서 보인 link prediction performance 에서 Pubmed (bio) dataset 은 오히려 comparison 중 하나인 DBGAN이 더 우수하였습니다. 기존 분자 구조들은 3차원이라 hyperbolic space에서 좀 더 좋은 performance가 나올것이라 기대되었으나 그렇지않았는데 DBGAN paper을 읽어보며 왜 그러한 결과가 나왔는가에 탐구해보면 흥미로운 인사이트를 얻을 수 있지 않을까 기대가 됩니다. 혹 인사이트를 얻게 된다면 이 방에 공유토록 하겠습니다. :)

@jshin49
Copy link

jshin49 commented Apr 4, 2021

  • Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth
    • Blog Post
    • Transformer 구성 요소에 대한 systematic study
    • Self-attention vs skip connections and MLP (in regards to rank collapse)
    • SANs 분석을 위한 path decomposition 방법론 제시: SANs as an ensemble of shallow networks
    • Verify the theory with experiments on common transformer architectures.
      • when skip connections are removed, all networks exhibit a rapid rank collapse,
      • adding MLP or skip connections either stops or drastically slows down rank collapse
      • short paths are responsible for the majority of SANs’ expressive power.

@jshin49
Copy link

jshin49 commented Apr 4, 2021

For next week

@jshin49
Copy link

jshin49 commented Apr 4, 2021

Poincaré Embeddings for Learning Hierarchical Representations

@veritas9872
Copy link

veritas9872 commented Apr 9, 2021

Steven Boyd 교수님께서 Minimum DIstortion Embedding (MDE)라는 논문 및 라이브러리를 발표하셨습니다.
정보를 효율적으로 압축, 시각화 등을 하는데 t-SNE와 비슷하게 사용할 수 있고 영상 등의 representation을 바꾸는데에도 사용할 수 있습니다. 또한, 파이썬 라이브러리로 PyTorch 기반으로 구현해주셔서 GPU를 쉽게 사용할 수 있어 많은 양의 데이터를 빠르게 처리할 수 있습니다.
딥러닝은 아니지만 representation space등을 자주 다루어야하는 경우에 도움이 많이 될 수 있을 것 같습니다.
논문이 매우 길기 때문에 documentation에서 요약을 찾아보시는 것을 추천합니다.

논문: https://arxiv.org/abs/2103.02559
GitHub: https://github.com/cvxgrp/pymde
Documentation: https://web.stanford.edu/~boyd/papers/min_dist_emb.html

# for free to join this conversation on GitHub. Already have an account? # to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants