-
Notifications
You must be signed in to change notification settings - Fork 40
New issue
Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? # to your account
[20220410] Weekly AI ArXiv 만담 - 48회차 (DALLE-2 특집) #48
Comments
|
|
DALL-E 2 행간 읽기DALL-E 1 되돌아 보기2021년 1월 5일 Open AI 블로그 포스팅과 1월6일의 트윗 그리고 Stella Rose Biderman의 댓글
2021년 1월 7일 EleutherAI의 1년 회고 by Connor Leahy, Eric Hallahan, Leo Gao, Stella Biderman 속 The Revival of #art 와 The Underground Studio, #the-faraday-cage
Scaling Laws for Neural Language Models (2020년 1월 23일) → GPT-3: Language Models are Few-Shot Learners (2020년 5월 28일), 약 4개월 Scaling Laws for Autoregressive Generative Modeling (2020년 10월 28일) → DALL-E 1: (2021년 1월 6일) 약 2개월 DALL-E 1·2의 1저자 Aditya Ramesh는 누구일까?https://twitter.com/model_mechanic
거의 모든 것에 대한 보간2022년 4월 6일/13일 DALL-E 2 Hierarchical Text-Conditional Image Generation with CLIP Latents by Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen 에서 Aditya Ramesh의 트윗을 보고, 이게 그걸 말했던 것이구나 싶었던 이미지 두 장 Figure 4의 두 번째 행의 이미지는 처음 CDN에 페이퍼를 업로드한 후 트윗을 했던 내용을 반영한 이미지, Figure 5도 업데이트된 부분
좀 더 자세한 영상과 포스팅 그리고 포스팅에 등장하는 이미지의 레퍼런스
레퍼런스 관련 글: Generative Design 창작자를 위한 머신러닝에 관한 안내, 교육에 관한 함의 (2017년 3월) Karen X. Cheng의 DALL-E 2 인스타 라이브 하나의 프롬프트에 대응하는 10개 이미지 생성에 20초 소요(어떻게 MLOps를 했을지?). 역디퓨전 중간 과정은 보여주지 않는 방식. 라이브 후반부에는 패션 디자인이나 UI 디자인 등에 아이디어를 내보는 접근을 시도 거의 모든 것에 대한 보간을 지탱하는 기술
커뮤니티의 따라잡기2021년 5월 Diffusion Models Beat GANs on Image Synthesis by Prafulla Dhariwal(DALL-E 2의 2저자), Alex Nichol(DALL-E 2의 3저자), guided-diffusion 소스 및 체크 포인트 공개가 디스코 디퓨전으로 이어지는 이야기의 시작이 됨. A frankensteinian amalgamation of notebooks, models and techniques for the generation of AI Art and Animationshttps://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb GLIDE와 DALL-E 2 페이퍼에서 이러한 커뮤니티의 활동을 인식하고 영향을 받았음을 확인해 주는 인용 (Katherine Crowson 2022년 4월 20일 Katherine Crowson이 1저자인 VQGAN-CLIP: Open Domain Image Generation TITAA #28: Visual Poetry, Humans and Humanoids by Lynn Cherny 에서 더 자세한 이야기를 살펴볼 수 있음. 그 외의 커뮤니티의 상호 기여들.
창작 커뮤니티에게 계산 자원을 지원한 stability.ai, EleutherAI, LAION 등 이러한 지원을 하는 사람들 중 Emad의 DALL-E 2에 관한 포스팅 무척 중요한 DALL·E 2 Preview - Risks and Limitations 문서의 의미 그리고 예고와 실현의 패턴
Lucidrains의 DALL-E 2를 따라가 보는 구현도 커뮤니티의 latent diffusion을 참고하며 시작 예술, 미디어아트계의 반응
앞으로 펼쳐질 일이 무척 기대되는 매일J. C. R. 리클라이더가 1960년에 쓴 <인간-컴퓨터 공생> https://groups.csail.mit.edu/medg/people/psz/Licklider.html 중 1.2 Between "Mechanically Extended Man" and "Artificial Intelligence" 단락은 이렇게 맺습니다. (신승백 작가님의 번역)
어쩌면 요즘이 그런 시기가 아닐지?
창작의 자유와 제한 - 그리고 문제를 해결해서 만든 문제를 해결하는 스타트업MidJourney나 DALL-E 2의 예에서 볼 수 있듯이 유저가 모델이 표현할 수 있는 최대한의 것을 활용하는데는 복잡한 제약이 따름. MidJourney의 경우는 비용을 더 지불하는 프리미엄 유저에게 이러한 민감한 부분에 관해 좀 더 조종할 수 있는 권한(Init Image)을 주는 방향을 모색 중이고, DALL-E 2의 경우는 Preview - Risks and Limitations 의 예에서 보듯이 매우 방어적으로 접근하기 때문에 앞으로 예술가가 이러한 거대 모델을 활용할 때는 (그것을 직접 만들 수 없으므로) 기존의 창작 매체와는 다른 결의 제약이 존재할 가능성이 있음. 만약 그 제약을 풀었을 때는 굉장히 복잡한 이슈가 생길 수 있고, GPT-3 등이 야기한 문제를 다루는 Anthropic이 생겼던 선례를 보더라도, DALL-E 2 등을 준비할 때 RedTeam을 운영해 본 경험과 misuse를 다루는 경험을 살린 스타트업이 OpenAI로 부터 갈래지어 나올 가능성에 관해 생각해 볼 수 있음. �생산량 - 기계를 부리는 접근 중 하나Ben Barry의 https://archive.org/details/1111101000-robots 작업 등을 통해 알 수 있듯이, 일정 수준 이상의 모델로 많은 것을 만들다 보면 그 중에는 필연적으로 좋은 것이 들어있을 가능성이 높음 (OpenAI Playground의 Best of 또는 AlphaCode의 접근 등), 계산 비용이 들긴 하지만 짧은 시간에 일정 수준 이상의 것을 많이 생성할 수 있고 거기에서 큐레이션 하고 방향을 조정하며 원하는 것(또는 의외의 것)을 얻는데 까지 점근해 갈 수 있음. 관련 소식 챙겨 보기 |
DALL-2의 편향성 문제와 LGM의 문제https://www.vox.com/future-perfect/23023538/ai-dalle-2-openai-bias-gpt-3-incentives
DALL-E 2의 한계
|
Jigsaw: Large Language Models meet Program Synthesis 논문 및 공식 블로그 링크 공유해드립니다. Blog: https://www.microsoft.com/en-us/research/blog/jigsaw-fixes-bugs-in-machine-written-software/ Arxiv: https://arxiv.org/abs/2112.02969 Solving ImageNet: a Unified Scheme for Training any Backbone to Top Results Alibaba DAMO에서 ImageNet학습을 위한 방법론에 대한 논문이 출간되었습니다. Additional data 없이 single model로 학습한 결과 중 모든 모델에 대해 SOTA를 획득했다고 주장하는데 모델 구조보다 학습 방법론이 더 중요하다는 것을 보여주는 것 같습니다. Arxiv: https://arxiv.org/abs/2204.03475 GitHub: https://github.com/Alibaba-MIIL/Solving_ImageNet |
News
ArXiv
Masked Siamese Networks for Label-Efficient Learning
주목할 만한 논문
The text was updated successfully, but these errors were encountered: