[20220918] Weekly AI ArXiv 만담 - 66회차 #66

jungwoo-ha · 2022-09-17T09:09:23Z

News

Conferences
- NeurIPS 2022 결과발표: 모두들 축하드립니다. 아쉽게 reject된 분들은 ICLR 로 ㄱㄱ
- CHI 2023: 제출 마감 - 수고 많으셨습니다.
- ICLR 2023
  - Abstract deadline: 9. 21 (AoE) --> 9.22 밤 9시
  - Full paper deadline: 9. 28 (AoE) --> 9. 29 밤 9시
  - 르완다 키갈리 + 온라인 (하이브리드) 걱정마시고 제출 ㄱㄱ
- Interspeech 2022: 인천 송도 (9. 18 ~ 22)
AI미래포럼-한국공학한림원 주최 디지털 인재 100만 양성 실행을 위한 해법 웨비나
Adobe의 Figma 인수 무려 28조 (200억 달러!): 라이벌은 크기 전에 인수?? --> Terry님께 토스
Gartner의 AI Hyper Cycle 2022 --> 전종홍 책임님께 토스~
👉 Computer vision (2년이내): 이제 CV기술은 안정적 성장단계에 거의 근접했네요. (물론 주로 2D 인식류에 국한되겠지만)
👉 Data Annotation: 크라우드소싱 기업의 성공으로 인해 (그리고 이건 한국정부의 데이터댐 프로젝트도 크게 한몫한 듯) 역시 안정화 단계로 접어 들고 있습니다.
👉 Autonomous Vehicle: 10년 이상 걸릴 거라 예상하지만 환멸의 구간을 거의 지나가고 있습니다. Lv2 정도는 이제 일상화라는 뜻?
👉 Deep leanrning, NLP, AI Cloud: 힘내자 아이들아. 고지가 저기야!!
👉 AGI: 너의 모양과 위치는 언제쯤 변할래???

ArXiv

흥미있는 소식들
- LAION-2B에 학습한 CLIP 공개
  - 공개된 CLIP중 가장 다량의 데이터로 학습. 성능도 가장 좋다고
- GPT-3의 prompt를 통한 attack
  - GPT-3 Playground에서 prompt injection을 통해 공격 가능. 초거대 AI provider들은 대안이 필요할 듯
- Non-Parallel Voice Conversion for ASR Augmentation
  - 음성인식 성능 (특히 다양한 화자 음성이 필요할 때) Voice conversion 모델 활용하는 방법 (from Google, Interspeech 2022)
  - 자세한 내용은 경훈님에게 토스~
- Test-Time Training with Masked Autoencoders
  - MAE를 이용해서 test time에 single input SSL하면서 data분포가 다른 test 데이터 학습 (UC Berkeley, NeurIPS 2022)
  - https://yossigandelsman.github.io/ttt_mae/index.html

ghlee3401 · 2022-09-18T02:35:29Z

NC 블로그

Arxiv - Audio and Speech Processing

ParaTTS: Learning Linguistic and Prosodic Cross-sentence Information in Paragraph-based TTS
- IEEE/ACM Transactions on Audio, Speech, and Language Processing(TASLP) / Northwestern Polytechnical University, Microsoft Research Asia, Microsoft Azure Speech / TTS
- Summary
  - 오디오북에서 하나의 단락(paragraph) 내의 문장들의 패턴이 다르게 나오는 것을 분석하고, 패턴을 학습하여 더 자연스러운 오디오북 음성을 합성하기 위한 paraTTS를 제안
  - annotation 없이 data만을 이용하여 paragraph 기반의 end-to-end TTS를 만드는 것이라고 함
- Method
  - 모델은 기본적으로 Tacotron2를 기반으로 하고 있음
  - encoder-decoder외에 linguistics-aware network, prosody-aware network, sentence-position network로 나누어 각각 paragraph 내의 언어정보, 운율정보, 문장 위치 정보에 대한 latent representation을 만듦
  - text는 phoneme seq. prosody는 LF0, intensity, duration이라 특별하진 않지만 sentence position code 부분이 다르다고 할 수 있음
- Results
  - Dataset은 중국 동화, 여자 목소리
  - 평균적으로 각 paragraph에 평균적으로 3개의 문장, 55개의 중국 글자(character), 각 sentence는 17개의 중국 글자
  - paragraph내에서 문장을 처음, 중간, 끝으로 나누면 pitch와 intensity는 점점 줄어들고, 읽는 속도는 처음과 끝보다는 중간 문장들이 빠르다
  - baseline은 Tacotron2를 수정한 모델이고 ComTTS는 linguistic-aware, prosody-aware network를 결합한 것
  - 결과로는 객관적으로도 주관적으로도 좋지만, MOS가... (multi-band WaveRNN을 사용)
Non-Parallel Voice Conversion for ASR Augmentation
- INTERSPEECH2022 / Google / ASR, VC, data augmentation
- Summury
  - Non-parallel voice conversion을 이용하여 speaker 정보를 바꾸어 ASR 모델의 훈련에 사용함으로써 ASR의 WER을 낮추는 효과를 가져왔다는 논문
- Method
  - Encoder는 두 가지를 사용하는데, 하나는 Conformer 기반의 ASR 모델의 encoder를 사용하여 학습하는 방법과, ASR 모델의 encoder를 가져와서 weight를 고정시켜 사용하는 방법을 취하였음
  - Speaker Embedding은 one-hot 벡터의 speaker 정보를 256차 벡터로 임베딩 시키는 역할
  - Decoder는 attention 기반의 non-autoregressive 모듈을 사용한 것으로 보임
  - VQVAE Bottleneck의 경우, output에 adversarial speaker classifier를 사용하여 speaker 정보를 제외시킨 정보가 나옴
- Results
  - Table1, 2, 3은 어떤 VC Encoder를 사용하는 것이 좋은지에 대해서 비교 분석
  - Table 1에서는 in-Domain, In-Local 데이터셋에 대해서는 VC encoder를 사용하는게 MOS도 높고 WER도 낮음
  - Table 2에서는 영어인데 지역이 다른 데이터셋의 경우에는 VC encoder를 사용하는게 MOS는 높았지만 WER이 낮음을 보여줌
  - Table 3에서는 out-of-corpus에 대한 데이터셋의 경우 ASR encoder의 MOS가 높고 WER이 낮음을 보여줌
  - 즉, 결론적으로 ASR encoder를 사용하면 일반화 성능이 높아져 Similarity가 높고 학습에 사용하지 않은 데이터에 대하여 MOS가 높으며, WER이 낮은 결과를 보여줌
  - Table 4, 5를 보면 VC를 사용하여 augmentation을 한 것이 더 낮은 WER을 가짐을 보여줌
흥미있는 연구들
- Using Rater and System Metadata to Explain Variance in the VoiceMOS Challenge 2022 Dataset
  - INTERSPEECH2022 / Google / MOS
  - MOS를 사람이 하지 않고 자동으로 평가하는 challenge에 대한 내용
- Analysis of Self-Attention Head Diversity for Conformer-based Automatic Speech Recognition
  - INTERSPEECH2022 / Google / ASR, Attention
  - attention head 들의 diversity를 높이는 보조 loss를 추가하여 WER 를 낮추었다는 논문

hollobit · 2022-09-18T09:36:13Z

Gartner의 AI Hype Cycle 2022 (2021과의 비교)

https://www.gartner.com/en/articles/what-s-new-in-artificial-intelligence-from-the-2022-gartner-hype-cycle
Hype Cycle의 AI 혁신은 다음 네 가지 주요 범주에서 보완적이며 때로는 상충되는 우선 순위를 반영
데이터 중심 AI, 모델 중심 AI, 애플리케이션 중심 AI, 인간 중심 AI
데이터 중심 AI: synthetic data, knowledge graphs, data labeling and annotation
모델 중심 AI: hysics-informed AI, composite AI, causal AI, generative AI, foundation models and deep learning
애플리케이션 중심 AI: AI engineering, decision intelligence, operational AI systems, ModelOps, AI cloud services, smart robots, natural language processing (NLP), autonomous vehicles, intelligent applications and computer vision
인간 중심 AI: AI trust, risk and security management (TRiSM), responsible AI, digital ethics, and AI maker and teaching kits

프롬프트 검색 사이트들

Discover Prompts for AI Generated Art - https://arthub.ai/
PromptArt LabML - https://promptart.labml.ai/feed
Stable-diffusion Store [sung kim님] - https://diffusion.sung.ai/
프롬프트 마켓플레이스 - https://promptbase.com/marketplace
The Stable Diffusion search engine - https://lexica.art/

Brain Imaging Generation with Latent Diffusion Models

Paper: https://arxiv.org/abs/2209.07162
Dataset: https://tinyurl.com/32p4hu7d
Temporary fast version (GPU): https://14365.gradio.app
huggingface Spaces (CPU): https://t.co/8F07uQxmlG
DGM4MICCAI accepted paper. MICCAI2022
UK Biobank 데이터 세트(N=31,740)의 T1w MRI 이미지를 사용하여 모델을 훈련하여 연령, 성별 및 뇌 구조 볼륨과 같은 covariables를 조건으로 하는 뇌 이미지의 확률적 분포에 대해 학습
synthetic dataset with 100,000 brain images 도 공개

Diffusion 기반 AI art에 대한 잡다구리한 소식들

Online Art Communities Begin Banning AI-Generated Images - AI generated imaging tool은 아티스트에게 축복일까 재앙일까 ?
deforum notebook colab과 Tutorial
Video 적용 idea - runwayml
TF와 Keras로 구현 - github, colab
waifu-diffusion - Diffusion for Weebs - GitHub, Hugging Face
직접 찍은 사진과 비슷하게 prompt로 만들기 Copysheet
Textual-inversion fine-tuning for Stable Diffusion using d🧨ffusers - colab
Stable Diffusion built-in to the Blender shader editor - GitHub

haebom · 2022-09-18T09:55:03Z

Charl-e 출시

맥 M1, M2 칩에 최적화 된 Stable Diffusion
오픈소스로 제공 되는 것도 인상적
만든 사람이름이 찰리라서 모델 이름도 Charl-E
웹서비스가 아닌 로컬에서 자체적으로 돌아감

https://www.charl-e.com/

jungwoo-ha · 2022-09-18T11:50:00Z

@haebom 시작하면 채팅창에 메세지 부탁드릴게요~ 모더레이터로 초대 드리겠습니다.

kimyoungdo0122 · 2022-09-18T11:50:26Z

News
- White House requires immediate public access to all U.S.-funded research papers by 2025
  - 앤드류 응 교수님의 THE BATCH
  - 미국에서 국가에서 비용을 지원한 연구는 저널이나 논문, 그리고 연구에 활용한 데이터에 무료로 접근할 수 있도록 정책 발표
  - 응 교수님은 Arxiv 이전, 2000년도 당시 Machine Learning Journal이라는 유료 저널에 맞서 Open access가 가능한 JMLR(Journal of Machine Learning)이 AI/ML 연구 학계에서 상징적인 역할을 했다는 찬사
  - 지금도 주요 AI학회들이 아닌 AI + X에 대한 연구를 보기 위해 X 분야의 저널이나 학회의 페이퍼는 유료인 경우가 많더라고요, 논문과 데이터 같은 연구 산출물이 접근이 가능했으면 좋겠습니다!

nick-jhlee · 2022-09-18T12:03:09Z

News

AISTATS 2023
- Abstract deadline: 10. 06 (AoE) --> 10. 07 밤 9시
- Full paper deadline: 10. 13 (AoE) --> 10. 14 밤 9시
- Supplementary deadline: 10. 20 (AoE) --> 10. 21 밤 9시
- 이번에 미국 어디선가 열린다고 하네요 ㅎㅎ (AISTATS 역사상 항상 휴가지/섬나라에서 했어서,, 기대중임다)
Apple ML Research in Paris: research internship
- ML, Optimization
- onsite (~ Sep. 2023)
- cf. Pierre Ablin -> researcher in manifold optimization and brain signal processing

- DeepMind: research internship - Applications for our 2023 internships are now open and will close on the 30th September 2022. - https://www.deepmind.com/careers/internships?sort=alphabetical

Papers

Do Residual Neural Networks discretize Neural Ordinary Differential Equations? (NeurIPS 2022)
Git Re-Basin: Merging Models modulo Permutation Symmetries (arXiv 2022)
- cf. One of the most constructive discussions done over Twitter:
  - Pt. 1 https://twitter.com/stanislavfort/status/1570576473010089984
  - Pt. 2 https://twitter.com/kellerjordan0/status/1570837651741364226
Random initialisations performing above chance and how to find them (arXiv 2022)
What CanTransformers Learn In-Context? A Case Study of Simple Function Classes (arXiv 2022)

terryum · 2022-09-18T14:00:31Z

Adobe의 Figma를 약 28조원에 인수

Adobe는 Figma를 $20B(약 28조원)에 인수했다고 밝혔습니다 [Adobe 옷피셜]

1992년생인 창업자 딜런 필드(Dylan Field)는 이로서 가장 어린 억만장자가 되었는데요, 딜런 필드에 대한 이야기는 간략한 [한글 기사]와 좀 더 긴 [영문 기사]에서 확인할 수 있습니다. 딜런 필드 뿐만 아니라 그를 믿고 투자한 초기투자자들 역시 약 3조원에 가까운 돈을 벌었다고 하네요 [영문기사]

성공하는 이의 관상은 이렇다고 합니다. 이런 분을 보시면 놓치지 마세요.

딜런 필드는 브라운대학을 중퇴하고 2012년에 친구인 에반 월러스(Evan Wallace)와 함께 Figma를 공동창업 했는데요, 작년과 올해 매출이 100% 씩 증가하며 올해는 $0.4B(5600억원)의 매출을 넘어설 것으로 예상하는 Figma를 Adobe는 매출의 50배인 $20B에 사게 되었네요. 참고로 Figma의 기업가치는 2020년 10월엔 3조, 2021년 5월엔 14조였는데 이번(2022년 9월)에 28조에 인수 되었네요.

한편 Figma 인수 소식에 Adobe의 주가는 17% 폭락했습니다. 너무 비싸게 샀다는 의견이 있는데, 현재의 가격이 정당화 되려면 앞으로 5년 뒤에도 80% 성장률까지는 유지되어야 한다는 분석도 있네요 [영문기사] 다른 우려는 현재 Figma 사용자들의 반발입니다. 실제로 해외에서는 추모 분위기(?)가 있는데요, 실제로 여러 좋은 툴들이 대기업에 인수되며 없어진 바 있었기 때문이죠.

Figma는 어떤 기업?

Figma는 웹브라우저에서 여러 명이 디자인 작업을 공동으로 할 수 있는 디자인툴입니다. 마치 GoogleDoc이 문서작업을 클라우드에서 동시에 할 수 있듯, Figma는 기존 Adobe illustrator와 같은 툴이 필요했던 디자인작업을 브라우저 상에서 가능하게 한 제품이라고 할 수 있습니다.

Adobe의 방향과 Figma의 방향 차이 역시 MS Office와 Google Doc의 차이로 빗대어 볼 수 있는데요, (Office365를 웹브라우저에서 직접 사용하는 경우를 제외하고) MS가 설치형 Office를 단지 과금 체계만 구독 형태로 전환했던 것처럼, Adobe 역시 기존 Photoshop, Illustrator의 과금 모델만을 구독 형태로 전환했었는데요, 워낙 무거운 SW였던만큼 클라우드SW로 만들긴 매우 버거운 일이었습니다. 이에 따라 Adobe XD란 제품을 내놓았지만 크래쉬도 자주 일어나고 사용자들의 불만이 많았죠.

하지만 Figma는 처음부터 "협업"에 초점을 두고 만들어진 제품이며, 제품을 첫 출시하기까지 4년이나 걸릴만큼 제품의 완성도에 공을 들인 기업입니다. 이건 보통의 스타트업이 MVP(=minimum viable product, 최소실행제품)를 내놓고 계속적으로 개선하는 lean startup 방법론과는 상담되는 방향인데요, "고객은 버그가 많은 제품을 돈 내고 사용하고 싶어하지 않는다"라는 제품에 대한 철학이 담겨있습니다. "훌륭한 제품이 결국 승리한다"라는 Product-led growth(PLG)의 대표적 사례라고 할 수 있겠네요.

Adobe XD는 왜 Figma를 이기지 못했을까요? 첫째는 기술적/조직적 이슈가 있었을 겁니다. 이미 성숙한 product가 되어버린 포토샵/일러스트레이터를 개발하는 사람들은 이미 "개선"만 가능할 뿐 혁신적인 새로운 제품을 만들기엔 한계가 있었던 것으로 보이고요, Figma, Sketch 등을 따라잡기 위해 만든 Adobe XD 역시 동일한 개발 문화에서 만들기엔 혁신적일 수 없었던 한계가 있었겠죠. 둘째는 비즈니스적인 충돌이 있었을 것입니다. 여전히 기존 Adobe 제품이 회사를 먹여 살리고 있는 상황에서 '기존 제품을 kill 하는 혁신 제품을 만드는 것'은 사내 정치적으로도, 회사의 방향을 결정하는데도 많은 어려움이 있었겠죠.

국내 AI스타트업의 사례를 떠올려보면...

사실 이번 사례를 AI스타트업과 엮기는 쉽지 않습니다. 왜냐하면 Figma는 뛰어난 제품과 사용성에 기반한 PLG 사례로서, AI스타트업은 사용성 개선에 따른 유저의 성장에 기반한다기보단 혁신 기술의 새로운 방법론이 기존 방법론을 대체하는 것에 밸류가 있기 떄문이죠. 또한 Figma가 Adobe를 '유저 성장' 차원에서 위협했던 것처럼 AI스타트업이 다른 대기업AI를 '유저 성장' 차원에서 위협하는 그림은 조금 먼 이야기가 아닌가 싶습니다. 왜냐하면 대기업AI도 아직 유저를 만들진 못했으니까요.

jungwoo-ha closed this as completed Jan 7, 2023

spirillen mentioned this issue Feb 9, 2025

n-u-d-e.com mypdns/matrix#84475

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[20220918] Weekly AI ArXiv 만담 - 66회차 #66

[20220918] Weekly AI ArXiv 만담 - 66회차 #66

jungwoo-ha commented Sep 17, 2022 •

edited

Loading

ghlee3401 commented Sep 18, 2022 •

edited

Loading

hollobit commented Sep 18, 2022 •

edited

Loading

haebom commented Sep 18, 2022

jungwoo-ha commented Sep 18, 2022

kimyoungdo0122 commented Sep 18, 2022

nick-jhlee commented Sep 18, 2022 •

edited by jungwoo-ha

Loading

terryum commented Sep 18, 2022

[20220918] Weekly AI ArXiv 만담 - 66회차 #66

[20220918] Weekly AI ArXiv 만담 - 66회차 #66

Comments

jungwoo-ha commented Sep 17, 2022 • edited Loading

News

ArXiv

ghlee3401 commented Sep 18, 2022 • edited Loading

NC 블로그

Arxiv - Audio and Speech Processing

hollobit commented Sep 18, 2022 • edited Loading

Gartner의 AI Hype Cycle 2022 (2021과의 비교)

프롬프트 검색 사이트들

Brain Imaging Generation with Latent Diffusion Models

Diffusion 기반 AI art에 대한 잡다구리한 소식들

haebom commented Sep 18, 2022

Charl-e 출시

jungwoo-ha commented Sep 18, 2022

kimyoungdo0122 commented Sep 18, 2022

nick-jhlee commented Sep 18, 2022 • edited by jungwoo-ha Loading

News

Papers

terryum commented Sep 18, 2022

Adobe의 Figma를 약 28조원에 인수

Figma는 어떤 기업?

국내 AI스타트업의 사례를 떠올려보면...

jungwoo-ha commented Sep 17, 2022 •

edited

Loading

ghlee3401 commented Sep 18, 2022 •

edited

Loading

hollobit commented Sep 18, 2022 •

edited

Loading

nick-jhlee commented Sep 18, 2022 •

edited by jungwoo-ha

Loading