[20220403] Weekly AI ArXiv 만담 - 46회차 #46

jungwoo-ha · 2022-04-02T01:44:11Z

News
- Deadline
  - Interspeech 2022, 수고 많으셨습니다!
  - ICML 22: Review out (4. 7, 저녁)
- 인공지능과 지식재산백서
  - 관련뉴스: '인간이 만든' 인공지능, 이제는 발명가 꿈꾼다
- Meta의 AI 인력 유출
Arxiv
- Training Compute-Optimal Large Language Models
  - Hyperscale LM (LLM) 에서 모델 크기와 학습 데이터량의 상관관계를 어마무시한 실험으로 분석 (DeepMind님 감사합니다)
  - 가정: 모델 크기가 2배 늘면 학습데이터도 두배 늘어야 한다. --> Chinchilla 제안 (작고 엄청 많이 먹는 뚱뚱한 쥐)
  - 이론적인 최적의 FLOP수 계산. Kaplan et al. (2021) 의 scaling law보다 효율적 가능
  - 70B Chinchilla 로 280B Gopher, 175B GPT3, 530B Turning-NLG 보다 더 강력한 성능
  - 그런데 파라미터를 줄일 때 layer수는 고정하고 head와 hidden dimension 수를 줄임 --> 역시 depth가 중요함
- Three things everyone should know about Vision Transformers
  - 제목 그대로 ViT 학습할 때 알아두면 유용할 3가지 (from Meta AI Paris + Inria)
  - 1. Transformer Block을 parallel하게 해도 성능이 유지된다.
  - 1. ImageNet-1k 나 작은 데이터 finetuning 시에는 MHSA 부분만 update해도 경쟁력 있다.
  - 1. MLP기반의(여기선 hierarchical MLP구조) 패치 만들면 BERT스타일 Masked reconstruction 학습시 효과적이더라
  - 추가: 파라미터, 속도, 메모리 대부분 depth에 비례, width에 제곱에 비례한다.
- Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models
  - LLM만 prompte-based learning 가능한 것이 아니다! 이미지도 가능! (from MIT, 1저자 방효진님은 NAVER AI Lab 인턴 출신)
  - 간단한 pixel patch 를 prompt처럼 패딩시키고 새로운 태스크에 적용하면 모델 추가 학습없이 정확도 향상
  - LLM에서 prompt는 자연어라 다루기 쉬운데 비해 image prompt는 직관적/해석 어려움이 있는 데 이걸 풀수 있다면..
  - In distribution 보다 out-of-distribution 성능이 확실히 좋고 CLIP에선 Text prompt와도 함께 사용 가능
  - https://hjbahng.github.io/visual_prompting/
흥미있는 연구
- Bringing Old Films Back to Life
  - MS에서 나온 흑배영화를 칼라로 만들어주는 ! (CVPR 2022)
  - https://github.com/raywzy/Bringing-Old-Films-Back-to-Life
- FindIt: Generalized Localization with Natural Language Queries
  - Visual grouding, text-based localization, object detection 등 다양한 이미지내 semantic localization을 한큐에 하는 구글 브레인 연구 (from Google Brain)
- The Role of ImageNet Classes in Fréchet Inception Distance
  - FID 계산할 때 ImageNet-pretrained InceptionNet 활용에 대한 고찰 (from NVidia)
- A Roadmap for Big Model
  - 중국 BAAI에서 나온 Hyperscale AI에 대한 고찰 논문. 요즘 이런거 쓰는 것이 유행인 것인가...

ghlee0304 · 2022-04-02T03:12:17Z

News
- Generating chit-chat including laughs, yawns, 'ums,' & other nonverbal cues from raw audio
  - Meta AI 에서 나온 블로그
  - 이전 블로그에서 다루었던 내용들
    - Textless NLP : Generating experssive speech from raw audio : 텍스트 없이 audio 샘플에서 바로 audio 샘플을 만들어주는 기술에 대한 이전 블로그
    - Text-Free Prosody-Aware Generative Spoken Language Modeling : pGSLM 논문으로 기존의 GSLM에서 prosody information을 사용하는 모델로 운율이 있는 음성을 autoregressive 모델로 연속적으로 만들어주는 기술
    - Direct Speech-to-Speech Translation With Discrete Units : 텍스트가 없이 바로 음성으로 번역을 하는 모델로 speech2spectrogram 모델과 S2T + TTS 모델과 비교하여 더 좋은 performance를 보여준 논문
  - 이번 블로그에서 나오는 내용
    1. textless-lib: a Library for Textless Spoken Language Processing : Textless Python 라이브러리에 대한 논문
      - https://github.com/facebookresearch/textlesslib/ : textless python 라이브러리 오픈 소스
    2. Textless Speech Emotion Conversion using Discrete & Decomposed Representations : text 없이 emotion을 conversion하는 논문
    3. Generative Spoken Dialogue Language Modeling * : 이번 블로그에서의 하이라이트!
      - https://speechbot.github.io/dgslm/ : 샘플 페이지
Arxiv
- WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses
  1. INTERSPEECH2022에 제출 / Tencent 논문 / Singing Voice Synthesis (SVS) / 중국
  2. duration modeling을 위한 duration predictor를 BLSTM으로 구성
    - 중국어 가창 음성 합성음의 정확하고 자연스러운 리듬 모델링을 위하여 syllable level, phoneme level의 duration loss를 각각 구하여 loss로 사용
  3. neural vocoder를 이용하여 singing voice를 만들면 artifact가 생기니까 LPCNet을 이용
    - mel-spectrogram 대신 Bark-scale Frequency Cepstral Coefficients (BFCCs)와 pitch information을 중간 타겟으로 사용
    - decoder에서 FFT block들의 states마다 loss를 취하는 progressive loss를 구하는데 여기서 F0에 대한 loss에 1.2를 곱하여 비중을 높여서 계산하는 progressive pitch-weighted loss를 이용
  4. encoder output에 화자 정보가 담기지 않도록 speaker classifier와 gradient reversal layer(GRL)을 사용
  5. data augmentation 을 사용
    - 오디오 클립을 0 ~ 5초 / 5 ~ 8초 / 8 ~12 초로 나누는 방법을 이용하여 3배로 불림
    - 반음 내리고 올리고 해서 pitch shift로 데이터를 불림
  6. Table 2에서는 syllable-level의 duration loss를 쓰고 / 안 쓰고 할 때, Table 4, 5는 VS (데이터 증강 방법 쓴 데이터) 와 fine-tune을 했을 때 성능이 더 올라감을 보여줌
- DRSpeech: Degradation-Robust Text-to-Speech Synthesis with Frame-Level and Utterance-Level Acoustic Representation Learning
  1. INTERSPEECH2022에 제출 / Naver Line 논문 / noise-robust TTS / 일본
  2. noise가 없는 고품질 데이터셋을 구축하는 것은 비용이 크기 때문에 noise가 포함된 데이터를 이용하여 학습하는 TTS를 noise-robust TTS라고 함
  3. 기존의 방법론에서는 시간에 따라 변하는(time-variant) 일반적인 noise와 시간에 따라 변하지 않는(time-invariant) 일반적인 환경 noise를 동시에 고려한 방법론이 없었음
  4. 이 논문에서는 서로 다른 유형의 noise를 동시에 다루는 TTS를 말하고 있음
    - noise extractor를 이용하여 frame-level의 noise representation을 사용
    - denoiser를 이용하여 time-variant noise를 제거한 denoised speech로부터 utterance-level 의 environment embedding을 만들어 사용
    - inference 시에 clean speech에 대한 평균 environment embedding을 잘 뽑기 위하여 regularization 방법을 이용
  5. 실험에서는 다음의 모델들을 비교함
    - Enhancement TTS : Conv-TasNet 기반의 speech enhancement model로부터 VCTK-degraded의 데이터로부터 noise를 제거하고 FastSpeech2를 학습시킨 모델
    - Noise-robust TTS : DenoiSpeech를 수정한 논문으로 DenoiSpeech에서 사용했던 adversarial connectionist temporal classification loss (adversarial CTC loss)를 사용하지 않음
    - DRSpeech : 이 논문에서 제안하는 모델

nick-jhlee · 2022-04-03T07:12:18Z

News

Kahn-Kalai Conjecture (2006) solved!!
- A Proof of the Kahn-Kalai Conjecture (Jinyoung Park, Huy Tuan Pham)
- cf. Thresholds and expectation thresholds (Jeff Kahn, Gil Kalai)
- Summary: very important conjecture in random graphs and (extremal) combinatorics solved.
Transactions on Machine Learning Research (TMLR) now open to submissions!
- https://jmlr.org/tmlr/news/2022/launch.html
AISTATS 2022 held online! (04/28~04/30)

AISTATS 2022 papers

(제가 포스터에서 저자와 이야기를 해본 Papers중에 그나마 관심있으실 확률이 높은 논문들을 한번 뽑아보았습니다..)

Multi-armed Bandit Algorithm against Strategic Replication
- LINE Plus Corporation, POSTECH (Suho Shin, Seungjoon Lee, Jungseul Ok)
- Problem setting
  - service provider (NAVER)가 어떤 arm pulling하는 strategy를 제시함
  - agent들이 자신이 reward를 받을 arm들을 택함 (여기서 replication이 가능함 i.e. agent가 똑같은 arm을 100번 선택할 수 있음. 이는 마치 advertisor들이 광고를 엄청 많이 넣는거랑 마찬가지)
- UCB algorithm은 replication infinity가 optimal이 되어서 prune to replication adversary...
- 새로운 R-UCB는 그렇지 않음!
- Other theoretical results available in the paper.
Nonstochastic Bandits and Experts with Arm-Dependent Delays
- Universita degli Studi di Milano (Dirk van der Hoeven, Nicolo Cesa-Bianchi)
- bandit세팅에서 delayed feedback이 있는 경우 (cf. Weinberger and Ordentlich (2002))
  - ex. arms = {차, 자전거}, '차'를 살 때 걸리는 delay >> '자전거'를 살 때 걸리는 delay
  - => arm-dependent delay!
- 알고리즘: Follow the Regularized Leader + regularization
Differentiable Bayesian inference of SDE parameters using a pathwise series expansion of Brownian motion
- MRC Biostatistics Unit, University of Cambridge (Sanmitra Ghosh, Paul J. Birrell, Daniela De Angelis)
- Ito SDE: dX_t = a(X_t, theta) dt + sqrt{B(X_t, theta)} dW_t
- Trajectory를 가지고 theta를 Bayesian식으로 inference?? 근데 dW_t는 어떻게 처리??
  - deterministic ODE는 variational inference로 처리: Variational inference for nonlinear ordinary differential equations (AISTATS 2021)
- SDE를 ODE (with N(0, 1) coeff) 로 근사 + variational inference
  - cf. spectral decomposition of Brownian motion, The Coloured Noise Expansion and Parameter Estimation of Diffusion Processes
- very scalable/fast!
Non-separable Spatio-temporal Graph Kernels via SPDEs
- Aalto University, University of Manchester (Alexander Nikitin, ST John, Arno Solin, Samuel Kaski)
- GP를 graph에 쓰는 연구는 많이 있었지만, 보통 spatio-modeling만 하거나, spatio-temporal modeling을 separable하게만 해왔다 (i.e. k(x, t; x', t') = k_x(x, x') k_t(t, t'))
- 하지만 epidemic modeling처럼 separabiility assumption이 부적합할 수도 있다! => kernel (i.e. prior)를 어떻게 고르면 될까?
- proposed sol: Stochastic PDE를 통한 spatio-temporal kernel을 derive함!
  - diffusion같은 prior를 원한다 => stochastic heat PDE
  - wave같은 prior를 원한다 => stochastic wave PDE
  - cf. Lindgren et al., 2011 (https://rss.onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2011.00777.x)

Extra Papers from AISTATS 2022

(발표용은 아니지만, 궁금하시면 약간의 summary는 해드리겠습니당 ㅎㅎㅎ)

Fast and accurate optimization on the orthogonal manifold without retraction
- CNRS, ENS PSL
Neural Contextual Bandits without Regret
- ETH Zurich
Norm-Agnostic Linear Bandits
- University of Arizona
Joint Efficient and Optimal Algorithms for Logistic Bandits
- Criteo AI Lab, University of Arizona
Maillard Sampling: Boltzmann Exploration Done Optimally
- University of Arizona
Efficient Kernel UCB for Contextual Bandits
- Criteo AI Lab, NYU Center for Data Science, INRIA
Minimal Expected Regret in Linear Quadratic Control
- KTH

Extra arXiv paper

(발표용은 아니지만, 궁금하시면 약간의 summary는 해드리겠습니당 ㅎㅎㅎ)

MAML and ANIL Provably Learn Representations
- The University of Texas at Austin, University of Washington (Liam Collins, Aryan Mokhotari, Sewoong Oh, Sanjay Shakkottai)

hollobit · 2022-04-03T11:37:53Z

When people tell me "AI is moving so fast", I think of this image

https://twitter.com/fchollet/status/1507199130665332816

NVIDIA GTC 2022 (3.21 ~ 3.24)

https://www.nvidia.com/gtc/
https://blogs.nvidia.co.kr/2022/03/25/ai-factories-hopper-h100-nvidia-ceo-jensen-huang/
https://www.youtube.com/watch?v=3RFZZ10kDFc
https://quasarzone.com/bbs/qn_hardware/views/1240978

[1] 데이터센터 H/W 부문
- 엔비디아 호퍼 아키텍쳐 GPU(데이터센터용) : 대규모 언어 모델 추론 기준 : A100 처리량 대비 최대 30배 성능 자랑
- 엔비디아 차세대 AI 가속화 엔진 GPU 공개(엔비디아 H100 GPU – 호퍼 아키텍쳐) - 800억개 트랜지스터 탑재, FP8(4,000 테라플롭스, 기존 대비 6x 증가)
- 엔비디아 H100 GPU 기반 AI 컴퓨팅 시스템 DGX H100 플랫폼 소개 : ① 8x H100 GPU(총 6400억 개 트랜지스터 탑재) ② 32페타플롭스(AI 성능) ③ 640GB HBM3 메모리 ④ 24TB/s 메모리 대역폭
- 엔비디아 NVLink 스위치 시스템 공개(DGX POD) : 엔비디아 DGX를 NVLink로 최대 32개 DGX까지 연결 가능
- 엔비디아 DGX POD H100 시스템 공개 : 1엑사플롭 AI 컴퓨팅 성능, 20TB HBM3 메모리
- 엔비디아 EOS 공장 플랫폼(현재 건립중이며, 몇 개월 내로 가동됨) : 18 DGX PODS(576개 DGX, 4608개의 H100 GPU), 인네트워크 컴퓨팅(3.7 페타플롭스)
- 엔비디아 H100 CNX 네트워킹 프로세서 보드 공개
[2] 데이터센터 S/W 부문
- 데이터센터 규모 - 머신 러닝 결합한 가속 컴퓨팅 속도는 백만배나 증가
- 데이터센터 가속 구조 - Milion-X → 트랜스포머 → AI 팩토리 → 로보틱스 시스템 → 디지털 트윈스
- 엔비디아 옴니버스 : 로보틱스 소프트웨어 개발에 필수가 될 것이며, AI의 다음 물결을 구현하는 것이 가능할 것.
- 엔비디아, 세계 최초 디지털 트윈 컴퓨터인 Earth-2 공개 (컴퓨팅 속도를 10억배 이상 높일 신규 AI 및 컴퓨팅 기술 개발예정)
- 엔비디아, 칼텍, 버클리 연구소, 퍼듀, 미시건, RICE 대학 연구진들이 FourCastNet이라는 일기예보 AI 모델 개발- FourCaseNet AI 플랫폼 모델 : 물리학 기반 딥 러닝 모델로 "허리케인", "대기의 강", "폭우" 등 기상예변 예측함
- 엔비디아 AI 트랜스포머 - 자기 지도 학습이 가능해졌고, 휴먼 라벨링 데이터 필요성 커짐
- 엔비디아 AI기반 다중 모델 학습 방법 - 엔비디아 NVCell 학습 모델로 칩 레이아웃을 수행하는데, AI가 반도체 칩을 제작하는 것.
- 엔비디아 AI : DALI + RAPIDS + cuDNN + TRITON + TensorRT + TAD + FLARE (데이터 처리, ETL 피처 엔지니어링, 그래프, 클래식 머신 러닝, 딥 러닝 모델 훈련, 대규모 추론까지 거느리는 전체 AI 워크플로우 라이브러리 제품군)
- 엔비디아 Triton(트리톤) : AI 배포 중심 오픈소스 하이퍼스케일 모델 추론 서버
- 엔비디아 Riva(리바) : 딥 러닝 기반 엔드 투 엔드 첨단 음성 AI
- 오픈AI의 GPT-3 매개변수 : 1,750억개 vs 엔비디아 Megatron(메가트론) 매개변수 5,300억개
- 6G 통신망 전용 신규 AI 프레임워크, 엔비디아 SIONNA(시온나) 공개
- 엔비디아 Omniverse(옴니버스)는 디지털 트윈 제품을 지원하는 가상 세계의 시뮬레이션 엔진

중국, 추천 알고리즘에 대한 새로운 규칙을 시행

https://www.lexology.com/library/detail.aspx?g=046dffa7-e223-46e3-9c18-53aa5eb5c3a3
http://www.cac.gov.cn/2022-01/04/c_1642894606364259.htm

3월1일 새로운 규제 공표 이후, 알고리즘에 의한 소비자 차별 대우 방지 등을 위해 추천 알고리즘 남용 방지 캠페인을 연말까지 진행

중국 사이버 공간 관리국의 알고리즘 규칙 주요 요구 사항

투명한 공개 – 서비스 제공자는 알고리즘이 콘텐츠를 푸시하는 데 사용되는 경우 사용자에게 눈에 띄는 방식으로 알리고 알고리즘 권장 서비스의 기본 원칙, 목적 및 메커니즘을 공개해야 합니다. 이러한 의무는 인공 지능( AI ) 기술의 투명성과 설명 가능성에 대한 요구를 반영하며, 이는 전 세계 기업과 규제 기관이 점점 더 중점을 두고 있습니다. 또한 서비스 제공자는 개인화된 추천에 기반하지 않는 편리한 탈퇴 채널 또는 서비스를 사용자에게 제공해야 합니다.

추천 알고리즘의 윤리적 사용 – 서비스 제공자는 알고리즘 추천 서비스를 사용하여 과소비 유도, 독점 또는 불공정 경쟁 촉진, 어린이에게 부적절하거나 건강에 해로운 콘텐츠 푸시 등을 허용하지 않습니다.

"여론 및 사회적 동원 능력"이 있는 서비스에 대한 엄격한 감독 – 알고리즘 규칙은 알고리즘 권장 서비스의 여론 및 사회적 동원 능력, 콘텐츠 유형, 사용자 규모, 정도를 고려하여 다단계 보안 관리 시스템을 도입합니다.

terryum · 2022-04-03T11:59:40Z

News

veritas9872 · 2022-04-03T12:34:41Z

Arxiv Sanity Lite

https://arxiv-sanity-lite.com

Arxiv Sanity의 구성이 바뀌었습니다. 이제 Arxiv Sanity lite라는 이름으로 바뀌었고 구조가 단순해졌습니다. 대신 service down이 줄어든 것 같습니다.

이번에 참조하실만한 사이트 정리해드립니다.

Research News:

Research YouTube:

Yannic Kilcher: https://www.youtube.com/channel/UCZHmQk67mSJgfCCTn7xBfew
Henry AI Labs: https://www.youtube.com/channel/UCHB9VepY6kYvZjj0Bgxnpbw

Society:

SharpContour: A Contour-based Boundary Refinement Approach for Efficient and Accurate Instance Segmentation

CVPR 2022에 Accept된 논문을 공유해드립니다. 기존의 instance segmentation은 가장자리 부근에서 performance가 contour를 잘 따르지 않는 문제점이 있었는데 본 논문에서는 Instance-aware Point Classifier (IPC)를 segmentation network의 feature로부터 학습해 iterative boundary update process를 통해서 경계를 다듬습니다.

특히 medical imaging 등 fine detail segmentation이 중요한 task에서 많이 유용할 것으로 생각됩니다. 코드도 조만간 오픈소스될 예정이라고 합니다.

Website: https://xyzhang17.github.io/SharpContour

Arxiv: https://arxiv.org/abs/2203.13312

hollobit · 2022-04-03T14:18:25Z

수십억 달러 언어 AI 스타트업의 물결이 오고 있다

https://www.forbes.com/sites/robtoews/2022/03/27/a-wave-of-billion-dollar-language-ai-startups-is-coming/?sh=653eb4472b14

핵심 범용 NLP 기술을 개발하고 제공하는 플레이어 : OpenAI, Cohere, Hugging Face, AI21 Labs, Primer. Inflection AI

검색 : You.com, ZIR AI, Algolia, Constructor.io, Twelve Labs

글쓰기 도우미 : Grammarly, Textio, LitLingo, Writer, CopyAI

언어 번역 : 블랑, KUDO, Lilt, NeuralSpace

영업 인텔리전스 : Gong, Chorus.ai

챗봇 도구 및 인프라 : Ada Support, Rasa, Thankful

대화형 음성 도우미 : Duplex, Replicant, AI Rudder

콜센터 : NEA, Cresta, Uniphore, Observe.ai, Level AI, BirchAI

콘텐츠 모더레이션 : Spectrum Labs, Logical

보건 의료 : GYANT, Curai, Buoy Health, Woebot, Wysa, X2AI, DigitalOwl, ScienceIO, Infinitus, Inceptive

jungwoo-ha closed this as completed Jun 25, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[20220403] Weekly AI ArXiv 만담 - 46회차 #46

[20220403] Weekly AI ArXiv 만담 - 46회차 #46

jungwoo-ha commented Apr 2, 2022 •

edited

Loading

ghlee0304 commented Apr 2, 2022 •

edited

Loading

nick-jhlee commented Apr 3, 2022 •

edited

Loading

hollobit commented Apr 3, 2022 •

edited

Loading

terryum commented Apr 3, 2022 •

edited

Loading

veritas9872 commented Apr 3, 2022 •

edited

Loading

hollobit commented Apr 3, 2022 •

edited

Loading

[20220403] Weekly AI ArXiv 만담 - 46회차 #46

[20220403] Weekly AI ArXiv 만담 - 46회차 #46

Comments

jungwoo-ha commented Apr 2, 2022 • edited Loading

ghlee0304 commented Apr 2, 2022 • edited Loading

nick-jhlee commented Apr 3, 2022 • edited Loading

News

AISTATS 2022 papers

Extra Papers from AISTATS 2022

Extra arXiv paper

hollobit commented Apr 3, 2022 • edited Loading

When people tell me "AI is moving so fast", I think of this image

NVIDIA GTC 2022 (3.21 ~ 3.24)

중국, 추천 알고리즘에 대한 새로운 규칙을 시행

terryum commented Apr 3, 2022 • edited Loading

veritas9872 commented Apr 3, 2022 • edited Loading

hollobit commented Apr 3, 2022 • edited Loading

수십억 달러 언어 AI 스타트업의 물결이 오고 있다

jungwoo-ha commented Apr 2, 2022 •

edited

Loading

ghlee0304 commented Apr 2, 2022 •

edited

Loading

nick-jhlee commented Apr 3, 2022 •

edited

Loading

hollobit commented Apr 3, 2022 •

edited

Loading

terryum commented Apr 3, 2022 •

edited

Loading

veritas9872 commented Apr 3, 2022 •

edited

Loading

hollobit commented Apr 3, 2022 •

edited

Loading