Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

[20220403] Weekly AI ArXiv 만담 - 46회차 #46

Closed
jungwoo-ha opened this issue Apr 2, 2022 · 6 comments
Closed

[20220403] Weekly AI ArXiv 만담 - 46회차 #46

jungwoo-ha opened this issue Apr 2, 2022 · 6 comments

Comments

@jungwoo-ha
Copy link
Owner

jungwoo-ha commented Apr 2, 2022

@ghlee0304
Copy link

ghlee0304 commented Apr 2, 2022

  • News
  • Arxiv
    • WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses
      1. INTERSPEECH2022에 제출 / Tencent 논문 / Singing Voice Synthesis (SVS) / 중국
      2. duration modeling을 위한 duration predictor를 BLSTM으로 구성
        • 중국어 가창 음성 합성음의 정확하고 자연스러운 리듬 모델링을 위하여 syllable level, phoneme level의 duration loss를 각각 구하여 loss로 사용
      3. neural vocoder를 이용하여 singing voice를 만들면 artifact가 생기니까 LPCNet을 이용
        • mel-spectrogram 대신 Bark-scale Frequency Cepstral Coefficients (BFCCs)와 pitch information을 중간 타겟으로 사용
        • decoder에서 FFT block들의 states마다 loss를 취하는 progressive loss를 구하는데 여기서 F0에 대한 loss에 1.2를 곱하여 비중을 높여서 계산하는 progressive pitch-weighted loss를 이용
      4. encoder output에 화자 정보가 담기지 않도록 speaker classifier와 gradient reversal layer(GRL)을 사용
      5. data augmentation 을 사용
        • 오디오 클립을 0 ~ 5초 / 5 ~ 8초 / 8 ~12 초로 나누는 방법을 이용하여 3배로 불림
        • 반음 내리고 올리고 해서 pitch shift로 데이터를 불림
      6. Table 2에서는 syllable-level의 duration loss를 쓰고 / 안 쓰고 할 때, Table 4, 5는 VS (데이터 증강 방법 쓴 데이터) 와 fine-tune을 했을 때 성능이 더 올라감을 보여줌
        wesinger1
        wesinger3
    • DRSpeech: Degradation-Robust Text-to-Speech Synthesis with Frame-Level and Utterance-Level Acoustic Representation Learning
      1. INTERSPEECH2022에 제출 / Naver Line 논문 / noise-robust TTS / 일본
      2. noise가 없는 고품질 데이터셋을 구축하는 것은 비용이 크기 때문에 noise가 포함된 데이터를 이용하여 학습하는 TTS를 noise-robust TTS라고 함
      3. 기존의 방법론에서는 시간에 따라 변하는(time-variant) 일반적인 noise와 시간에 따라 변하지 않는(time-invariant) 일반적인 환경 noise를 동시에 고려한 방법론이 없었음
      4. 이 논문에서는 서로 다른 유형의 noise를 동시에 다루는 TTS를 말하고 있음
        • noise extractor를 이용하여 frame-level의 noise representation을 사용
        • denoiser를 이용하여 time-variant noise를 제거한 denoised speech로부터 utterance-level 의 environment embedding을 만들어 사용
        • inference 시에 clean speech에 대한 평균 environment embedding을 잘 뽑기 위하여 regularization 방법을 이용
      5. 실험에서는 다음의 모델들을 비교함
        • Enhancement TTS : Conv-TasNet 기반의 speech enhancement model로부터 VCTK-degraded의 데이터로부터 noise를 제거하고 FastSpeech2를 학습시킨 모델
        • Noise-robust TTS : DenoiSpeech를 수정한 논문으로 DenoiSpeech에서 사용했던 adversarial connectionist temporal classification loss (adversarial CTC loss)를 사용하지 않음
        • DRSpeech : 이 논문에서 제안하는 모델
          drspeech1
          drspeech2

@nick-jhlee
Copy link

nick-jhlee commented Apr 3, 2022

News

Screen Shot 2022-03-29 at 1 07 41 AM Screen Shot 2022-03-29 at 1 09 02 AM
Screen Shot 2022-03-29 at 1 09 32 AM Screen Shot 2022-03-29 at 1 06 43 AM

AISTATS 2022 papers

(제가 포스터에서 저자와 이야기를 해본 Papers중에 그나마 관심있으실 확률이 높은 논문들을 한번 뽑아보았습니다..)

  • Multi-armed Bandit Algorithm against Strategic Replication
    • LINE Plus Corporation, POSTECH (Suho Shin, Seungjoon Lee, Jungseul Ok)
    • Problem setting
      • service provider (NAVER)가 어떤 arm pulling하는 strategy를 제시함
      • agent들이 자신이 reward를 받을 arm들을 택함 (여기서 replication이 가능함 i.e. agent가 똑같은 arm을 100번 선택할 수 있음. 이는 마치 advertisor들이 광고를 엄청 많이 넣는거랑 마찬가지)
    • UCB algorithm은 replication infinity가 optimal이 되어서 prune to replication adversary...
    • 새로운 R-UCB는 그렇지 않음!
    • Other theoretical results available in the paper.
  • Nonstochastic Bandits and Experts with Arm-Dependent Delays
    • Universita degli Studi di Milano (Dirk van der Hoeven, Nicolo Cesa-Bianchi)
    • bandit세팅에서 delayed feedback이 있는 경우 (cf. Weinberger and Ordentlich (2002))
      • ex. arms = {차, 자전거}, '차'를 살 때 걸리는 delay >> '자전거'를 살 때 걸리는 delay
      • => arm-dependent delay!
    • 알고리즘: Follow the Regularized Leader + regularization
  • Differentiable Bayesian inference of SDE parameters using a pathwise series expansion of Brownian motion
  • Non-separable Spatio-temporal Graph Kernels via SPDEs
    • Aalto University, University of Manchester (Alexander Nikitin, ST John, Arno Solin, Samuel Kaski)
    • GP를 graph에 쓰는 연구는 많이 있었지만, 보통 spatio-modeling만 하거나, spatio-temporal modeling을 separable하게만 해왔다 (i.e. k(x, t; x', t') = k_x(x, x') k_t(t, t'))
    • 하지만 epidemic modeling처럼 separabiility assumption이 부적합할 수도 있다! => kernel (i.e. prior)를 어떻게 고르면 될까?
    • proposed sol: Stochastic PDE를 통한 spatio-temporal kernel을 derive함!

Screen Shot 2022-04-03 at 4 32 55 PM

Extra Papers from AISTATS 2022

(발표용은 아니지만, 궁금하시면 약간의 summary는 해드리겠습니당 ㅎㅎㅎ)

Extra arXiv paper

(발표용은 아니지만, 궁금하시면 약간의 summary는 해드리겠습니당 ㅎㅎㅎ)

@hollobit
Copy link

hollobit commented Apr 3, 2022

When people tell me "AI is moving so fast", I think of this image

https://twitter.com/fchollet/status/1507199130665332816

NVIDIA GTC 2022 (3.21 ~ 3.24)

https://www.nvidia.com/gtc/
https://blogs.nvidia.co.kr/2022/03/25/ai-factories-hopper-h100-nvidia-ceo-jensen-huang/
https://www.youtube.com/watch?v=3RFZZ10kDFc
https://quasarzone.com/bbs/qn_hardware/views/1240978

  • [1] 데이터센터 H/W 부문
    • 엔비디아 호퍼 아키텍쳐 GPU(데이터센터용) : 대규모 언어 모델 추론 기준 : A100 처리량 대비 최대 30배 성능 자랑
    • 엔비디아 차세대 AI 가속화 엔진 GPU 공개(엔비디아 H100 GPU – 호퍼 아키텍쳐) - 800억개 트랜지스터 탑재, FP8(4,000 테라플롭스, 기존 대비 6x 증가)
    • 엔비디아 H100 GPU 기반 AI 컴퓨팅 시스템 DGX H100 플랫폼 소개 : ① 8x H100 GPU(총 6400억 개 트랜지스터 탑재) ② 32페타플롭스(AI 성능) ③ 640GB HBM3 메모리 ④ 24TB/s 메모리 대역폭
    • 엔비디아 NVLink 스위치 시스템 공개(DGX POD) : 엔비디아 DGX를 NVLink로 최대 32개 DGX까지 연결 가능
    • 엔비디아 DGX POD H100 시스템 공개 : 1엑사플롭 AI 컴퓨팅 성능, 20TB HBM3 메모리
    • 엔비디아 EOS 공장 플랫폼(현재 건립중이며, 몇 개월 내로 가동됨) : 18 DGX PODS(576개 DGX, 4608개의 H100 GPU), 인네트워크 컴퓨팅(3.7 페타플롭스)
    • 엔비디아 H100 CNX 네트워킹 프로세서 보드 공개
  • [2] 데이터센터 S/W 부문
    • 데이터센터 규모 - 머신 러닝 결합한 가속 컴퓨팅 속도는 백만배나 증가
    • 데이터센터 가속 구조 - Milion-X → 트랜스포머 → AI 팩토리 → 로보틱스 시스템 → 디지털 트윈스
    • 엔비디아 옴니버스 : 로보틱스 소프트웨어 개발에 필수가 될 것이며, AI의 다음 물결을 구현하는 것이 가능할 것.
    • 엔비디아, 세계 최초 디지털 트윈 컴퓨터인 Earth-2 공개 (컴퓨팅 속도를 10억배 이상 높일 신규 AI 및 컴퓨팅 기술 개발예정)
    • 엔비디아, 칼텍, 버클리 연구소, 퍼듀, 미시건, RICE 대학 연구진들이 FourCastNet이라는 일기예보 AI 모델 개발- FourCaseNet AI 플랫폼 모델 : 물리학 기반 딥 러닝 모델로 "허리케인", "대기의 강", "폭우" 등 기상예변 예측함
    • 엔비디아 AI 트랜스포머 - 자기 지도 학습이 가능해졌고, 휴먼 라벨링 데이터 필요성 커짐
    • 엔비디아 AI기반 다중 모델 학습 방법 - 엔비디아 NVCell 학습 모델로 칩 레이아웃을 수행하는데, AI가 반도체 칩을 제작하는 것.
    • 엔비디아 AI : DALI + RAPIDS + cuDNN + TRITON + TensorRT + TAD + FLARE (데이터 처리, ETL 피처 엔지니어링, 그래프, 클래식 머신 러닝, 딥 러닝 모델 훈련, 대규모 추론까지 거느리는 전체 AI 워크플로우 라이브러리 제품군)
    • 엔비디아 Triton(트리톤) : AI 배포 중심 오픈소스 하이퍼스케일 모델 추론 서버
    • 엔비디아 Riva(리바) : 딥 러닝 기반 엔드 투 엔드 첨단 음성 AI
    • 오픈AI의 GPT-3 매개변수 : 1,750억개 vs 엔비디아 Megatron(메가트론) 매개변수 5,300억개
    • 6G 통신망 전용 신규 AI 프레임워크, 엔비디아 SIONNA(시온나) 공개
    • 엔비디아 Omniverse(옴니버스)는 디지털 트윈 제품을 지원하는 가상 세계의 시뮬레이션 엔진

중국, 추천 알고리즘에 대한 새로운 규칙을 시행

https://www.lexology.com/library/detail.aspx?g=046dffa7-e223-46e3-9c18-53aa5eb5c3a3
http://www.cac.gov.cn/2022-01/04/c_1642894606364259.htm

  • 3월1일 새로운 규제 공표 이후, 알고리즘에 의한 소비자 차별 대우 방지 등을 위해 추천 알고리즘 남용 방지 캠페인을 연말까지 진행
  • 중국 사이버 공간 관리국의 알고리즘 규칙 주요 요구 사항
    • 투명한 공개 – 서비스 제공자는 알고리즘이 콘텐츠를 푸시하는 데 사용되는 경우 사용자에게 눈에 띄는 방식으로 알리고 알고리즘 권장 서비스의 기본 원칙, 목적 및 메커니즘을 공개해야 합니다. 이러한 의무는 인공 지능( AI ) 기술의 투명성과 설명 가능성에 대한 요구를 반영하며, 이는 전 세계 기업과 규제 기관이 점점 더 중점을 두고 있습니다. 또한 서비스 제공자는 개인화된 추천에 기반하지 않는 편리한 탈퇴 채널 또는 서비스를 사용자에게 제공해야 합니다.
    • 추천 알고리즘의 윤리적 사용 – 서비스 제공자는 알고리즘 추천 서비스를 사용하여 과소비 유도, 독점 또는 불공정 경쟁 촉진, 어린이에게 부적절하거나 건강에 해로운 콘텐츠 푸시 등을 허용하지 않습니다.
    • "여론 및 사회적 동원 능력"이 있는 서비스에 대한 엄격한 감독 – 알고리즘 규칙은 알고리즘 권장 서비스의 여론 및 사회적 동원 능력, 콘텐츠 유형, 사용자 규모, 정도를 고려하여 다단계 보안 관리 시스템을 도입합니다.

@veritas9872
Copy link

veritas9872 commented Apr 3, 2022

Arxiv Sanity Lite

https://arxiv-sanity-lite.com

Arxiv Sanity의 구성이 바뀌었습니다. 이제 Arxiv Sanity lite라는 이름으로 바뀌었고 구조가 단순해졌습니다. 대신 service down이 줄어든 것 같습니다.

이번에 참조하실만한 사이트 정리해드립니다.

Research News:

  1. https://arxiv-sanity-lite.com
  2. https://papers.labml.ai/papers
  3. https://paperswithcode.com/newsletter

Research YouTube:

  1. Yannic Kilcher: https://www.youtube.com/channel/UCZHmQk67mSJgfCCTn7xBfew
  2. Henry AI Labs: https://www.youtube.com/channel/UCHB9VepY6kYvZjj0Bgxnpbw

Society:

  1. https://read.deeplearning.ai/the-batch
  2. https://thesequence.substack.com/archive?sort=new

SharpContour: A Contour-based Boundary Refinement Approach for Efficient and Accurate Instance Segmentation

CVPR 2022에 Accept된 논문을 공유해드립니다. 기존의 instance segmentation은 가장자리 부근에서 performance가 contour를 잘 따르지 않는 문제점이 있었는데 본 논문에서는 Instance-aware Point Classifier (IPC)를 segmentation network의 feature로부터 학습해 iterative boundary update process를 통해서 경계를 다듬습니다.

특히 medical imaging 등 fine detail segmentation이 중요한 task에서 많이 유용할 것으로 생각됩니다. 코드도 조만간 오픈소스될 예정이라고 합니다.

Website: https://xyzhang17.github.io/SharpContour

Arxiv: https://arxiv.org/abs/2203.13312

image

image

image

@hollobit
Copy link

hollobit commented Apr 3, 2022

수십억 달러 언어 AI 스타트업의 물결이 오고 있다

https://www.forbes.com/sites/robtoews/2022/03/27/a-wave-of-billion-dollar-language-ai-startups-is-coming/?sh=653eb4472b14

  1. 핵심 범용 NLP 기술을 개발하고 제공하는 플레이어 : OpenAI, Cohere, Hugging Face, AI21 Labs, Primer. Inflection AI
  2. 검색 : You.com, ZIR AI, Algolia, Constructor.io, Twelve Labs
  3. 글쓰기 도우미 : Grammarly, Textio, LitLingo, Writer, CopyAI
  4. 언어 번역 : 블랑, KUDO, Lilt, NeuralSpace
  5. 영업 인텔리전스 : Gong, Chorus.ai
  6. 챗봇 도구 및 인프라 : Ada Support, Rasa, Thankful
  7. 대화형 음성 도우미 : Duplex, Replicant, AI Rudder
  8. 콜센터 : NEA, Cresta, Uniphore, Observe.ai, Level AI, BirchAI
  9. 콘텐츠 모더레이션 : Spectrum Labs, Logical
  10. 보건 의료 : GYANT, Curai, Buoy Health, Woebot, Wysa, X2AI, DigitalOwl, ScienceIO, Infinitus, Inceptive

# for free to join this conversation on GitHub. Already have an account? # to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants