#

audio-generation

Here are 68 public repositories matching this topic...

FunAudioLLM / CosyVoice

Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.

python text-to-speech japanese chatbot multi-lingual tts english chinese korean cantonese natural-language-generation cross-lingual fine-grained fine-tuning voice-cloning audio-generation chatgpt gpt-4o cosyvoice

Updated Apr 21, 2025
Python

Amphion

open-mmlab / Amphion

Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, music, and speech generation research and development.

text-to-speech audit speech-synthesis audio-synthesis music-generation voice-conversion vocoder emilia text-to-audio fastspeech2 vits audio-generation singing-voice-conversion vall-e audioldm naturalspeech2 maskgct

Updated Apr 12, 2025
Python

multimodal-art-projection / YuE

YuE: Open Full-song Music Generation Foundation Model, something similar to Suno.ai but open

ai deep-learning llama gpt music-generation voice-cloning huggingface style-transfers audio-generation foundation-models llms

Updated Apr 7, 2025
Python

haoheliu / AudioLDM

AudioLDM: Generate speech, sound effects, music and beyond, with text.

audio-generation

Updated Dec 9, 2024
Python

haoheliu / AudioLDM2

Text-to-Audio/Music Generation

audio-generation

Updated Sep 29, 2024
Python

archinetai / audio-diffusion-pytorch

Audio generation using diffusion models, in PyTorch.

deep-learning artificial-intelligence denoising-diffusion audio-generation

Updated Jun 12, 2023
Python

lucidrains / soundstorm-pytorch

Implementation of SoundStorm, Efficient Parallel Audio Generation from Google Deepmind, in Pytorch

deep-learning transformers artificial-intelligence attention-mechanism non-autoregressive audio-generation

Updated Apr 24, 2025
Python

tango

declare-lab / tango

A family of diffusion models for text-to-audio generation.

language-models diffusion diffusion-models text-to-audio audio-generation large-language-models

Updated Dec 31, 2024
Python

FunAudioLLM / InspireMusic

InspireMusic: A Unified Framework for Music, Song, Audio Generation.

pytorch music-generation audio-processing audio-generation

Updated Apr 22, 2025
Python

NVIDIA / BigVGAN

Official PyTorch implementation of BigVGAN (ICLR 2023)

speech-synthesis audio-synthesis music-synthesis neural-vocoder singing-voice-synthesis audio-generation

Updated Sep 5, 2024
Python

researchmm / MM-Diffusion

[CVPR'23] MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

video-generation multi-modality diffusion-models content-creation audio-generation

Updated Jun 5, 2024
Python

modelscope / FunCodec

FunCodec is a research-oriented toolkit for audio quantization and downstream applications, such as text-to-speech synthesis, music generation et.al.

tts speech-synthesis codec speech-to-text audio-generation encodec voicecloning audio-quantization

Updated Jan 25, 2024
Python

cabralpinto / modular-diffusion

Python library for designing and training your own Diffusion Models with PyTorch.

python machine-learning deep-learning text-generation pytorch transformer image-generation modular-design u-net diffusion-models audio-generation

Updated Jul 28, 2024
Python

sony / bigvsan

Pytorch implementation of BigVSAN

pytorch speech-synthesis gan audio-synthesis neural-vocoder audio-generation

Updated Mar 23, 2024
Python

galgreshler / Catch-A-Waveform

Official pytorch implementation of the paper: "Catch-A-Waveform: Learning to Generate Audio from a Single Short Example" (NeurIPS 2021)

speech-synthesis gan music-generation raw-waveforms audio-inpainting audio-denoising audio-generation single-example bandwidth-extension audio-super-resolution

Updated Apr 2, 2024
Python

neuralnoise

leopiney / neuralnoise

The AI Podcast Studio: generate podcasts scripts and their audio version with a team of AI workers in a Podcast Studio 🎙️📜

ai podcast openai podcast-generator autogen audio-generation llms elevenlabs notebooklm ag2

Updated Mar 5, 2025
Python

archinetai / audio-data-pytorch

A collection of useful audio datasets and transforms for PyTorch.

deep-learning pytorch datasets artifical-intelligense audio-generation

Updated Feb 11, 2023
Python

archinetai / audio-diffusion-pytorch-trainer

Trainer for audio-diffusion-pytorch

deep-learning artificial-intelligence denoising-diffusion audio-generation

Updated Jan 13, 2023
Python

ilaria-manco / word2wave

Word2Wave: a framework for generating short audio samples from a text prompt using WaveGAN and COALA.

music-generation ai-music text-to-audio audio-generation

Updated Dec 13, 2021
Python

RoySheffer / im2wav

Official implementation of the pipeline presented in I hear your true colors: Image Guided Audio Generation

audio machine-learning pytorch video-to-audio image-to-audio audio-generation

Updated Jan 18, 2023
Python

Improve this page

Add a description, image, and links to the audio-generation topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the audio-generation topic, visit your repo's landing page and select "manage topics."