PanChanghao

DavidPigeon

3 7 6

https://david-pigeon.github.io/

DavidPigeon

AI & ML interests

audio synthesis

Recent Activity

upvoted a paper about 2 months ago

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

upvoted a paper about 2 months ago

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

upvoted a paper about 2 months ago

SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

View all activity

Organizations

upvoted 3 papers about 2 months ago

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

Paper • 2605.30940 • Published May 29 • 38

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

Paper • 2605.28618 • Published May 27 • 32

SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

Paper • 2605.30993 • Published May 29 • 62

liked a Space 2 months ago

ACL Pubcheck

📝

Check your PDF for ACL guidelines

upvoted a paper 2 months ago

Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

Paper • 2605.19833 • Published May 19 • 137

upvoted a paper 3 months ago

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

Paper • 2604.14932 • Published Apr 16 • 11

updated a dataset 3 months ago

DavidPigeon/huawei_long_tts

Updated Apr 20 • 3

published a dataset 3 months ago

DavidPigeon/huawei_long_tts

Updated Apr 20 • 3

New activity in inLine-XJY/ImVideoEdit 4 months ago

Upload ditto_outputs_frame_avg_81.tar.gz

#3 opened 4 months ago by

DavidPigeon

Upload vace_14b_outputs.tar.gz

#2 opened 4 months ago by

DavidPigeon

Upload ditto_outputs.tar.gz

#1 opened 4 months ago by

DavidPigeon

liked a Space 6 months ago

Qwen3-TTS Demo

🎙

2.08k

Generate speech from text using voice design, cloning or presets

liked a model 6 months ago

stepfun-ai/Step-Audio-R1.1

Audio-Text-to-Text • 33B • Updated Feb 14 • 264 • 186

liked a Space 6 months ago

Fun-ASR-Nano

🚀

LLM-powered ASR: 31 languages, Chinese dialects, timestamps

liked a model 6 months ago

nvidia/bigvgan_v2_24khz_100band_256x

Audio-to-Audio • Updated Sep 5, 2024 • 27.4k • 23

liked a dataset 11 months ago

OpenSound/CapSpeech

Viewer • Updated Jun 4, 2025 • 20.8M • 778 • 25

published a dataset about 1 year ago

DavidPigeon/PSA-MOS

Updated Jul 21, 2025 • 3

authored a paper about 1 year ago

ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting

Paper • 2504.20630 • Published Apr 29, 2025 • 9

upvoted 2 papers about 1 year ago

ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting

Paper • 2504.20630 • Published Apr 29, 2025 • 9

Versatile Framework for Song Generation with Prompt-based Control

Paper • 2504.19062 • Published Apr 27, 2025 • 6

PanChanghao

AI & ML interests

Recent Activity

Organizations

DavidPigeon's activity

ACL Pubcheck

Upload ditto_outputs_frame_avg_81.tar.gz

Upload vace_14b_outputs.tar.gz

Upload ditto_outputs.tar.gz

Qwen3-TTS Demo

Fun-ASR-Nano