audio2midi

High-quality audio separation and MIDI transcription CLI.

Separate audio into stems (vocals, drums, bass, guitar, piano, other) and transcribe each to MIDI using state-of-the-art ML models.

Features

Best-in-class separation: Uses BS-RoFormer (SDR 12.97) and Demucs models
6-stem separation: Vocals, drums, bass, guitar, piano, other
Accurate transcription: Spotify's Basic Pitch for MIDI conversion
GPU acceleration: CUDA (NVIDIA), MPS (Apple Silicon), CPU fallback
BPM & key detection: Automatic tempo and musical key analysis
DAW-ready MIDI: Proper instrument assignments and multi-track export

Installation

pip install audio2midi

For GPU acceleration (NVIDIA):

pip install audio2midi[gpu]

RTX 50 Series (Blackwell) GPUs

RTX 5070/5080/5090 require PyTorch with CUDA 12.8 support:

pip install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

Usage

Full Pipeline (Recommended)

Separate and transcribe in one command:

audio2midi convert song.mp3 -o output/

This will:

Analyze BPM and key
Separate into 6 stems
Transcribe each stem to MIDI
Output individual + combined MIDI files

Separate Only

audio2midi separate song.mp3 --model htdemucs_6s

Available models:

htdemucs_6s - 6 stems (default)
htdemucs - 4 stems (faster)
bs_roformer - Best vocal separation

Transcribe Only

audio2midi transcribe vocals.wav -o vocals.mid --instrument vocals

Analyze Audio

audio2midi analyze song.mp3

Check Device

audio2midi device

Output Structure

output/
└── song/
    ├── analysis.json
    ├── stems/
    │   ├── vocals.wav
    │   ├── drums.wav
    │   ├── bass.wav
    │   ├── guitar.wav
    │   ├── piano.wav
    │   └── other.wav
    └── midi/
        ├── vocals.mid
        ├── drums.mid
        ├── bass.mid
        ├── guitar.mid
        ├── piano.mid
        ├── other.mid
        └── combined.mid

Requirements

Python 3.10+
CUDA-capable GPU recommended (10x faster than CPU)

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.claude		.claude
audio		audio
audio2midi		audio2midi
.gitignore		.gitignore
README.md		README.md
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

audio2midi

Features

Installation

RTX 50 Series (Blackwell) GPUs

Usage

Full Pipeline (Recommended)

Separate Only

Transcribe Only

Analyze Audio

Check Device

Output Structure

Requirements

License

About

Uh oh!

Releases

Packages

Languages

BetterInc/audio2midi

Folders and files

Latest commit

History

Repository files navigation

audio2midi

Features

Installation

RTX 50 Series (Blackwell) GPUs

Usage

Full Pipeline (Recommended)

Separate Only

Transcribe Only

Analyze Audio

Check Device

Output Structure

Requirements

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages