Музыкальный апгрейд

Stems: как искусственный интеллект научился разбирать музыку на части

Что такое Stem Separation и почему это важно

Музыканты всегда мечтали о кнопке «вытащить вокал» или «оставить только барабаны». Ещё недавно подобное было фантастикой: инженеры могли лишь пытаться эквалайзером «выковырять» голос или гитару, но результат звучал мутно и далёк от оригинала.
Stem Separation — это технология, которая позволяет разложить готовый микс на отдельные дорожки (стемы): вокал, бас, ударные, аккордовые инструменты и даже соло-партии. По сути, мы получаем виртуальную «сессию» из уже сведённой песни.
Немного физики: как алгоритмы понимают, где вокал, а где барабаны

Чтобы разделить готовый трек на части, алгоритмы используют спектральный анализ.

Любой звук можно описать как набор волн с разными частотами и амплитудами. Когда вокалист поёт, в спектре появляются форманты — устойчивые «горбы» на определённых частотах, которые отличают человеческий голос от, скажем, бас-гитары. Ударные, наоборот, содержат много коротких всплесков с широким частотным диапазоном, а струны или клавиши — устойчивые гармоники, выстроенные по законам обертонового ряда.
Нейросеть анализирует спектрограмму — визуальное представление, где по горизонтали идёт время, по вертикали частота, а яркость отражает энергию сигнала. В спектрограмме партии вокала и барабанов выглядят совершенно по-разному: голос рисует плавные горизонтальные линии, отражающие высоту нот, а перкуссия — вертикальные вспышки.
Алгоритм «учится» на тысячах примеров, сопоставляя эти визуальные паттерны с метками «вокал», «барабаны», «бас». Когда он встречает новый трек, он ищет похожие узоры и «вычленяет» соответствующий сигнал.
Именно поэтому современные модели могут разложить даже сложный микс, где инструменты наслаиваются друг на друга, — они видят не просто частоты, а статистические закономерности в звуковом спектре.Немного физики: любая звуковая волна — это сумма других волн. Когда мы слышим трек, в нём переплетены сотни частот. Алгоритмы машинного обучения «учат» нейросеть на миллионах записей вокала, барабанов и гитар, чтобы та могла узнавать характерные паттерны и «вычленять» их из общего микса.
Спектограмма Izotope RX
Izotope RX Music Rebalace
Если раньше разделение было похоже на попытку отделить кофе от молока после того, как напиток перемешан, то сегодня это скорее интеллектуальный фильтр, способный распознать, где заканчивается голос и начинаются клавишные.

Взгляд в прошлое

В 70–90-е инженеры могли работать только с мультитрековыми лентами — у кого были исходники, у того был и контроль. DJ и ремикс-продюсеры мучились: чтобы сделать минус, приходилось заказывать инструментальные версии у лейблов или записывать всё заново.
Только в начале 2010-х появились первые нейросетевые эксперименты, вроде Spleeter от Deezer, открывшие дорогу настоящему «демиксингу». Сегодня это стало стандартом индустрии — и в студии, и на сцене.

Кто и что использует сегодня

  • Ableton Live 12.3 — встроенное разделение на основе технологий Music AI (Moises). Можно моментально превратить любимый трек в набор для ремикса прямо в Live.
  • Logic Pro 11 (Apple) — собственный Stem Splitter, работающий только на Apple silicon. Алгоритмы «сидят» в Neural Engine, никаких сторонних решений Apple не раскрывает.
  • Studio One 7 — функция AI-Stem Separation. Делит на вокал, ударные, бас и аккорды. Вендор алгоритма публично не указывается, но качество отмечают как уверенное, особенно для инструментальных партий.
  • Traktor Pro 4 (Native Instruments) — разделение на базе iZotope RX Music Rebalance. Отличается стабильностью и предсказуемостью, особенно для DJ-сетов.
  • Denon Engine DJ (Prime 4+) — «pre-render stems»: дорожки готовятся на компьютере и загружаются в контроллер. В реальном времени алгоритмы не работают, зато качество выше.
  • Moises / Music.AI — онлайн-сервис с собственными моделями. Лидер по числу пользователей, умеет гибко настраивать результат, включая до шести дорожек.
  • Suno — AI-сервис генерации музыки. В редакторе можно выделить до 12 стемов, что делает его одним из самых гибких решений для креативного продакшена.
Logic Pro X Stem Splitter
Logic Pro X Stem Splitter
Ableton Live Separate Stems
Ableton Live Separate Stems

Качество и различия

  • Traktor / iZotope RX — самый «академичный» и чистый звук, особенно для вокала и баса.
  • Logic Pro — выдаёт впечатляюще точный результат для голоса и ударных, но алгоритм «закрытый» и доступен только на Mac.
  • Ableton + Music AI — быстро и удобно, идеально для ремиксов, но при сложных миксах (например, перегруженный металл) возможны артефакты.
  • Moises — лидер онлайн-разделения, особенно если нужно быстро получить минус или отдельные стемы для караоке.
  • Suno — уникальный вариант для продюсеров: можно разобрать трек на множество дорожек и использовать их в новой аранжировке.
Moises Separate Tracks
Moises Separate Tracks

Что это даёт музыкантам сегодня

  • Ремиксы и сэмплинг — извлечение вокала или барабанов из любимых треков.
  • Обучение — музыкант может послушать партию инструмента в изоляции и быстрее повторить её.
  • Караоке и минусовки — мгновенно создать «instrumental» или «a cappella».
  • Live-выступления — диджеи и электронные артисты могут управлять стемами прямо со сцены.
  • Креативные эксперименты — смешивать вокал одного исполнителя с инструменталом другого, создавая неожиданные коллаборации.

Отзывы музыкантов

Американский продюсер Illmind отмечал в интервью, что современные алгоритмы «дают свободу, о которой 10 лет назад можно было только мечтать: теперь любой трек можно превратить в набор инструментов для вдохновения».
DJ и продюсер Laidback Luke в обзоре Traktor Pro говорил: «Это будущее диджеинга. Управлять вокалом и барабанами отдельно — значит управлять энергией танцпола в реальном времени».

Вместо заключения

Разделение на стемы — это не просто удобный инструмент. Это новый этап эволюции музыки, где прошлое и будущее соединяются: из старых записей рождаются новые идеи, а из ограничений — бесконечная свобода.
Сегодня достаточно одного клика, чтобы услышать песню заново — разобранную на части, готовую для эксперимента. И именно в этом кроется главное волшебство технологии Stem Separation.