Искусственный интеллект (ИИ) и музыка: исследование и опыт

Моё исследование ИИ в музыке носит чисто пользовательский характер. В статье я делюсь отдельными экспериментами с несколькими композициями и допускаю наличие неточностей или упрощений в описании процесса. Цель — показать наблюдения и сделать выводы.

Сегодня искусственный интеллект всё активнее внедряется в музыку. Его возможности разнообразны, и можно выделить несколько основных способов работы с ним:

  • Полная автоматическая генерация – достаточно одного клика, и ИИ создаёт трек почти без участия человека.
  • Работа с фрагментами и шаблонами – система предлагает варианты, а музыкант собирает их в собственную композицию. Процесс чем-то напоминает сборку мозаики.
  • Доработка существующих треков – улучшение звучания, расширение аранжировки, подчёркивание деталей без изменения основной идеи.
  • Голосовой ввод и развитие авторской идеи – Использование авторского звукового наброска (вокал, мелодия или инструментальная фраза) в качестве исходного базы, который модель ИИ затем развивает и аранжирует в полноценную композицию по заданному промпту.
  • Гибридные подходы – когда автор комбинирует свои идеи с предложениями ИИ или расширяет свои музыкальные фразы или уже готовые композиции посредством ИИ.
  • Другие способы.

Сотрудничество с ИИ представляет собой не линейную, а динамичную цепочку творческих действий человека, начинающуюся с формулировки промпта. Исходный запрос действительно является актом авторской воли: он задаёт эстетическое направление, стиль, структуру и рамки будущего результата. Однако точность промпта – не единственный путь. Нередко именно намеренная неопределённость или экспериментальный характер запроса открывают пространство для неожиданных, нестандартных решений, которые становятся частью творческого поиска.

Например, вместо того чтобы запрашивать «Медленную фортепианную балладу в стиле Шопена в до-мажоре», автор может попросить: «Медленное, меланхоличное произведение, вдохновлённое закатом и редиской, в стиле джаза и транса». Такой подход может побудить ИИ создавать уникальные, незапланированные композиции, аранжировки и звуковые элементы. «Намеренная неопределённость» здесь используется как описательная концепция – один из способов работы с ИИ, открывающий пространство для экспериментов и творческого поиска.

Процесс работы с ИИ развивается как серия итераций и ответных шагов: человек уточняет запрос, реагирует на неожиданные варианты, перерабатывает предложения модели, постепенно формируя произведение. Здесь ИИ выступает не только инструментом исполнения, но и источником альтернативных ходов, которые автор может принять, трансформировать или отвергнуть.Тем не менее, решающая роль остаётся за человеком: он определяет концепцию, смысл, критерии оценки, выполняет отбор, редактуру и финализацию материала. Конечное произведение формируется в результате его эстетических и художественных решений. Таким образом, ИИ расширяет поле творческих возможностей, но именно человек задаёт замысел, направление и окончательную форму работы.

ИИ – это инструмент, который действительно расширяет творческие возможности композитора и помогает экспериментировать с музыкой?

С одной стороны, искусственный интеллект действительно открывает новые горизонты: он ускоряет поиск фактур, позволяет моделировать оркестровку, экспериментировать со звуковыми комбинациями и находить неожиданные решения. С другой стороны, если автор не владеет процессом и не задаёт ясных рамок, ИИ начинает диктовать результат. Тогда композитор рискует превратиться в оператора готовых вариантов, а не в создателя смысла и формы.

ИИ может быть как усилителем авторской воли, так и притупителем творческого потенциала. Всё зависит от того, кто остаётся архитектором формы и смысла: человек или алгоритм.

Мои эксперименты

Хочу подчеркнуть, что основная часть моего каталога под музыкальным названием Gulan полностью создана мной (human-authored). Интеграция ИИ на Suno ограничилась небольшим количеством последних композиций (2025 год), где она применялась исключительно для переработок треков, выпущенных гораздо раньше.

Начиная с середины декабря 2024 года, когда я начал экспериментировать с ИИ, я получил довольно значительный объём неожиданного и по-настоящему интересного опыта.

Например:

Трек Space Projections pt. 2 (Uplifting Electronic Remake, 2025 Remastered) собран из ИИ-фрагментов. Мне было предложено более 200 вариантов, которые я переслушал, и из которых я выбрал нужные и наиболее качественные. Эти отобранные фрагменты затем были структурированы и аранжированы в цифровой звуковой рабочей станции (DAW), где я также переиграл некоторые сольные партии на MIDI-клавиатуре, используя звуки VST-синтезатора, и интегрировал их с элементами ИИ.

Space Projections pt. 2 (Uplifting Electronic Remake, 2025 Remastered). Оригинал: Space Projections 2 (2009)

Сложно однозначно сказать, насколько новая аранжировка стала лучше оригинала. Изначально трек был “заточен” под атмосферный, около-космический минимализм и преследовал иную цель – интроспекция. Сейчас, в этой новой форме, он приобрел элементы кинематографичности и симфоничности, выводя слушателя как бы больше “наружу”.

Мини‑альбом Electronic Requiem состоит из трёх композиций, взятых из двух старых моих альбомов (Prologue, Electronic Symphony). ИИ также “предложил” множество фрагментов и идей для каждого трека. Я переслушал каждый такой фрагмент, потом выбрал самые подходящие, отсеял некачественные, доработал и финализировал в редакторе Studio One. В альбом также был добавлен женский вокал в виде вокализа, сгенерированный ИИ. В общем, получилось весьма интересно: старые треки предстали в совершенно новой “обертке”, сохранив основной посыл: мелодию, гармонию и прочее. Но качество и ясность звучания данного альбома оставляет желать лучшего; железный свист на кульминационных моментах напрягает, по моему субъективному мнению. Надеюсь, производители решат эту проблему “железного скрежета” совсем уже скоро.

Когда ИИ оставляет “артефакты”

Несмотря на большие возможности, ИИ‑модель Suno пока не идеальна. Даже новичок часто может заметить характерные “артефакты”:

  • металлический оттенок голоса или звуков,
  • мерцание на высоких частотах (shimmer),
  • сжатые шипящие, компрессированность или слегка искажённые средние и верхние частоты,
  • чрезмерно “правильную” постановку нот – квантизированную точность, ровную велосити и идеальные ритмические позиции (не всегда).

Как работают детекторы ИИ‑музыки

Общие принципы распознавания

Разные сервисы могут давать противоречивые оценки: в то время как SightEngine фокусируется на спектральных артефактах, два других сервиса (Letssubmit и MatchTune) опираются на анализ музыкальной структуры (гармонии и формы). Из-за этого они классифицируют треки как работу человека, если их структура (мелодия, тема) является авторской, и не используют признаки ИИ для окончательного вывода:

  • Фокус на акустическом содержании: SightEngine работает путем анализа акустического содержания аудио (включая спектральные признаки, такие как MFCCs), игнорируя метаданные. ИИ-модели часто оставляют тонкие, но специфические спектральные артефакты.
  • Причина срабатывания: Высокий процент «AI-generated», вероятно, связан не с тем, что трек сгенерирован полностью ИИ, а с наличием в нем чистых синтезаторных или сильно обработанных слоев, созданных с использованием ИИ-инструментов.
  • Риск ложных срабатываний: Как и все ИИ-детекторы, SightEngine склонен к ложным срабатываниям. Он может ошибочно помечать очень чистые, «плоские» или повторяющиеся звуки и паттерны (распространенные в электронной музыке) как сгенерированные ИИ, поскольку они напоминают спектральные артефакты, на которых обучалась модель.

Пример трека: «Spring Glade Lonely»

Я протестировал свою авторскую композицию «Spring Glade Lonely» (из альбома The Land of the Elves, 2020), переаранжированную с помощью ИИ-инструментов, на трёх разных сервисах-детекторах. Результаты последовательно подчеркнули разнообразные критерии, которые эти сервисы используют для оценки музыки.

Результаты анализа: Letssubmit и MatchTune определили трек как работу человека, фокусируясь на музыкальной структуре (сохранившейся концепции, мелодии и теме). SightEngine сообщил о высокой вероятности того, что трек был «AI-generated», подтверждая принципы, изложенные выше.

Letssubmit
MatchTune
SightEngine

Несмотря на красоту аранжировки и богатое “рузукрашивание” сольной линии дудуком, в некоторых местах композиции артефакты в виде “железного” дребезжания – на лицо. А так, красиво получилось.

На сегодняшний день единственным надёжным способом решения подобных проблем с качеством звучания остаётся наличие MIDI-дорожек и последующая ручная доработка трека в DAW. Однако современные музыкальные модели ИИ пока не дают такого уровня контроля и не способны генерировать редактируемые MIDI-структуры с необходимой точностью. Существует обходной путь: аудиодорожки, сгенерированные ИИ, можно по отдельности экстрагировать и конвертировать в MIDI с помощью сторонних программ, но этот процесс часто сопряжён с ошибками в нотах и ритме, что требует дальнейшей трудоемкой ручной коррекции.

Есть и другой нюанс, особенно заметный при работе со старыми фонограммами: исходная концепция автора. Композитор создавал произведение, исходя из конкретных звуков и ограничений того оборудования, которое было у него в распоряжении. Концепция трека формировалась и опиралась на эту звуковую палитру. Поэтому ИИ-интерпретация может не полностью отражать тонкие намерения, заложенные в оригинал. Аранжировка может получиться более насыщенной и плотной по звучанию, но при этом лишиться нюансов, связанных с первоначальным авторским замыслом.

Но бывает и обратная ситуация – когда ИИ, напротив, помогает раскрыть заложенную идею более полно и делает её слышимой так, как это раньше было технически невозможно.

Классические работы

Мои классические записи создаются полностью вручную без использования ИИ – от исполнения, оркестровки и аранжировки до постпродакшна. Первые релизы отличались сдержанностью – меньшим динамическим диапазоном и rubato. Со временем интерпретации стали значительно живее: в альбоме Times and Styles (Remastered), особенно в сочинениях Рахманинова, заметна большая выразительность. Под этим я понимаю комплекс факторов: rubato, акценты, динамический диапазон и другие приёмы, применимые для исполнения произведений.

Свобода темпа (rubato) и micro−timing

Rubato относится к свободной деформации ритма в мелодии. Для достижения этого эффекта я использую ручное редактирование кривой темпа в Studio One. График темпа редко бывает статичным; он постоянно регулируется для отражения динамической природы rubato; реализации интерпретации и для создания естественного ощущения музыкального дыхания.

Я также использую микро-тайминг (очень тонкое управление временем) как технический приём для воплощения экспрессивной интерпретации. Вручную проставляю в нужных местах короткие, резкие падения темпа (“пики вниз”) на кривой. Этот приём создаёт агогическую микрозадержку – краткое, выразительное замедление перед ключевой нотой. Это субъективное интерпретационное решение придаёт исполнению “человеческое” ощущение, даже несмотря на то, что все ноты остаются привязанными к ритмической сетке DAW.

Взаимосвязь темпа и динамики

Ручное управление темпом неразрывно связано с динамикой:

  • Crescendo / Decrescendo. Волнообразные изменения громкости – crescendo (постепенное усиление) и decrescendo (ослабление) – формируют характерные динамические «волны» оркестрового звучания.
  • Синхронизация темпа и громкости. В традициях романтической интерпретации ускорение (accelerando, подъём кривой темпа) часто сопровождается усилением динамики, а замедление (ritardando, спад кривой) – её ослаблением. Такое совместное управление двумя кривыми – темпа и громкости создаёт впечатление естественного «дыхания» оркестра.

Для наглядности можно показать фрагмент видео из Studio One, где видно, как в финальной части ползунки громкости микшера медленно поднимаются и опускаются по мелодии, демонстрируя динамические “волны” и эффекты crescendo/decrescendo.

Двигающиеся фейдеры на видео отражают кривую ручного управления громкостью (VCA), которую я создал в редакторе. Эта кривая служит дополнительным выразительным слоем, компенсирующим естественные ограничения исходно сыгранных нот и особенности виртуальных струнных инструментов. Такой подход позволяет формировать естественные динамические «волны» и согласовывать подъёмы и спады громкости с фразировкой и эмоциональным развитием фрагмента.
В этом фрагменте я намеренно выбрал определённую тембровую окраску струнных, исходя из нюансов силы нажатия клавиш на MIDI-клавиатуре. Эти естественные тембровые вариации я затем уточнил с помощью вручную выстроенной кривой VCA в DAW, чтобы итоговое звучание полностью соответствовало интерпретационным и эстетическим замыслам произведения.
Темповая динамика (rubato), вручную настроенная в Studio One, в первом действии концерта № 2 Сергея Рахманинова.

Rubato, сrescendo/decrescendo, micro-timing и т.д. – лишь некоторые из способов придать музыке живость. Для усиления выразительности и реализации собственного художественного видения, также существует множество других “техник”.

Именно в противопоставлении ИИ-помощи мы лучше понимаем ценность и сложность полностью ручной работы. ИИ предлагает готовые, статистически усредненные шаблоны и компромиссы. Ручной же труд позволяет композитору реализовать свои индивидуальные принципы интерпретации с высокой точностью, являясь прямым и немедленным выражением творческого намерения.

Хочется еще подчеркнуть, что описанные выше ограничения ИИ, касающиеся отсутствия тонкого контроля над экспрессивными и ритмическими нюансами (артикуляцией, темповой и динамической модуляцией), являются технологическими и, быть может, временными. В ближайшем будущем продвинутые интерфейсы позволят композитору задавать сложные, нелинейные параметры исполнения для каждого сегмента произведения. Тем не менее, ценность полностью ручной работы останется в её первичности: она является прямым и немедленным выражением намерения, в то время как ИИ всегда выступает в роли технического посредника.

Реакция аудитории: Тема классической музыки всегда вызывает живой интерес. На неё у меня ушло много времени и энергии, а слушатели часто спрашивали: “Какой оркестр здесь играл?” Когда узнавали, что всё сделал один человек, возникало недоумение: “Ты только эквализацию делал?”, “Как это возможно?”, “Ты использовал ИИ?”. Забавно, но почти уверен, что если бы вместо звуков классических инструментов я вставил звуки электронных инструментов в дорожки, вопросов было бы меньше.

Полные версии композиций Рахманинова в моем исполнении можно бесплатно послушать здесь или на других музыкальных ресурсах (Apple Music, Spotify и т.д.).

Юридическая идентификация авторства

Хотя детекторы анализируют звучание, они не определяют юридическое авторство. Для закрепления прав используются отдельные системы:

  • YouTube Content ID – фиксация авторских прав на музыку в видео.
  • Identifyy и Amuse – регистрация треков и подтверждение принадлежности автору.

Также важно сказать, что помимо систем цифровой идентификации, ключевую роль в юридическом закреплении авторства играют Общества по коллективному управлению правами (PROs), такие как ASCAP, SESAC, BMI (в США), AKKA-LAA (в Латвии), РАО (в России) и т.д. Эти организации фиксируют юридическую принадлежность произведения композитору и издателю с целью сбора и распределения роялти за публичное исполнение музыки (на радио, телевидении, стриминговых платформах и т.д.). Регистрация в PRO является фундаментальным шагом для формализации авторских прав.

Авторское право сталкивается с вызовом: законы ещё не успели адаптироваться к ИИ. В США произведения, полностью сгенерированные ИИ без творческого вклада человека, не защищаются авторским правом. Если человек внёс заметный вклад, возможна регистрация прав..Некоторые инициативы предлагают маркировку контента, созданного ИИ, вместо классической защиты. Многие юристы подчёркивают: ИИ не является субъектом права – автором считается человек. Международная практика неоднородна; ЕС разрабатывает глобальные рамки для ИИ‑музыки.

Авторское право и концепция «гибридного авторства»

Юридическая дискуссия продолжается: принадлежит ли авторство полностью человеку, формирующему замысел и принимающему решения, или конечный продукт можно рассматривать как совместное творение человека и ИИ. Некоторые исследователи предлагают вводить новые категории авторских прав, которые отражали бы сложную структуру соавторства, где человек остаётся главным субъектом, но ИИ участвует в создании материала.Параллельно обсуждается тема использования обучающих данных – насколько этично применять музыкальные стили, вокалы или композиционные модели, на которых была обучена система, и можно ли отследить вклад исходных произведений в финальный результат.

Этические, социальные и технологические аспекты взаимодействия человека и ИИ в музыке

Взаимодействие человека и ИИ в музыке поднимает вопрос о распределении творческой роли. Исследования показывают, что многие авторы одновременно испытывают как вдохновение от новых возможностей, так и опасения относительно снижения ценности человеческого участия. Важным остаётся и вопрос культурной репрезентативности: модели обучаются на существующих данных, и если эти данные односторонни, это может укреплять определённые стилистические и культурные доминанты.

С технологической стороны всё чаще поднимается вопрос прозрачности генеративных моделей: насколько понятно, как именно ИИ пришёл к тому или иному музыкальному решению, и какие элементы данных повлияли на его результат. Прозрачность важна не для того, чтобы диктовать способы работы, а чтобы у автора была возможность понимать характер взаимодействия и степень вторжения алгоритма в творческий процесс.

Эстетика, подлинность и восприятие

Появление ИИ-музыки ставит интересные философские вопросы о подлинности:
– воспринимается ли сгенерированная музыка как эмоционально искренняя?
– насколько она отражает индивидуальность автора, если её часть проходит через алгоритмическую трансформацию?
– где проходит граница между стилевой имитацией и художественным высказыванием?

Несмотря на то, что музыка, созданная с использованием ИИ, может оказывать сильное эмоциональное воздействие и трогать слушателей, философское различие между опытом (переживанием) автора и имитацией алгоритма сохраняет свою актуальность.

Эти вопросы не требуют обязательного ответа – они становятся частью общей картины современного музыкального пространства, где сосуществуют традиционная композиция, гибридные формы и полностью генеративные подходы.

Эти размышления показывают, что взаимодействие человека и ИИ не сводится лишь к техническому процессу генерации звука. Это всегда диалог между авторским замыслом, алгоритмическим инструментом и теми смыслами, которые слушатель привносит в восприятие музыки. Именно поэтому даже при использовании самых сложных моделей центральной фигурой остаётся человек – со своей интонацией, вкусом, выбором и намерением.

Итог

Художественное решение остаётся за автором. ИИ – хороший инструмент, который помогает предлагать варианты и расширять творческое поле.

18.11.2025, Андрей Гуляйкин