Нейромодуль

Suno - петь своим голосом

31 июл 2024

часть 1 - «Suno - что и как» https://poembook.ru/diary/113749

часть 3 - «Suno - Справочная информация» https://poembook.ru/diary/113754

Информация - полностью копи-паста по источнику AlexHahguery - Об использовании опции Audio Input.

(приводится почти целиком)

5. Спеть своим голосом

Кратко. Вы загружаете короткий (6-60 сек) фрагмент аудио, задаете Стиль, текст (если песня) или нет (если Instrumental), а Suno его "дописывает", доигрывает. С опцией "Get Whole Song", как и ранее, можно объединить исходное и новое в одну композицию.

Суть в том, что алгоритм пытается распознать закономерности в загруженном фрагменте, "музыкальное содержание", не в эмоциональном человеческом понимании - грустно, весело, трагично и т.п., а в формальном смысле - какая ритмическая структура, какая гармоническая последовательность, где мелодические линии, какие штрихи, тембры, какая форма. Хотя, это тоже "человеческое". Робот, скорее, ищет закономерности в графическом (спектральном) представлении полученного фрагмента. В итоге они берутся за основу, "правила", как продолжать "рисовать".

В инструментальных фрагментах пользователя Suno повторял (а также развивал, варьировал) все близко к исходнику, если в Promt'е указывалось [The same style]. Кстати, очень полезная функция: может вы не умеете делать вариации, импровизировать, или может вам лениво, или хочется глянуть, что выдаст робот...

Один человек высказал пожелание: "Вот мне бы мои ноты, озвучить симфоническим оркестром", ну т.е. не возиться самому, когда каждую ноту надо редактировать и даже дорогие семплы не спасают. Скорее всего уже есть алгоритмы, восстанавливающие старые фотографии - не только ретушь, но и отсутствующие фрагменты, де-фокус и пр. Почему бы не подсунуть фрагмент симфонии, отрендеренной из midi с недорогим GM модулем и не "перерисовать" скрипочки и все остальное "правильным, дорогим" звуком? Вот, взял подобный фрагмент, подгрузил, а в Стиле написал что-то вроде [Сохранить ритм, гармонию. Исполнить реальным богатым звучанием] .. И? Нет, тембры существенно не поменялись. Может команды не те, а может подобное в принципе тут невозможно, но ...

6. Тесты по использвоанию собственного голоса в песнях Suno

AlexHahguery первую неделю июля 2024 тестировал Audio Input только с одной с целью - добиться того, чтобы Suno спел(о) его тембром. Заполнил своим голосом весь исходный фрагмент, все 60сек.

По возможности, в образце надо обеспечить следующее:

- наличие всех фонем **;

- максимально возможный звуковысотный диапазон. К слову, в речи он намного уже, чем в пении;

- желательно и присутствие разных певческих, речевых приёмов - "нормальный", "с опорой", "с придыхом";

- нежелательно появление порядка в материале - периодичности (явной ритмики, даже сложной), наличие "музыкальной логики", будь то музыкальный лад, "пропетая" по ступеням гармоническая секвенция и т.п. Т.о. четкое произнесенное стихотворение или правильно спетая мелодия будет вредить. Скажем так: надо передать только фонетическую информацию, без примесей чего-то музыкального.

** Сначала нашел вариант фонетически представительного текста современного русского языка - в нем есть все фонемы, причем в соответствии со статистикой обычной речи. Однако, начитка такого текста это более 6 мин. записи. И я не стал его использовать. Потом вспомнил о панграммах - выражениях, фразах, включающих все буквы алфавита. Может это и не слишком научно, но ... я собрал несколько панграмм, которые смогу скороговоркой произнести и уложиться в 1 мин., надеясь, что этот материал сработает.

а) Datasets AlexHahguery

AuDS1 - взял вокал на английском из большого (24 мин.) Dataset, что был собран для RVC. Загружал сет в Suno, вбивал Lyrics, Style и генерил песню. Как ни странно, с ним неплохо получился и английский, и русский.

AuDS2 - взял текст песни "Мне просто не повезло" и наговорил его. Подумал, что если "скормить" Suno ровно тот набор фонем, что нужен в этой песне? Записывая этот сет, специально выходил из высотного и динамического диапазона обычной речи - старался говорить выше и ниже, как в эдакой "линейной" манере - "по-ступенькам", так и большими, не свойственными для речи интервалами, "скачками" вверх-вниз. Ну, и по-громче, и почти шепотом. Честно говоря, это не так уж просто, если ты не артист, озвучивающий мультики и т.п. В принципе этот сет работал, но показалось, что его исходная "правильность" вредила, накладывала отпечаток и ограничивала Suno в применении Стиля.

AuDS2i - тот же набор, что и AuDS2, в котором звуковая волна "перевернута во времени", т.е. Reverse - попытка нарушить логичность материала. Но! С ним система работать не стала и вместо голосового набора применила дефолтный голос. Следовательно алгоритм понимает фонетическую логику русского языка и не принимает "перевернутые" фонемы.

AuDS2R - то же, что и AuDS2 , но с перепутанной последовательностью фраз и слов - решил нарушить текст песни (стихотворение) в надежде как-то уменьшить его влияние. Сет в принципе работал нормально, но лучше все-таки создавать свой собственный универсальный Dataset, а не возиться с отдельным набором для каждой песни. Так и дошло дело до панграмм.

AuDS3 - скороговоркой записал несколько панграмм (см. текст в конце), при этом менял высоту (тон) большими интервалами - скачками. После обработки записи - удаления пауз, вдохов и сбивок, оказалось, что уложился в 52 сек. Решил добавить пропетые гласные (а,е,о,у...). Записал их в разных регистрах, а затем вставил каждую по отдельности между слов, в разрыв панграмм. Все с той же целью - максимально нарушить логику, чтобы система не нашла в наборе ничего музыкального. (В итоге этот набор оказался самым удачным, как для русского, так и английского). Но все-таки не покидала мысль, что не очень правильно не давать Suno образцов пения, поэтом был собран следующий набор.

AuDS4 - пропел те же панграммы (часть), специально блуждая по тону, насколько позволяет диапазон и абсолютное игнорирование любых вокальных тренировок, распевок и пр. Набор работал, но система явно сопротивлялась отработке Стилей, где вокал достаточно плотный в ритмическом плане - она генерила что-то более медленное, распевное.

б) Важные моменты

В Style категорически нельзя включать любое упоминание о голосе, вокале типа: Sultry Singer, Female voice и т.п. Иначе система будет использовать голос по-умолчанию в соответствии со Стилем.

Кто использует Suno и еще не стал Promt-профи для этой системы, знает, что добиться строгого исполнения структуры песни (формы), даже с помощью рекомендуемых команд в Lyrics, как [Verse], [Chorus] и др., удается далеко не всегда. А в режиме Audio Input с этим все еще сложнее. С какого-то момента пришлось вписывать [Strictly follow the lyrics below] в самом начале Lyrics. В большинстве случаев это, похоже, работает.

Уже понятно, что почти все результаты в ИИ алгоритмах генерации имеют весьма вероятностную природу. С Suno, используя один и тот же Dataset, вы получите разное звучание в песнях даже с одним и тем же заданием Стиля - где-то ваш тембр будет отчетливо слышен, где-то не очень, а иной раз вы себя не узнаете. Причин тут множество, одна из важных связана с тем, что система для каждой новой генерации выбирает новую модель или новое "семя" (Seed, случайное число) для запуска того же алгоритма.

Особенности интонирования. Манера пения в разных стилях разная. Если Suno "примет" ваш набор, то будет пытаться "вылепить" из него вокальный трек для Стиля, который вы задали - поэтому, все-таки стоит выбирать стиль, соответствующий голосовому набору. Если Dataset собран из "нежного, няшного" женского голоса, а Стиль выбран "Aggressive Rap, Hip-Hop", то рассчитывать на приемлемый результат вряд ли стоит

Со представленными наборами пришлось столкнуться с такими моментами. Голос по регистру, скорее баритон, и если выбирался стиль Soul, где тесситура обычно выше, то Suno не хватало фонем (видимо, даже с изменениями по тону), и система добавляла чужие - смешивая или просто заменяя. Помимо этого вокал имел заметную подвижность - опевания, мелизмы - то, чем автор не владеет реально в такой степени. Как результат, голос получался уже не совсем авторский. Вполне возможно, что подобные огрехи можно компенсировать какими-то командами, но пока не успел этот вопрос исследовать более детально.

Прим. Все актуальные эксперименты автора можно отследить у него на странице, на Хабре.

7. Панграммы

Аэрофотосъёмка ландшафта уже выявила земли богачей и процветающих крестьян. Бегом марш! У месторождения кварцующихся фей без слёз хочется электрическую пыль и Блеф. Борец за идею Чучхэ выступил с гиком, шумом, жаром и фырканьем на съезде — и в ящик № 1234 5678 90 В чащах юга жил бы цитрус? Да, но фальшивый экземпляр! Всё ускоряющаяся эволюция компьютерных технологий предъявила жёсткие требования к производителям как собственно вычислительной техники, так и периферийных устройств. Вступив в бой с шипящими змеями — эфой и гадюкой, — маленький, цепкий, храбрый ёж съел их. Государев указ: душегубцев да шваль всякую высечь, да калёным железом по щекам этих физиономий съездить! Друг мой эльф! Яшке б свёз птиц южных! Завершён ежегодный съезд эрудированных школьников, мечтающих глубоко проникнуть в тайны физических явлений и химических реакций. Здесь фабула объять не может всех эмоций — шепелявый скороход в юбке тащит горячий мёд.

ИСТОЧНИКИ

(на основании личного опыта и материалов из различных открытых источников)

ссылки в комментариях

Справочная информация по Suno

https://poembook.ru/diary/113754

Отзывы

Нейромодуль31.07.2024

Ссылки на используемые и упоминаемые источники Инструментальные теги https://www.suno.wiki/faq/metatags/instrumental-tags/ Стили и жанры https://www.suno.wiki/faq/style-and-lyrics/styles-and-genres/ Как всё генерируется https://habr.com/ru/articles/810187/ Генератор стиля и текстов песен для Suno Ai https://sunoprompt.com/ru https://virartech.ru/SunoFactory.php

Новиков Олег31.07.2024

Благодарю за проделанную работу. Не знаю что интереснее начать изучать СУНо или продолжить мучить Кубэйс...

Нейромодуль31.07.2024

Олег, думаю, это не сравнимо. Поскольку вряд ли они заменяют друг друга. Что вырастит из Суно в итоге не известно. Но уже сейчас как полигон для прогона задумок использовать можно. Так сказать, наскоро услышать, как может звучать возникшая идея. Которую потом можно и реализовать. Но как реальный профессиональный инструмент для создания репертуара... пока сомнительно. Хотя, если присмотреться к эстрадным реалиям, да ценам на услуги композитора, то... выгода налицо.

Новиков Олег31.07.2024

Юрий, я вынашиваю задумку спеть с хором... Вот хочу в суно сделать хор...

Нейромодуль31.07.2024

Олег, там есть ссылки на жанры. Где-то видел целых 100 листов перечислений. Может и есть. Кстати, если стиль Григориан есть - то он же основан как бы на хоре. Можешь попробовать в этом направлении. Иначе выбор другого стиля просто отрежет возможности использования хора.

Новиков Олег31.07.2024

Юрий, да... Григориан я уже поюзал... Впринципе подходит... Надо только сценарий проработать для него... Предмет хоровое дирижирование считается одним из сложнейших предметов. Проблема еще в том, что у СуНо нельзя редактировать один вариант. Всегда будет новый... Это рулетка...

Новиков Олег31.07.2024

Юрий, кстати, вопрос на засыпку. А ты бы мог стать экспертом в местных музыкальных конках, по улавливанию желающих пролезть с СУНО? Сможешь отличить, если качественно сделано?

Нейромодуль31.07.2024

Олег, не уверен. Да и честно говоря, желание нулевое. В случае чего помочь, подсказать в плане как оно кажется мне, я могу. Но выступать экспертом - нет. Да и дело в том, что тут один выход - полное доверие и принятие мнения эксперта. Поскольку никаких фактических признаков привести нельзя. Поэтому даже явное использование Суно, но без признания автора, выглядит... несколько натянуто. Я не готов брать на себя роль бога в этом вопросе.

Новиков Олег31.07.2024

Юрий, благодарю. Просто я пытаюсь понять умерли ли конкурсы с живыми людьми...

Нейромодуль31.07.2024

Олег, кстати, сейчас рылся где-то в суновских материалах и услышал о существовании хоров. Но факта не видел.

Maksanya31.07.2024

Свинья для красоты?

Нейромодуль31.07.2024

Maksanya, красивая же свинья

Maksanya31.07.2024

Юрий, красивая.

t/voyager/bera31.07.2024

я то думаю, чего мне сегодня целый день шашлыка охота..