Яворовский Юрий


Suno - петь своим голосом

 
31 июл в 11:12
часть 1 - «Suno - что и как» https://poembook.ru/diary/113749
часть 3 - «Suno - Справочная информация» https://poembook.ru/diary/113754
Suno - петь своим голосом
Информация - полностью копи-паста по источнику AlexHahguery - Об использовании опции Audio Input.
(приводится почти целиком)
5. Спеть своим голосом
Кратко. Вы загружаете короткий (6-60 сек) фрагмент аудио, задаете Стиль, текст (если песня) или нет (если Instrumental), а Suno его "дописывает", доигрывает. С опцией "Get Whole Song", как и ранее, можно объединить исходное и новое в одну композицию.
 
Суть в том, что алгоритм пытается распознать закономерности в загруженном фрагменте, "музыкальное содержание", не в эмоциональном человеческом понимании - грустно, весело, трагично и т.п., а в формальном смысле - какая ритмическая структура, какая гармоническая последовательность, где мелодические линии, какие штрихи, тембры, какая форма. Хотя, это тоже "человеческое". Робот, скорее, ищет закономерности в графическом (спектральном) представлении полученного фрагмента. В итоге они берутся за основу, "правила", как продолжать "рисовать".
 
В инструментальных фрагментах пользователя Suno повторял (а также развивал, варьировал) все близко к исходнику, если в Promt'е указывалось [The same style]. Кстати, очень полезная функция: может вы не умеете делать вариации, импровизировать, или может вам лениво, или хочется глянуть, что выдаст робот...
 
Один человек высказал пожелание: "Вот мне бы мои ноты, озвучить симфоническим оркестром", ну т.е. не возиться самому, когда каждую ноту надо редактировать и даже дорогие семплы не спасают. Скорее всего уже есть алгоритмы, восстанавливающие старые фотографии - не только ретушь, но и отсутствующие фрагменты, де-фокус и пр. Почему бы не подсунуть фрагмент симфонии, отрендеренной из midi с недорогим GM модулем и не "перерисовать" скрипочки и все остальное "правильным, дорогим" звуком? Вот, взял подобный фрагмент, подгрузил, а в Стиле написал что-то вроде [Сохранить ритм, гармонию. Исполнить реальным богатым звучанием] .. И? Нет, тембры существенно не поменялись. Может команды не те, а может подобное в принципе тут невозможно, но ...
6. Тесты по использвоанию собственного голоса в песнях Suno
AlexHahguery первую неделю июля 2024 тестировал Audio Input только с одной с целью - добиться того, чтобы Suno спел(о) его тембром. Заполнил своим голосом весь исходный фрагмент, все 60сек.
По возможности, в образце надо обеспечить следующее:
 
- наличие всех фонем **;
- максимально возможный звуковысотный диапазон. К слову, в речи он намного уже, чем в пении;
- желательно и присутствие разных певческих, речевых приёмов - "нормальный", "с опорой", "с придыхом";
- нежелательно появление порядка в материале - периодичности (явной ритмики, даже сложной), наличие "музыкальной логики", будь то музыкальный лад, "пропетая" по ступеням гармоническая секвенция и т.п. Т.о. четкое произнесенное стихотворение или правильно спетая мелодия будет вредить. Скажем так: надо передать только фонетическую информацию, без примесей чего-то музыкального.
 
** Сначала нашел вариант фонетически представительного текста современного русского языка - в нем есть все фонемы, причем в соответствии со статистикой обычной речи. Однако, начитка такого текста это более 6 мин. записи. И я не стал его использовать. Потом вспомнил о панграммах - выражениях, фразах, включающих все буквы алфавита. Может это и не слишком научно, но ... я собрал несколько панграмм, которые смогу скороговоркой произнести и уложиться в 1 мин., надеясь, что этот материал сработает.
а) Datasets AlexHahguery
AuDS1 - взял вокал на английском из большого (24 мин.) Dataset, что был собран для RVC. Загружал сет в Suno, вбивал Lyrics, Style и генерил песню. Как ни странно, с ним неплохо получился и английский, и русский.
 
AuDS2 - взял текст песни "Мне просто не повезло" и наговорил его. Подумал, что если "скормить" Suno ровно тот набор фонем, что нужен в этой песне? Записывая этот сет, специально выходил из высотного и динамического диапазона обычной речи - старался говорить выше и ниже, как в эдакой "линейной" манере - "по-ступенькам", так и большими, не свойственными для речи интервалами, "скачками" вверх-вниз. Ну, и по-громче, и почти шепотом. Честно говоря, это не так уж просто, если ты не артист, озвучивающий мультики и т.п. В принципе этот сет работал, но показалось, что его исходная "правильность" вредила, накладывала отпечаток и ограничивала Suno в применении Стиля.
 
AuDS2i - тот же набор, что и AuDS2, в котором звуковая волна "перевернута во времени", т.е. Reverse - попытка нарушить логичность материала. Но! С ним система работать не стала и вместо голосового набора применила дефолтный голос. Следовательно алгоритм понимает фонетическую логику русского языка и не принимает "перевернутые" фонемы.
 
AuDS2R - то же, что и AuDS2 , но с перепутанной последовательностью фраз и слов - решил нарушить текст песни (стихотворение) в надежде как-то уменьшить его влияние. Сет в принципе работал нормально, но лучше все-таки создавать свой собственный универсальный Dataset, а не возиться с отдельным набором для каждой песни. Так и дошло дело до панграмм.
 
AuDS3 - скороговоркой записал несколько панграмм (см. текст в конце), при этом менял высоту (тон) большими интервалами - скачками. После обработки записи - удаления пауз, вдохов и сбивок, оказалось, что уложился в 52 сек. Решил добавить пропетые гласные (а,е,о,у...). Записал их в разных регистрах, а затем вставил каждую по отдельности между слов, в разрыв панграмм. Все с той же целью - максимально нарушить логику, чтобы система не нашла в наборе ничего музыкального. (В итоге этот набор оказался самым удачным, как для русского, так и английского). Но все-таки не покидала мысль, что не очень правильно не давать Suno образцов пения, поэтом был собран следующий набор.
 
AuDS4 - пропел те же панграммы (часть), специально блуждая по тону, насколько позволяет диапазон и абсолютное игнорирование любых вокальных тренировок, распевок и пр. Набор работал, но система явно сопротивлялась отработке Стилей, где вокал достаточно плотный в ритмическом плане - она генерила что-то более медленное, распевное.
б) Важные моменты
В Style категорически нельзя включать любое упоминание о голосе, вокале типа: Sultry Singer, Female voice и т.п. Иначе система будет использовать голос по-умолчанию в соответствии со Стилем.
 
Кто использует Suno и еще не стал Promt-профи для этой системы, знает, что добиться строгого исполнения структуры песни (формы), даже с помощью рекомендуемых команд в Lyrics, как [Verse], [Chorus] и др., удается далеко не всегда. А в режиме Audio Input с этим все еще сложнее. С какого-то момента пришлось вписывать [Strictly follow the lyrics below] в самом начале Lyrics. В большинстве случаев это, похоже, работает.
 
Уже понятно, что почти все результаты в ИИ алгоритмах генерации имеют весьма вероятностную природу. С Suno, используя один и тот же Dataset, вы получите разное звучание в песнях даже с одним и тем же заданием Стиля - где-то ваш тембр будет отчетливо слышен, где-то не очень, а иной раз вы себя не узнаете. Причин тут множество, одна из важных связана с тем, что система для каждой новой генерации выбирает новую модель или новое "семя" (Seed, случайное число) для запуска того же алгоритма.
 
Особенности интонирования. Манера пения в разных стилях разная. Если Suno "примет" ваш набор, то будет пытаться "вылепить" из него вокальный трек для Стиля, который вы задали - поэтому, все-таки стоит выбирать стиль, соответствующий голосовому набору. Если Dataset собран из "нежного, няшного" женского голоса, а Стиль выбран "Aggressive Rap, Hip-Hop", то рассчитывать на приемлемый результат вряд ли стоит
 
Со представленными наборами пришлось столкнуться с такими моментами. Голос по регистру, скорее баритон, и если выбирался стиль Soul, где тесситура обычно выше, то Suno не хватало фонем (видимо, даже с изменениями по тону), и система добавляла чужие - смешивая или просто заменяя. Помимо этого вокал имел заметную подвижность - опевания, мелизмы - то, чем автор не владеет реально в такой степени. Как результат, голос получался уже не совсем авторский. Вполне возможно, что подобные огрехи можно компенсировать какими-то командами, но пока не успел этот вопрос исследовать более детально.
 
Прим. Все актуальные эксперименты автора можно отследить у него на странице, на Хабре.
7. Панграммы
Аэрофотосъёмка ландшафта уже выявила земли богачей и процветающих крестьян. Бегом марш! У месторождения кварцующихся фей без слёз хочется электрическую пыль и Блеф. Борец за идею Чучхэ выступил с гиком, шумом, жаром и фырканьем на съезде — и в ящик № 1234 5678 90 В чащах юга жил бы цитрус? Да, но фальшивый экземпляр! Всё ускоряющаяся эволюция компьютерных технологий предъявила жёсткие требования к производителям как собственно вычислительной техники, так и периферийных устройств. Вступив в бой с шипящими змеями — эфой и гадюкой, — маленький, цепкий, храбрый ёж съел их. Государев указ: душегубцев да шваль всякую высечь, да калёным железом по щекам этих физиономий съездить! Друг мой эльф! Яшке б свёз птиц южных! Завершён ежегодный съезд эрудированных школьников, мечтающих глубоко проникнуть в тайны физических явлений и химических реакций. Здесь фабула объять не может всех эмоций — шепелявый скороход в юбке тащит горячий мёд.
ИСТОЧНИКИ
(на основании личного опыта и материалов из различных открытых источников)
ссылки в комментариях
Справочная информация по Suno