💡 Идея: Сгенерированная ИИ «Модель для сборки»
Публичный постВсем привет! Начинаю разгребать свою Картотеку от кучи идей. Так сказать весенний субботник.
И так, первый лот. Многие из вас знают такое культурное явление как радиопередача «Модель для сборки», для тех кто не понимает о чём речь — милости прошу в первый пост в линках.
Я до сих пор обожаю ходить на их живые выступления, но мысль которая никогда меня не покидает — что же будет, если с Владом что-то случится? Как мы будем жить дальше?
Но мы живём в удивительное время, когда кремниевая нежить уже прекрасно рисует, меняет лица, проходит тесты за школьников и всякое всякое. У меня лично не возникает сомнений, что можно оцифровать голос Влада так, чтобы можно было озвучивать совершенно разные тексты.
Тогда в придачу можно и вопросы авторского права элегантно объехать, то что у вас есть текст автора на руках больше не проблема творческого коллектива, а ваша. ЭлектроВлад озвучит любой текст.
Также уверен, что можно научить если не генерить эмбиент тоже искусственно, то хотя бы сводить существующие треки их паблик домена.
Я даже пытался проделать такой трюк самостоятельно. Есть такой сервис voice.ai, его уникальное торговое предложение — обучает по 15 минутам текста ИИ говорить нужным голосом.
Тут же возникла и первая проблема, не так-то просто оказалось найти записи голоса Влада без посторонних звуков. В самой МДС на голос наложена реверберация и играет музыка. В немногочисленных интервью тоже что-то играет под голосом.
Тем не менее, я попробовал подготовить материал и взял Большое интервью Влада Коппа на Радио Маяк. Почистил в Audocity голос интервьюера, т.е. оставил только ответы Влада. Загрузил в сервис, но первая попытка тренировки провалилась. Видимо музыка на фоне мешала. Голос просто не сгенерировался.
Ладно, я взял другой сервис app.cleanvoice.ai. Этот сервис удаляет фоновую музыку, бэканья-эканья, паузы и чистит речь. Прогнал то что у меня получилось, получил удивительное «Our Algorithm has found 154 filler sounds, 6 mouth sounds, 23 stutters and removed 1 seconds of dead air». Фоновую музыку он, определённо убрал. А из 19 минут осталось 18,5.
Что меня беспокоило, это то, что может быть своим то ухом я это слышку кака голос Влада без музыки, на спекртограмме это может быть совсем не так. Всё-таки звук с моей стороны тоже обрабатывает моя нейросетка, и я мог просто мелкие изъяны не замечать. Но всё равно решил попробовать загрузил «чистую» речь на повторную тренировку.
Второй раз тоже ничего не вышло. Голос был совсем не похож.
На этом я свои попытки остановил. Но я уверен на 100%, что это реализуемо. То что у меня не получилось сделать пластиковой вилкой, профессионал точно решит.
Да и честно говоря, было бы у меня больше запала, я бы не стал мудрить с интервью, а просто постарался бы договориться с собственником голоса и сделать оцифровку голоса по всем правилам. Так что, если найдутся охотники заняться — я бы точно пользовался таким сервисом.
У Коппа час озвучки ~10 000 руб. Сгенерировав 24 часа речи он бы недополучил 240 000 руб. За сколько он готов отдать голос "навсегда", несколько миллионов?