💡 Идея: Сгенерированная ИИ «Модель для сборки»

 Публичный пост

Всем привет! Начинаю разгребать свою Картотеку от кучи идей. Так сказать весенний субботник.

И так, первый лот. Многие из вас знают такое культурное явление как радиопередача «Модель для сборки», для тех кто не понимает о чём речь — милости прошу в первый пост в линках.

Я до сих пор обожаю ходить на их живые выступления, но мысль которая никогда меня не покидает — что же будет, если с Владом что-то случится? Как мы будем жить дальше?

Но мы живём в удивительное время, когда кремниевая нежить уже прекрасно рисует, меняет лица, проходит тесты за школьников и всякое всякое. У меня лично не возникает сомнений, что можно оцифровать голос Влада так, чтобы можно было озвучивать совершенно разные тексты.

Тогда в придачу можно и вопросы авторского права элегантно объехать, то что у вас есть текст автора на руках больше не проблема творческого коллектива, а ваша. ЭлектроВлад озвучит любой текст.

Также уверен, что можно научить если не генерить эмбиент тоже искусственно, то хотя бы сводить существующие треки их паблик домена.

Я даже пытался проделать такой трюк самостоятельно. Есть такой сервис voice.ai, его уникальное торговое предложение — обучает по 15 минутам текста ИИ говорить нужным голосом.

Тут же возникла и первая проблема, не так-то просто оказалось найти записи голоса Влада без посторонних звуков. В самой МДС на голос наложена реверберация и играет музыка. В немногочисленных интервью тоже что-то играет под голосом.

Тем не менее, я попробовал подготовить материал и взял Большое интервью Влада Коппа на Радио Маяк. Почистил в Audocity голос интервьюера, т.е. оставил только ответы Влада. Загрузил в сервис, но первая попытка тренировки провалилась. Видимо музыка на фоне мешала. Голос просто не сгенерировался.

Ладно, я взял другой сервис app.cleanvoice.ai. Этот сервис удаляет фоновую музыку, бэканья-эканья, паузы и чистит речь. Прогнал то что у меня получилось, получил удивительное «Our Algorithm has found 154 filler sounds, 6 mouth sounds, 23 stutters and removed 1 seconds of dead air». Фоновую музыку он, определённо убрал. А из 19 минут осталось 18,5.

Что меня беспокоило, это то, что может быть своим то ухом я это слышку кака голос Влада без музыки, на спекртограмме это может быть совсем не так. Всё-таки звук с моей стороны тоже обрабатывает моя нейросетка, и я мог просто мелкие изъяны не замечать. Но всё равно решил попробовать загрузил «чистую» речь на повторную тренировку.

Второй раз тоже ничего не вышло. Голос был совсем не похож.

На этом я свои попытки остановил. Но я уверен на 100%, что это реализуемо. То что у меня не получилось сделать пластиковой вилкой, профессионал точно решит.

Да и честно говоря, было бы у меня больше запала, я бы не стал мудрить с интервью, а просто постарался бы договориться с собственником голоса и сделать оцифровку голоса по всем правилам. Так что, если найдутся охотники заняться — я бы точно пользовался таким сервисом.

Связанные посты
2 комментария 👇
Роман Мезенцев Инженер-тестировщик 7 мая в 04:53

договориться с собственником голоса и сделать оцифровку голоса по всем правилам

У Коппа час озвучки ~10 000 руб. Сгенерировав 24 часа речи он бы недополучил 240 000 руб. За сколько он готов отдать голос "навсегда", несколько миллионов?

  Развернуть 1 комментарий

@get_ked, это вопрос риторический, потому что задаёшь ты его не Владу.

Ну, например, несколько миллионов, это много? Кто знает, считать надо. Кому захочется -- посчитает. Может и не много.

Влад, тоже скорее всего не молодеет. Не правильно сравнивать трудочасы и роялти. В зависимости от условий лицензии роялти можно получать всю жизнь, не прилагая ни одной трудосекунды.

Это уже не говоря о том, что зона это серая и кто захочет рано или поздно сгенерирует и без разрешения. 🤷‍♂️

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб