Привет!
Итак SpeakGPT.club - это сервис для длительных голосовых бесед с ChatGPT.
Его можно использовать для подготовки к собеседованиям, практики иностранного языка, тренировок общения и т.д.
Вы определяете как именно ИИ должен общаться с помощью "промпта". Примерно как в ChatGPT. Но потом ссылкой на такого собеседника можно поделиться. И можно не раскрывать при этом самого ценного - текст "промпта".
Вот инструкция, которую я записывал для клиента. Она должно дать понимание как все работает.
ссылка на ютуб
От чего у меня бомбило? В чем заключается проблема?
Итак мы имеем умнейший ИИ, обученный на всем интернете, но при этом сервисы для разговоров с ним (это в основном для практики языков) - предлагают крайне плоские диалоги, в духе "Where is the bathroom?"
Кстати, про bathroom - это прямая цитата из видео, которое было в анонсе OpenAI три дня назад.
https://player.vimeo.com/video/803286588?h=0070d10757
Разве не круто было бы использовать для разговоров всю мощь ИИ? Чтобы создавать интересные и специализированные беседы под каждого отдельного человека.
В этом проекте я попробовал такое реализовать )
Фичи
1. Открытый промпт
В SpeakGPT каждый пользователь может задать себе собеседника индивидуально.
И поскольку создать интересный промпт не просто, пользователи могут делиться удачными собеседниками друг с другом. При этом текст промпта по ссылке можно скрыть, чтобы получатель мог только непосредственно беседовать. Так что если вы потратили неделю на полировку промпта - давать им попользоваться другим людям - не обидно.
Так, например, преподаватели могут скидывать такую ссылку на интересного собеседника как дополнительную ценность к своим услугам.
2) Почти 100%-е распознавание речи с помощью Whisper от OpenAI
Сервис Whisper работает невероятно хорошо. Просто новый уровень по сравнению с распознаванием в Телеграме диктовкой на iOS/Android, к которому мы привыкли.
Можно сконцентрироваться на беседе и быть уверенным что система все равно поймет, что вы хотите сказать. Вы можете говорить громко или тихо, быстро или медленно, делать длинные паузы или использовать сленг.
3) Запрос к модели через английский
ИИ лучше всего работает на английском языке. Поэтому в SpeakGPT если вы обратились к нему на русском, система переведет сообщение на английский для запроса, а ответ обратно в русский. DeepL - почти безошибочно делает перевод.
Это немного дольше, но беседы получаются глубже и интереснее.
Разработка
Сбор приложения был не сложным, это по-сути бутерброд из разных АПИ. Но из приключений - пришлось уговорить знакомого из Австрии поделиться кредиткой для регистрации в API переводчика DeepL. Из Украины или с картой Payoneer сделать это нельзя. Я был тем самым другом который пишет - скинь номер карты... да да и те три цифры на обратной стороне.
Первые пользователи
Когда приложение было готово, я закинул его в чат поклонников ChatGPT, и люди начали им пользоваться.
Как пример, мне написала девушка психолог, которая обучает других психологов. Она хочет создавать собеседников, которые бы вели себя как человек с депрессией или тревогой, чтобы давать их своим студентам для практики.
И проявила желание платить за сервис.
Личный опыт
На следующий день после публикации у меня было важное и напряженное собеседование. Я сделал себе искусственного интервьюера и специально прописал ему, что он должен задавать каверзные и спорные вопросы по теме.
Так вот, во время беседы с ботом была ситуация, которая, наверное, знакома каждому: наступает твоя очередь говорить, но все мысли вдруг вылетают из головы.
Я застопорился примерно на 20 секунд, пытаясь вспомнить мысль, потом наконец поймал снова нить беседы и продолжил. Сервис позволил получить такой опыт в безопасной обстановке и меньше волноваться на реальном собеседовании.
В другой раз мне показалось, что бот задал один и тот же вопрос дважды. Но когда я указал на это, он объяснил, что вопрос касался других деталей. Вот так я обучался быть внимательным к вопросам на интервью.
Сайд эффект
В качестве побочного эффекта, когда я загрузил этот проект на конкурс стартапов Pioneer.app, я получил 6 из 6 еженедельных голосов (два раза подряд). С предыдущим проектом я обычно получал не более двух голосов.
Что хочу от сообщества?
Качество промпта - это то что определяет, интересная ли получится беседа, или нет. И чем больше людей будет обмениваться информацией о создании собеседников - тем ценнее будет беседы.
Собственно поэтому и выбран домен .club
Говорить голосом легче и приятнее чем печатать, поэтому длинна диалога с ИИ становится значительно больше. За счет этого мы можем исследовать все больше закоулков этой машины и получать еще больше пользы от нее.
Направления, которые на вскидку можно исследовать:
- Поговорить с ученым, глубоко разбирающимся в какой-то теме.
- Учитель английского, который учит тебя формулировать фразы более литературным и продвинутым языком
- Учитель истории с которым можно обсудить событие в прошом
и т.д.
Велком попробовать и присоединяться к сообществу. В будущем я сделаю пейвол чтобы оплачивать расходы с АПИ, но для первых пользователей из клуба он открытый и бесплатный.
UPD: добавил Немецкий, Испанский, Французский, Польский, Итальянский
UPD2: После первого фидбека от клубчан хочу сфокусировать приложение на практике языков и сделать беседы более интересными.
Новый вариант - дискутирование с ботом о твоих твитах, для практики языков.
Пользователь указывает свой твиттер, приложение показывет его ленту, пользователь выбирает твит по которому можно по-дискутировать и беседует о нем с ИИ.
Бот при этом приводит контраргументы чтобы беседа получилась интересной. Каждый день юзеру будет приходить емейл с предложением обсудить такие-то твиты из его ленты.
Берем Твиттер - тк это источник тем которые интересны конкретному пользователю, вместо широких рассуждений “о спорте”, “о политике”.
Если хотите попасть в беталист на новую версию - пишите в телеграм t.me/igorbeaver
А то что есть - можно использовать уже сейчас.
Очень круто! А насколько сложно прикрутить другие языки, например немецкий? Сейчас попробовал немного, вроде бы фразы на немецком расшифровываются, но чатгпт мне отвечает на английском. Или это промтом можно задать?
Заебись!
Кажется, надо расчистить себе аж прям целый день, чтобы вдоволь с таким наиграться.
Респект, бро!
Классный проект!
Ещё и комплимент от бота получил, дивно :D
А чем это отличается от mycharacter.ai?
Там есть и озвучка текста и ввод голосом. Кажется, что даже в создании персонажей они продвинулись дальше - с генерацией аваторов, созданием коллекций и таким же их шерингом как у тебя описано.
Предполагаю, что они это делали давно и просто свою LM'ку заменили с выходом чатгпт на апишку, но тем не менее выглядит очень круто у них.
Очень крутая штука, я сейчас сидел тренировался общаться с hr-ом на английском языке. Иногда происходят ошибки, приходится перезагружать страницу, и начинать все по новой, ибо нельзя повторить попытку отправки моего сообщения, блокируется интерфейс.
Спасибо за проект, тоже думал над таким.
Попробовал пообщаться на японском, китайском и нидерландском. Бот не осилил, выдает ошибку распознавания.
Английский и простые вопросы на немецком и французском щелкает как орешки.
Можно дополнительные три языка подключить? Интересно, как он будет с тонами работать и различными диалектами
Классная идея
Скажите, какого вида данные храните у себя на сервере? Или не храните вообще ничего и это чисто обертка на api?
Крутая идея! Буду рада присоединиться к тестированию продукта.
Сейчас на https://app.speakgpt.club/login после входа через twitter ничего не происходит. В консоли разработчика видно, что вываливаются данные с токенами авторизации twitter, то есть авторизация вроде как успешно прошла.
В чём может быть проблема?
UPD: в продукт вносятся изменения, ждём обновления
Мне очень понравилось, для такого социофобушка как я разговаривать голосом с компом хоть не так страшно ...
Думаю, было бы полезно и удобно поставить кнопочку которая бы проигрывала твою речь в записи. Это полезно, чтобы слышать свое произношение
А там пока есть возможность общаться на 3 за ранее предоставленные темы? Нет возможности свою тему задать и использовать как в примере, с интервьювером, например?
Звучит интересно.
Но на iPad в Chrome не завелось, при нажатии на кнопку микрофона она окрашивается в синий с иконкой релоада и всё… больше на нажатия не реагирует.
Идея потрясающая!
Но у меня что-то не заводится
На фразу "Hello! How are you?" выпадает ошибка
Win 10, последний Chrome, разрешение на микрофон дано
Крутой проект, попробовал сделать учителя китайской истории :)
А какой используется Text-to-Speech движок? По-английски вообще хорошо говорит, не только понятно, но и смысловые ударения многие на месте. Это Amazon Polly?
Выглядит крайне интересно! Как можно присоединиться к тестированию проекта?
Преподаю английский на высоких уровнях, готовлю к IELTS, учу писать и говорить логично)
Плюсую
Правильно понимаю, что сербского языка не будет, поскольку он не поддерживается DeepL?