Проект: 🦜 Kesha Voice Kit: попугай Кеша слушает ваши войсы [ИИ]

Проект: 🦜 Kesha Voice Kit: попугай Кеша слушает ваши войсы Публичный пост

18 апреля 2026 1016

https://github.com/drakulavich/kesha-voice-kit

«Таити, Таити! Не были мы ни в какой Таити! Нас и тут неплохо кормят.»
[lang: ru, confidence: 1.00]

Я активно использую OpenClaw последние два месяца, и 90% взаимодействия с ботом в Telegram происходит через войсы. Когда я увидел в LinkedIn упоминание о том, что Nvidia выпустила новую модель для speech-to-text, сразу решил её попробовать. Потом оказалось, что ребята из проекта FluidAudio на GitHub выложили оптимизированную версию модели для Apple Silicon, и на моих тестах производительность отличалась в 15 раз. Поэтому я решил, что это будет полезно не только мне, и быстро запилил wrapper вокруг этой библиотеки. Сначала я использовал в качестве обвязки bun и бинарник на Swift. Потом увидел, что для этой библиотеки можно использовать Rust, и перегенерировал код на Rust.

Сразу же появилась идея сделать эту библиотеку доступной не только под Mac, но и под Linux, поэтому я нашёл совместимые с форматом ONNX модели и продолжил развивать проект в эту сторону. В первой версии я зарелизил Speech to Text. Сейчас в текущем релизе добавил text to speech, чтобы агент или OpenClaw могли тоже разговаривать с вами голосом. Это бывает полезно, когда вы хотите быстро перевести что-то с одного языка на другой. Я, например, делал так, когда путешествовал по Таиланду: добавил скилл для OpenClaw, чтобы мои войсы на русском он переводил в текст на тайском и отправлял мне тайский voice-over. Это было удобно в магазинах.

До этого в моём OpenClaw-сетапе использовалась модель Whisper, которая работала через Groq. Groq даёт большой прирост скорости для моделей, работающих на GPU, и при подключении API Groq транскрибация с Whisper происходила почти моментально.

Сейчас с Parakeet история примерно та же, только не нужно отправлять данные в облако, всё происходит на моём MacBook. Мой основной персональный сетап OpenClaw сейчас крутится на MacBook Air M2 с 16 ГБ памяти, и транскрибация там происходит примерно за 300 миллисекунд.

К слову, это мой первый проект, в котором Opus на Claude практически в автоматическом режиме запилил все фичи. Мне нужно было только направлять его и следить, чтобы тесты, которые он пишет, реально покрывали функциональность. Но с CLI-утилитами это в целом довольно просто, так что опытом я доволен. Получилось сделать всё быстро.

Можно посмотреть в репозитории все наработки, которые я делал по ходу генерации кода, я старался всё документировать в CLAUDE.md.

Позырить / заюзать / поругать

🐙 Гитхаб: github.com/drakulavich/kesha-voice-kit
📦 npm: @drakulavich/kesha-voice-kit
📜 MIT

Буду благодарен за фидбэк.

Связанные посты

AI-полиси Вастрик Клуба 🏛 Градообразующий пост

Вопрос: Как вы используете OpenClaw?

27 комментариев 👇

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Nikolai Ovchinnikov разноработчик 20 апреля в 14:01

А есть сравнение качества c whishper моделями?

В 19 раз быстрее "Субтитры делал DimaTorzok" транскрибировать я и сам смогу

Развернуть 1 комментарий

Антон Якутович 20 апреля в 14:03 автор

@kolsha, Да, вот детали https://github.com/drakulavich/kesha-voice-kit/blob/main/BENCHMARK.md

Развернуть 1 комментарий

Nikolai Ovchinnikov 20 апреля в 14:05

@drakulavich, так это снова про скорость

Развернуть 1 комментарий

Антон Якутович 20 апреля в 14:13 автор

@kolsha, По качеству сравнимо кроме того, что паракит делает фонетическую транскрипцию, не вставляет английские слова, как Виспер

Развернуть 1 комментарий

Илья Мудрый 21 апреля в 18:01

@drakulavich, виспер тренился на таких датасетах, на которых мало кто запаривался. Сравнение по качеству тут крайне важно

Развернуть 1 комментарий

Антон Якутович 21 апреля в 18:44 автор

@rinomaru, Добавил колонку с транскрипцией whisper

https://github.com/drakulavich/kesha-voice-kit/blob/main/BENCHMARK.md

Развернуть 1 комментарий

Timur Khakhalev погонщик LLM 29 апреля в 14:00

Привет! Респект за cli! Мне в ай-чатике подсказали ссылку на твой проект.

Я записал драфт-скринкаст и мне нужно было взглянуть на то что я наговорил в виде текста.
Обычно я просил агента через ffmpeg вытащить аудио, потом загружал его ручками в ai.studio и там промптил.
Сегодня стало лень, решил поискать локальное решение на мак, где то из чертогов памяти у меня появилось слово parakeet, спросил в ай-чатике, там подсказали ссылку на этот пост.

Прогнал свою задачу и результат STT получился офигенным!

Вопрос есть, у тебя нет skill который учит как правильно использовать kesha cli? Мне кажется он был бы полезным чтобы понимать, какие есть use cases и как правильно готовить этот cli

Развернуть 1 комментарий

Антон Якутович 29 апреля в 14:17 автор

@timurkhakhalev, Спасибо за коммент, рад, что Кеша взлетел 🫠

По поводу скилла, есть в репозитории описание https://github.com/drakulavich/kesha-voice-kit/blob/main/SKILL.md

По идее, любая LLM должна разобраться

Развернуть 1 комментарий

Timur Khakhalev 29 апреля в 14:17

@drakulavich, о, я чет пропустил, спасибо!

Развернуть 1 комментарий

Антон Якутович 29 апреля в 14:37 автор

@timurkhakhalev, Зарелизил 1.5 с русским войсовером на базе Vosk TTS

https://github.com/drakulavich/kesha-voice-kit/releases/tag/v1.5.0

Развернуть 1 комментарий

Timur Khakhalev 7 мая в 19:10

@drakulavich, привет! я тут заметил что kesha не умеет выдавать таймкоды по аудио и поэтому я решил это исправить и навайбкожил вот такой PR. https://github.com/drakulavich/kesha-voice-kit/pull/247

если актуально, будет классно если вмержишь

Развернуть 1 комментарий

Антон Якутович 8 мая в 05:26 автор

@timurkhakhalev, Спасибо за ПР! Зарелизил 🦜

Планирую приступить к локальному granola.ai дальше https://github.com/drakulavich/kesha-voice-kit/issues/199

Развернуть 1 комментарий

Timur Khakhalev 8 мая в 06:01

@drakulavich, кайф, спасибо!

Развернуть 1 комментарий

Vladimir Kosilko Sustainable Technologies IT Architect 19 апреля в 07:35

Интересный сервис, как раз вчера делал себе транскрибатор на n8n и elevenlabs, но спасибо за наводку про Parakeet, надо будет глянуть.

Ложка дегтя конечно, что текст написан ИИ, например фраза « Ни один килобайт голоса не уходит наружу.» прям сверкает ред флагом.

Развернуть 1 комментарий

Антон Якутович 19 апреля в 08:01 автор

@vladimirak, Спасибо за коммент.
Первый текст по делу.

Да, текст написан LLM. Цель была поделиться инструментом.
Ship fast, get feedback.

Фишка паракита в достаточном компактном размере и скорости обработки. Это whisper на стероидах.

Развернуть 1 комментарий

Vladimir Kosilko 19 апреля в 10:45

@drakulavich, фидбека было бы гораздо больше по делу, если бы пост был написан без ИИ. И я бы рекомендовал переписать своими словами, хотя бы из уважения к полиси https://vas3k.club/post/ai_policy/#Ne-ispolzuite-II-dlia

Развернуть 1 комментарий

Антон Якутович 19 апреля в 13:26 автор

@vladimirak, Справедливо.

Переписал биологической нейронкой https://vas3k.club/project/31414/

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Zara Thustra (Дмитрий Записочный) Full-stack Developer / Lector 19 апреля в 09:31

А на Hermes насколько просто это завести?

Развернуть 1 комментарий

Антон Якутович 19 апреля в 09:40 автор

@ZaraThustra, Думаю, между просто и очень просто.
Надо просто показать LLM, как получать выхлоп Кеши с флагом —transcript

Развернуть 1 комментарий

Антон Якутович QA Lead автор 31 мая в 11:50

Kesha Voice Kit — что случилось с версии 1.4 🦜

Давно не постил апдейты. На 1.4 (конец апреля) Кеша умел распознавать речь и кое-как говорить через espeak-ng + Piper. С тех пор доехали до 1.22 — рассказываю 5 главных изменений.

1. TTS переписал с нуля — без системных зависимостей

Выкинул espeak-ng и Piper (которые требовали brew install / apt install). Теперь английский говорит Kokoro со встроенным G2P (misaki-rs), русский — Vosk-TTS (BERT-просодия + словарь, всё внутри). Ноль системных пакетов, один бинарь. Голос по умолчанию мужской — Кеша всё-таки. Вывод в WAV, OGG/Opus (голосовухи для телеги/вотсапа) и FLAC (играет нативно в Safari/iOS, где Opus не умеет).

2. Русский TTS — по-человечески

Ударения через SSML: <emphasis>дом+а</emphasis> → до-МА́.
Авто-расшифровка аббревиатур: ФСБ → «эф-эс-бэ», ОАЭ → «о-а-э», но ВОЗ → «воз» и НАТО → «нато» (различает, читается ли как слог). Выключается флагом --no-expand-abbrev.
Скорость речи через <prosody rate="slow"> и флаг --rate 0.5..2.0.

3. Мультиязычный TTS на Apple Neural Engine

На Apple Silicon Kokoro крутится через FluidAudio прямо на ANE. Завезли español / italiano / português / français. Японский, китайский и хинди тоже есть, но честно: только латиницей (ромадзи/пиньинь/транслит) — нативное письмо движок пока не фонемизирует и теперь честно падает с E_SCRIPT_UNSUPPORTED, а не выдаёт шум. Плюс на macOS — 180+ системных голосов (--voice macos-*), вообще без скачиваний.

4. Кеша подключается к LLM-агентам

kesha mcp — локальный MCP-сервер (transcribe / synthesize / list voices) для Claude, Cursor, Codex, Gemini. Плюс скилл для OpenClaw, провайдеры для Hermes и расширение Raycast в работе.

5. Кто сказал?

Диаризация спикеров: --speakers (кто когда говорил, Sortformer на ANE) + таймстемпы по сегментам + VAD (Silero v5) для длинного аудио.

Развернуть 1 комментарий

Антон Якутович QA Lead автор 18 апреля в 16:29

TTS пожаловал.

Теперь ваш краб 🦀 будет говорить 🗣️

https://github.com/drakulavich/kesha-voice-kit/releases/tag/v1.1.3

Развернуть 1 комментарий

Антон Якутович QA Lead автор 20 апреля в 18:46

Что нового в v1.3.0:

🍎 macOS AVSpeech как zero-install бэкенд для озвучки. На маке уже стоят ~180 системных голосов. Теперь они доступны из CLI: kesha say --voice macos-ru-RU "Привет, мир"

🪟 На Windows наконец-то работает TTS. До v1.3.0 релизный бинарь на винде умел только распознавать речь. Теперь kesha say тоже. Нужен choco install espeak-ng один раз — дальше всё как на маке/линуксе.

Развернуть 1 комментарий

Илья Мудрый Full stack developer 21 апреля в 17:57

😱 Комментарий удален его автором...

Развернуть 1 комментарий

Антон Якутович QA Lead автор 25 апреля в 09:33

🔁 Ноль системных зависимостей для TTS (v1.4.0)
Главное изменение: выкинули espeak-ng и заменили его на полностью ONNX-овый G2P-движок (grapheme-to-phoneme) на базе CharsiuG2P ByT5-tiny. Больше никаких brew install espeak-ng или apt install espeak-ng. Text-to-speech теперь работает полностью через ONNX — тот же рантайм, что у Kokoro и Piper — на всех трёх платформах.
🗣️ Переопределение произношения через SSML <phoneme> (v1.4.1)
Для каких-нибудь хитрых слов теперь можно полностью обойти G2P, указав IPA-нотацию прямо в SSML:
kesha say --ssml '<speak>The word <phoneme alphabet="ipa" ph="nuˈmoʊniə">pneumonia</phoneme> is now pronounced correctly.</speak>'
🎙️ Умный автозапуск VAD
Voice Activity Detection теперь включается автоматически для записей длиннее 120 секунд. Длинные записи режутся по естественным речевым границам, тишина выкидывается — никакие флаги руками выставлять не надо. Короткие голосовухи остаются на быстром пути.
🖥️ Расширение для Raycast на macOS
Нативное расширение с двумя командами: Transcribe Selected Audio (берёт любой аудиофайл из Finder, прогоняет STT, кладёт транскрипт в буфер) и Speak Clipboard (читает текст из буфера выбранным голосом через kesha say). Уже отправили в Raycast Store.
⚡ Параллельная загрузка моделей
Первая установка стала на 40–60% быстрее. Модели качаются пулом из 4 воркеров на rayon вместо серийных HTTP-запросов. Установка на 2.6 ГБ при канале в 25 Мбит/с теперь занимает ~8 минут вместо ~14.
🔐 SHA-256 для всех файлов моделей
Все файлы ASR- и language-ID-моделей теперь проверяются по запиненным SHA-256 хэшам при каждой установке — закрыли последнюю дыру по целостности (TTS уже было проверено раньше).
📊 Использование диска в kesha status
Команда kesha status теперь показывает использование диска по компонентам — видно ровно, что лежит в ~/.cache/kesha: движок, ASR-модель, language ID, VAD, Kokoro TTS, Piper TTS, G2P.

Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?

Войти или Вступить в Клуб