Solovey: инсайды о проекте
Версия для публикации в Клубе.
Расскажите о себе и сути проекта?
Я развиваю Solovey: macOS-приложение для постобработки речи в офлайн-режиме.
Основной сценарий простой и практичный: импорт аудио -> превью -> полная обработка -> экспорт.
Проект фокусируется именно на spoken-content: подкасты, интервью, лекции, озвучка.
Ключевая идея продукта сейчас:
- убрать шумы и гул,
- выровнять громкость до стабильного уровня,
- дать быстрый A/B-контроль результата до финального рендера.
Технически обработка идет локально на устройстве, без облачного рендера аудио.
Как появилась идея? Что вдохновило?
Идея появилась из очень практичного запроса. Друг показал Auphonic и пожаловался,
что ему нужна такая же удобная обработка, но офлайн. В тот момент я как раз делал
приложение для созвонов с шумоподавлением, и понял, что часть наработок можно
вынести в отдельный продукт. Так и появился Solovey: отдельное приложение именно
для локальной постобработки речи.
Что вошло в прототип и сколько времени на него было потрачено?
В ранний прототип вошел базовый рабочий цикл:
- Импорт аудиофайла.
- Построение превью-фрагмента и A/B прослушивание.
- Прогон через офлайн-пайплайн обработки речи.
- Экспорт итогового файла.
В первых итерациях основной ценностью были не «100 фич», а надежный end-to-end поток и повторяемый результат.
Первый прототип я собрал на Python примерно за 3 дня, после чего начал портировать
все в Swift для нативного macOS-приложения.
Какой технологический стек вы использовали? Почему?
Базовый стек проекта:
- SwiftUI + macOS для нативного приложения,
- Tuist для управления проектом и сборками,
- модульное ядро SoloveyCore для пайплайна и анализа,
- локальная обработка аудио через нативные DSP/аудио-компоненты,
- модели шумоподавления и адаптивной обработки речи в офлайн-сценарии.
Почему такой выбор:
- нативная производительность и стабильность на Mac,
- прозрачный контроль пайплайна обработки,
- отсутствие зависимости от облачной инфраструктуры в критичном аудиопути.
Как вы запускались и искали первых пользователей?
Пока целенаправленный запуск и поиск первых пользователей не делал.
Сейчас фокус на доводке качества и стабильности, чтобы на первых реальных тестах
люди увидели уже внятную ценность, а не «сырой концепт».
С какими самыми неожиданными трудностями пришлось столкнуться?
На технической стороне проект дал несколько нетривиальных уроков:
- адаптивные настройки, которые «на бумаге» выглядят правильно, могут ухудшать звук на узкополосных записях;
- пришлось вводить bandwidth-aware guardrails, чтобы не «восстанавливать шум как воздух»;
- проявлялись гонки между превью-рендером и переключением профилей;
- надежность пайплайна пришлось усиливать атомарной записью результатов и жесткой проверкой порядка стадий.
Главный вывод: в voice-processing критичны не только алгоритмы, но и инженерная дисциплина runtime-поведения.
Сколько потратили и заработали? Есть идеи как это можно монетизировать?
Пока по деньгам ноль: ни существенных внешних затрат, ни выручки
(если не считать мое собственное время разработки).
Монетизацию рассматриваю после валидации спроса: сначала получить стабильный
продукт и понятную обратную связь, затем выбирать модель (подписка/лицензия/про-уровень).
Какие планы на будущее?
Ближайший вектор развития продукта:
- получить фидбек от реальных пользователей,
- довести UX и качество обработки по этому фидбеку,
- выпустить релиз в App Store.
Нужны ли какие-то советы или помощь Клуба?
Да, нужен фидбек. В первую очередь интересна честная обратная связь по:
- реальному качеству результата на разных типах исходников,
- удобству сценария «импорт -> превью -> экспорт»,
- тому, за что вы лично были бы готовы платить в таком продукте.
