Цель этого треда поделиться тем, для чего конкретно используете локальные модели, для чего хотите использовать или почему пока невозможно их применение, чтобы понять, стоит ли инвестировать деньги и строить домашние датацентры.
Начну я
Пока у меня нет достаточно мощного железа, но когда будет, хочу:
Персональный психиатр
В Obsidian за три года накопилось очень много информации, и я хочу, чтобы модель полностью проанализировала эти данные и на их основе проводила со мной сеансы. ChatGPT и другим корпоративным моделям такую личную информацию доверить не могу ни в коем случае.Анализ дня
Тоже в Obsidian пишу Daily Notes, но мне лень их перечитывать. Поэтому хочу локальную модель, которая вместо меня будет анализировать что произошло, как произошло, насколько продуктивным я был, что получилось, а что нет.Оцифровка блокнотов
У меня очень много блокнотов, и я хочу скормить их моделям, чтобы дать моему персональному психиатру еще больше данных о себе.Транскрипция голосовых заметок
Та же лень слушать войсы. Хочу отправлять свои войсы, чтобы модель делала транскрипцию и записывала в Obsidian.Проверка понимания книг
Загружу книгу, потом свои заметки по ней, и хочу, чтобы модель оценила, насколько точно я понял и законспектировал материал.
Пока что эти use cases придумал.
делитесь своими идеями и опытом!
Как раз последние две недели занимался настройкой локального ИИ и даже думал, не написать ли пост про это :)
У меня тоже были похожие идеи поначалу, но оказалось (пока что), что поженить Обсидиан с локальными моделями сложно. Пробовал плагины Smart Connections, Second Smart Brain - пока ощущение, что локальные модели просто слишком слабые (пробовал на моделях с 8, максимум 12 млрд параметров на ноутбуке без GPU). Плагин Text Generator зато работает, но там нужно разобраться, как его правильно готовить. Инструкции пишут что-то про темплейты, мол, создайте темплейт, чтобы указать, что именно вы хотите сгенерировать - я ничего не понял :( Пока научился только нажимать в конце заметки "generate text" и он что-то на основе этой заметки пишет, обычно саммари, ну ок.
Да, локальные модели запускаю через Ollama.
Что заработало хорошо, это расшифровки. Завёл себе Whisper-WebUI с faster-whisper внутри. Расшифровывает выпуски моего подкаста за 0.2x хронометража на модели small и за 0.7x на модели medium. Если задать десяток ключевых слов в advanced parameters, то качество очень хорошее. Поначалу я запутался в разнице между Whisper, whisper.cpp и faster-whisper (это всё разные вещи, что ж такое с неймингом в этой индустрии...) - faster-whisper is the way to go, он в разы быстрее whisper.cpp и тем более простого Whisper.
С другой стороны, поженить faster-whisper с Обсидианом не вышло: в Обсидиане я поставил Whisper-плагин, он подцепляется к whisper.cpp и тоже работает, но медленно. А чтобы подцепился faster-whisper, нужно его завернуть в какой-то свой сервер, и почему-то оно не завелось.
Ещё не получилось наладить работу с файлами. Я собирался было загружать в ИИ научные статьи (ну или хотя бы блог-посты технические) и просить ИИ объяснить мне их в формате чата. В интерфейсе Open WebUi есть функция "загрузить документ" (она хорошо замаскирована в меню Workspace - Knowledge), но документы то не подцепляются, то не парсятся целиком... Не понял, почему, разбираться уже лень.
Мои мета-выводы на данный момент:
Мне интересно узнать, какие у людей существуют юз кейсы, на которые не жалко потратить $5-$10k на железо и никак и ни при каких условиях нельзя решить на облачных моделях.
Было бы хорошо иметь локального код бадди на уровне Claude, или просто хорошую модель чтобы работать с текстами-кодом-информацией, но пока увы.
🎙️VoiceInk: качество транскрипции потрясающее, и можно сразу перенаправлять локальным же LLM, чтобы они её доработали (например, в дефолтных промптах включена очистка от слов-паразитов). Вроде как работает на любом Apple Silicon.
Я мечтаю о локальной модели с момента выхода фильма "Железный человек" - тогда очень впечатлила возможность "разговаривать" с компьтером, которые не просто тебя понимает, но и автоматизирует задачи. В этом свете я:
В обем хочется полноценного второго пилота, а не костыли типа Алисы+Сири и прочей ерунды
Генерирую разные картинки на своей 4070.
Тут писал более подробно
https://vas3k.club/post/26366/
Ещё транскрибацию через faster whisper часто делаю
В пост надо добавить дисклеймер «для чего вы используете локальный ллм, кроме whisper врапера»
Некоторые из описанных задач требуют гигантского контекста, а следовательно не просто мощного, а очень мощного железа, если запихивать это всё непосредственно в LLM.
Но так, на самом деле, никто не делает.
Оцифровка личных заметок и пересказ книг - это отдельная задача, обычно решается с помощью RAG или MCP, а локальная модель прикручивается сверху, чтобы обсуждать с пользователем эту информацию.
Лично я пока пробую собрать свой личный RAG на llama_index, но пока хвастаться нечем.
Вброшу касательно создания связок, мне кажется тулы а-ля n8n/lindy для автоматизации процессов могут существенно упростить работу по созданию связок. Создавать процесс с использованием Obsidian сам не пробовал, но потенциально она уже может быть реализована.
Знакомый недавно связал личный Notion телегу и прикрутил локальную модельку для анализа как текста так и голоса.
Результатом вроде бы как доволен.
У меня в планах sentence mining запилить локальный из книжек/текстов если руки дойдут, и перегон этого в anki. spaCy (или ее обертки/аналоги для языков кроме питона) для предобработки, тут даже чуток пощупал в свободное время как оно работает + llm для перевода. Но пока других дел хватает, так что руки так и не доходят.
Еще были мысли прикрутить к распознаванию товаров с ценами, количеством и суммой из чеков в электронной почте/фоток (tesseract для ocr, если нужно), llm для вытаскивания инфы и отправку этого в какой нибудь firefly, но пока для учета финансов другим приложением пользуюсь, в котором по qr чеки сканирую. Конечно хотелось бы автоопределение категорий товаров по их названию и прочее, но не сильно напрягает, так что все это в дальнем ящике.
Иногда использую как тренажер английского, прошу заданий накидать и проверить результаты, найти и поправить ошибки, или просто диалоги веду. 30b модели справляются вполне неплохо.
Ну а так использую в основном как умное автодополнение. Continue для android studio + qwen2.5-coder:14b бежит на компе с 4080 super, который обычно для игр/vr использую. Для автокомплита скорости хватает, качество неплохое. Так что стоимость железа для меня околонулевая. Все равно ради других целей брал.
Почему именно локальные? Ну во первых мне не очень нравится от третьих сервисов зависеть (те же санкции/блокировки по рандомным причинам, чебурнет роскомнадзоровский, просто отвалы связи), и цензура в онлайн нейронках (локальные тоже с ней использую в основном, но там хоть есть файнтюны расцензуренные которые можно при желании использовать).
Я использую локальный qwen из за паранойи, не хочу посылать персональные данные в облако
Есть ли у кого опыт запуска моделей на M4 Max?
Насколько я понимаю, unified memory позволяет выделить из общего пула достаточно памяти для увесистых моделей, MBP 16 можно взять со 128 Gb памяти на борту.
Но, если с практической точки зрения, насколько такая локальная модель будет хорошо работать в IDE для всяких генераций бойлерплейта и прочего (вайбкодинг не предлагать)? Цель -- работа над закрытым кодом, который нельзя отдавать на улицу в 3rd party сервисы.
А есть ли какие-то локальные AI для QA активностей? Или пока тут глухо и пусто?