Тред: Для чего вы используете или планируете использовать локальный AI?

 Публичный пост
5 июня 2025  1353

Цель этого треда поделиться тем, для чего конкретно используете локальные модели, для чего хотите использовать или почему пока невозможно их применение, чтобы понять, стоит ли инвестировать деньги и строить домашние датацентры.

Начну я

Пока у меня нет достаточно мощного железа, но когда будет, хочу:

  • Персональный психиатр
    В Obsidian за три года накопилось очень много информации, и я хочу, чтобы модель полностью проанализировала эти данные и на их основе проводила со мной сеансы. ChatGPT и другим корпоративным моделям такую личную информацию доверить не могу ни в коем случае.

  • Анализ дня
    Тоже в Obsidian пишу Daily Notes, но мне лень их перечитывать. Поэтому хочу локальную модель, которая вместо меня будет анализировать что произошло, как произошло, насколько продуктивным я был, что получилось, а что нет.

  • Оцифровка блокнотов
    У меня очень много блокнотов, и я хочу скормить их моделям, чтобы дать моему персональному психиатру еще больше данных о себе.

  • Транскрипция голосовых заметок
    Та же лень слушать войсы. Хочу отправлять свои войсы, чтобы модель делала транскрипцию и записывала в Obsidian.

  • Проверка понимания книг
    Загружу книгу, потом свои заметки по ней, и хочу, чтобы модель оценила, насколько точно я понял и законспектировал материал.

Пока что эти use cases придумал.
делитесь своими идеями и опытом!

Связанные посты
48 комментариев 👇

Как раз последние две недели занимался настройкой локального ИИ и даже думал, не написать ли пост про это :)

У меня тоже были похожие идеи поначалу, но оказалось (пока что), что поженить Обсидиан с локальными моделями сложно. Пробовал плагины Smart Connections, Second Smart Brain - пока ощущение, что локальные модели просто слишком слабые (пробовал на моделях с 8, максимум 12 млрд параметров на ноутбуке без GPU). Плагин Text Generator зато работает, но там нужно разобраться, как его правильно готовить. Инструкции пишут что-то про темплейты, мол, создайте темплейт, чтобы указать, что именно вы хотите сгенерировать - я ничего не понял :( Пока научился только нажимать в конце заметки "generate text" и он что-то на основе этой заметки пишет, обычно саммари, ну ок.

Да, локальные модели запускаю через Ollama.

Что заработало хорошо, это расшифровки. Завёл себе Whisper-WebUI с faster-whisper внутри. Расшифровывает выпуски моего подкаста за 0.2x хронометража на модели small и за 0.7x на модели medium. Если задать десяток ключевых слов в advanced parameters, то качество очень хорошее. Поначалу я запутался в разнице между Whisper, whisper.cpp и faster-whisper (это всё разные вещи, что ж такое с неймингом в этой индустрии...) - faster-whisper is the way to go, он в разы быстрее whisper.cpp и тем более простого Whisper.

С другой стороны, поженить faster-whisper с Обсидианом не вышло: в Обсидиане я поставил Whisper-плагин, он подцепляется к whisper.cpp и тоже работает, но медленно. А чтобы подцепился faster-whisper, нужно его завернуть в какой-то свой сервер, и почему-то оно не завелось.

Ещё не получилось наладить работу с файлами. Я собирался было загружать в ИИ научные статьи (ну или хотя бы блог-посты технические) и просить ИИ объяснить мне их в формате чата. В интерфейсе Open WebUi есть функция "загрузить документ" (она хорошо замаскирована в меню Workspace - Knowledge), но документы то не подцепляются, то не парсятся целиком... Не понял, почему, разбираться уже лень.

Мои мета-выводы на данный момент:

  • установка всего этого добра - тот ещё квест, нейминг super-confusing, когда что-то не работает - фиг поймёшь почему; впрочем, ИИ здесь неплохо помогает (спрашивать ChatGPT, как установить Ollama, это как спрашивать в Edge, как установить Chrome :)
  • простые и средней сложности вопросы норм обсуждать в локальном Open WebUI, я чаще всего использую модели gemma3-12b-it-qat (баланс качество-скорость), gemma3-12b (на пределах возможностей моего ноутбука с т.ч. скорости, но ответы хорошие), llama3.1 (для быстрых ответов). Как запасной вариант - mistral. Deepseek не зашёл.
  • для глубоких профессиональных вопросов (рисёрч) пробую NotebookLM от Гугла, пока очень нравится (держу в уме, конечно, что это происходит в облаке и Гугл в любой момент может его закрыть). Функция экспорта данных (takeout) присутствует.
  • для локальной расшифровки подкастов локальный ИИ работает хорошо; похожий юз-кейс - писать ежедневные заметки голосом (в интерфейсе Whisper-WebUI есть функция "расшифровать с микрофона", после расшифровки руками копирую в Обсидиан).
  Развернуть 1 комментарий

@SergeiTikhomirov, статьи не подгружаются из-за размера контекста. В Ollama он весьма мал и меняется неочевидно, но меняется. Покопай в этой сторону (лично я перешёл на llama.cpp). Для одной полноценной статьи надо >16000.

  Развернуть 1 комментарий

@a1ebedew, спасибо! А можешь пояснить, почему, если контекста не хватает для загрузки статьи, мне не показывают ошибку? Я бы хотел в таком случае прочитать что-то в духе "не хватает контекста, загружено страниц: 1/16, для полной загрузки нужно 16000 контекста, у вас сейчас 1000 контекста, настроить можно там-то, системные требования такие-то...". А то у меня интерфейс (Open WebUI) ведёт себя так, будто всё в порядке, но по факту не работает.

  Развернуть 1 комментарий

@SergeiTikhomirov, потому что это Ollama) Судя по отзывам, это весьма специфичный софт, который мало соответствует общепринятым практикам.
Я как раз пересел на llama.cpp, потому что можно тоньше настроить и есть хоть какие-то логи. Из минусов: запускается только в режиме одной модели (документация говорит, что уже multimodal можно), ну и всё суровое, консольное.

  Развернуть 1 комментарий

@a1ebedew, а есть ли альтернативы Ollama, более соответствующие общепринятым практикам? Меня Ollama как раз подкупил (относительной) интуитивностью происходящего.

всё суровое, консольное

Насколько легко при этом завернуть это в локальный сервер, чтобы, например, обращаться к нему из Обсидиана или из Open WebUI (или из какого-то другого GUI)?

  Развернуть 1 комментарий

@SergeiTikhomirov, без проблем, llama.cpp запускается в режиме сервера, совместимого с OpenAI API: https://github.com/ggml-org/llama.cpp/tree/master/tools/server

Проблемка с ним начинается, когда понимаешь, что Ollama не давала вообще никаких параметров, а на самом деле их полно:

  • кол-во тредов CPU
  • кол-во используемых слоёв на GPU (если есть)
  • размер контекста
  • KV cache

Это всё можно настроить, чтобы теоретически улучшить производительность модельки, но на практике превращается в бесконечный твикинг) Я меньше общался с моделью, чем тестировал, какой контекст она может выдержать с какими параметрами.

Про другие альтернативы пока особо не знаю. Часто слышу про https://lmstudio.ai/

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@SergeiTikhomirov, напиши об этом :) было бы интересно почитать твой пост, я не могу найти нормальную инфу, так что поделись опытом.

  Развернуть 1 комментарий

Мне интересно узнать, какие у людей существуют юз кейсы, на которые не жалко потратить $5-$10k на железо и никак и ни при каких условиях нельзя решить на облачных моделях.

  Развернуть 1 комментарий

@timurkhakhalev, я вот ничего не тратил на железо, запускаю всё на обычном (топовом из 2023) ноутбуке Dell :) Из рабочих юз кейсов - расшифровка аудио. Есть куча облачных сервисов по расшифровке, но там маленькие лимиты, чуть что - плоти. А локальную модель поднял, и расшифровывай сколько хочешь, что подкасты, что заметки.

Можно же и в обратную сторону поставить вопрос: какие существуют юз кейсы, ради которых не жалко все свои данные сливать в облако и зависеть от обычно платной подписки, которые нельзя решить бесплатно и без ограничений на локальной модели?

  Развернуть 1 комментарий

@SergeiTikhomirov, а какая скорость генерации токенов на ваших моделях на вашем железе без видеокарты?

  Развернуть 1 комментарий

@timurkhakhalev, точно не скажу (как это измерить?), но чисто по ощущениям так: модель с 12 млрд параметров думает десятки секунд и выплёвывает ответ чуть медленнее, чем я его читаю, а модели поменьше думают секунд... десять (depends) и генерируют примерно так же и чуть быстрее, чем я читаю. TLDR: юзабельно.

  Развернуть 1 комментарий

@SergeiTikhomirov, смотря чем пользуетесь, в LM Studio обычно пишется скорость генерации.

Меня вот лично раздражает генерация ниже 40 токенов в секунду, а у вас, судя по всему, результат будет около 1-2 токенов в секунду. Ну такое, мне бы такое не подошло, поэтому я не вижу смысла хостить модель дома.

  Развернуть 1 комментарий

@timurkhakhalev, fair enough. Я на это ещё смотрю так: если ответ не мгновенный, это побуждает меня лучше продумать вопрос. Возможно, итоговый результат получается лучше от одного продуманного запроса, чем от пяти спонтанных (но это неточно).

  Развернуть 1 комментарий

@SergeiTikhomirov, понял, такой медленный инференс может помочь познать дзен, пока ждёшь ответ :)

  Развернуть 1 комментарий

@SergeiTikhomirov, а с помощью чего расшифровываешь аудио? Я недавно попробова whisper, но на русском модель это делает на троечку.

  Развернуть 1 комментарий

@neropashka, Whisper-WebUI (запускаю через Docker).

  Развернуть 1 комментарий

@SergeiTikhomirov, спасибо, еще и с UI. Буду тестировать)

  Развернуть 1 комментарий

@SergeiTikhomirov, ну и намучился с ним) На проце мака М1 20 минут видео расшифровывал 1,5 часа. Поменял некоторые параметры и стало около 20 минут. Вроде +- ок

  Развернуть 1 комментарий

Хоть тратить $5-$10k необязательно (не всегда же нужен перфоманс), но тоже интересно. Выходит, что основной консёрн именно в приватности. А есть ли другие?

  Развернуть 1 комментарий

@mammuthus, я часто вижу случаи, когда люди сначала хотят локальный сетап (и б2б и б2с), аргументируя приватностью и тем что у них никто не отберет доступ, а когда узнают про стоимость такого сетапа, то обычно передумывают.

Вот пытаюсь найти ту золотую середину, где с одной стороны весомые аргументы против облачных решений, а с другой подходящий ценник на локальный сетап

  Развернуть 1 комментарий

@timurkhakhalev, Б/у 3090 + 64 ГБ RAM, примерно за 2K , и это меня устраивает.

50%, почему я хочу самостоятельно хостить это мои приватные данные, личные заметки, как упоминалось в посте.
И 50%, Research как локальные модели могут выполнять задачи вроде использования браузера и программирования.

  Развернуть 1 комментарий

@Davidus, а где брал 3090 (и почем, отдельно от памяти)?

  Развернуть 1 комментарий

@timurkhakhalev, всё сводится к приватности и интересу.
Я всегда предпочитаю качество корпоративних ллкок но
есть случаи использования, которые я хочу запускать на своих моделях из соображений приватности и для автоматизации своих задач, где иногда я могу использовать API, а иногда локальные модели, Адаптивность решает.

И не нужно тратить 5-10К$ на железо, для базовых задач достаточно даже 2 тысяч. Даже могу использовать своё текущее железо очень медленно, но всё же работает.

  Развернуть 1 комментарий

Было бы хорошо иметь локального код бадди на уровне Claude, или просто хорошую модель чтобы работать с текстами-кодом-информацией, но пока увы.

  Развернуть 1 комментарий

Генерирую разные картинки на своей 4070.
Тут писал более подробно
https://vas3k.club/post/26366/

Ещё транскрибацию через faster whisper часто делаю

  Развернуть 1 комментарий

🎙️VoiceInk: качество транскрипции потрясающее, и можно сразу перенаправлять локальным же LLM, чтобы они её доработали (например, в дефолтных промптах включена очистка от слов-паразитов). Вроде как работает на любом Apple Silicon.

  Развернуть 1 комментарий

Некоторые из описанных задач требуют гигантского контекста, а следовательно не просто мощного, а очень мощного железа, если запихивать это всё непосредственно в LLM.
Но так, на самом деле, никто не делает.
Оцифровка личных заметок и пересказ книг - это отдельная задача, обычно решается с помощью RAG или MCP, а локальная модель прикручивается сверху, чтобы обсуждать с пользователем эту информацию.
Лично я пока пробую собрать свой личный RAG на llama_index, но пока хвастаться нечем.

  Развернуть 1 комментарий

@a1ebedew, не обязательно. qwen3:30b отлично даже на CPU работает на машине с 64 гигами оперативки можно достаточно большой контекст поместить.

  Развернуть 1 комментарий

@neikist, большой - это какой? :)
Анализ "всех" своих заметок или отдельной книги - это много токенов.

  Развернуть 1 комментарий

@a1ebedew, 30к токенов в мои 64 гига ram с большим запасом влезают. Но с таким контекстом уже скорость генерации падает достаточно серьезно (2-3 токена в секунду) на моем i7-12700KF с ddr4 памятью. Что для многих применений вполне норм. Но не для всех, да. Впрочем на каком нибудь M4 max со 128 гигами ram думаю можно на этой же модели и 60к токенов гонять, и даже скорость будет выше в пару-тройку раз наверно, чем на этом интеле.

  Развернуть 1 комментарий

@neikist, Я думаю, что если я могу получить качественные приватные ответы, мне не важно, как быстро они генерируются, всегда можно запустить в бекгроунде

  Развернуть 1 комментарий

@neikist, В чем есть прелесть RAG - упрощенно, на примере того же Obsidian - не скармливаются ВСЕ заметки: сначала отдельной ллмкой (embeddings) строим базу данных векторов из заметок, можно с кратким пересказом каждой заметки.
В дальнейшем при нашем основном вопросе во "взрослую" ллм - система с помощью поиска ближайших векторов ("смысл заметки") скармливает в ллм только те заметки, которые могут относиться к вопросу. И это на удивление неплохо работает, тестил с deepseek-r1 32b и qwen (не помню какой), дипсик с рассуждением прям хорошо работает.

Это все можно попробовать с Msty app, запустить несложные модельки локально, добавить путь к своей "базе знаний" и при общении с ллм включить кнопочку на работу с документами.

  Развернуть 1 комментарий

@koduc, а Msty app работает на CPU? Полистал сайт, очень симпатично выглядит.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Я мечтаю о локальной модели с момента выхода фильма "Железный человек" - тогда очень впечатлила возможность "разговаривать" с компьтером, которые не просто тебя понимает, но и автоматизирует задачи. В этом свете я:

  • хочу нормальную транскрибацию (да-да, без этого никуда)
  • хочу анализ своих файлов и заметок - я много пишу научных статей ( суммарно более 100 опубликованных) и хочу делать по ним ревью, анализ, поиск "общих тем" и "точек роста". Также сохраняю много перезнтаций студентов - хочется выделить общие/частные ошибки/сильные стороны и на их материале обучать новых студентов
  • хочу автоматизировать написание текстов - сейчас активно пользуюсь диктовкой в Ворде, но у нее есть ряд ограничений. Тут есть поле для роста и наверно это скоро сделают. В этой же части хочу, чтобы дописывала в моем стиле (пока умеет только ChatGPT, и то если педварительно ей скормить образцы своего стиля)
  • хочу разрабатывать с ее помощью материалы для лекций и занятий (я педагог)
  • хочу анализировать свои разговоры и лекции. Есть сервис read.ai, потестировал его в пилоте и остался очень доволен. Вроде секъюрно, но все работает у них в облаке. Хочу так-же, но локально.

В обем хочется полноценного второго пилота, а не костыли типа Алисы+Сири и прочей ерунды

  Развернуть 1 комментарий
Mark Rudak Machine Learning Product Owner 5 июня в 11:13

Вброшу касательно создания связок, мне кажется тулы а-ля n8n/lindy для автоматизации процессов могут существенно упростить работу по созданию связок. Создавать процесс с использованием Obsidian сам не пробовал, но потенциально она уже может быть реализована.

Знакомый недавно связал личный Notion телегу и прикрутил локальную модельку для анализа как текста так и голоса.

Результатом вроде бы как доволен.

  Развернуть 1 комментарий

У меня в планах sentence mining запилить локальный из книжек/текстов если руки дойдут, и перегон этого в anki. spaCy (или ее обертки/аналоги для языков кроме питона) для предобработки, тут даже чуток пощупал в свободное время как оно работает + llm для перевода. Но пока других дел хватает, так что руки так и не доходят.

Еще были мысли прикрутить к распознаванию товаров с ценами, количеством и суммой из чеков в электронной почте/фоток (tesseract для ocr, если нужно), llm для вытаскивания инфы и отправку этого в какой нибудь firefly, но пока для учета финансов другим приложением пользуюсь, в котором по qr чеки сканирую. Конечно хотелось бы автоопределение категорий товаров по их названию и прочее, но не сильно напрягает, так что все это в дальнем ящике.

Иногда использую как тренажер английского, прошу заданий накидать и проверить результаты, найти и поправить ошибки, или просто диалоги веду. 30b модели справляются вполне неплохо.

Ну а так использую в основном как умное автодополнение. Continue для android studio + qwen2.5-coder:14b бежит на компе с 4080 super, который обычно для игр/vr использую. Для автокомплита скорости хватает, качество неплохое. Так что стоимость железа для меня околонулевая. Все равно ради других целей брал.

Почему именно локальные? Ну во первых мне не очень нравится от третьих сервисов зависеть (те же санкции/блокировки по рандомным причинам, чебурнет роскомнадзоровский, просто отвалы связи), и цензура в онлайн нейронках (локальные тоже с ней использую в основном, но там хоть есть файнтюны расцензуренные которые можно при желании использовать).

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Я использую локальный qwen из за паранойи, не хочу посылать персональные данные в облако

  Развернуть 1 комментарий

В пост надо добавить дисклеймер «для чего вы используете локальный ллм, кроме whisper врапера»

  Развернуть 1 комментарий

Есть ли у кого опыт запуска моделей на M4 Max?
Насколько я понимаю, unified memory позволяет выделить из общего пула достаточно памяти для увесистых моделей, MBP 16 можно взять со 128 Gb памяти на борту.
Но, если с практической точки зрения, насколько такая локальная модель будет хорошо работать в IDE для всяких генераций бойлерплейта и прочего (вайбкодинг не предлагать)? Цель -- работа над закрытым кодом, который нельзя отдавать на улицу в 3rd party сервисы.

  Развернуть 1 комментарий

@shizzard, я гонял gemma 3 27b 4q на своем рабочем ноуте (макбук про m4 32gb ram). Не супер быстро, но вполне справляется. Качество для локальной модели очень на уровне. Код генерит сносный, но по мере роста длины текста все становится слишком медленно для использования как копайлота.

Если ваш код такой ценный, то лучше арендовать приличную машинку в каком-нибудь hyperstack, развернуть там модельку. Это и не дорого, и достаточно приватно.

  Развернуть 1 комментарий

@shizzard, qwen3:30b-a3b при приемлимом качестве на M1 max выдает около 50 токенов в секунду на небольших контекстах. На больших именно на маке проверить не могу, моя версия всего на 32 гига, из которых под видео чуть больше 20. При этом эта модель для автокомплита не очень подходит. Надо кастомные темплейты городить. В целом от мака в плане работы с llm впечатления положительные, но тот же M1 max шумит как самолет когда в него какой нибудь qwq:32b-4q отправляешь. Мой вывод такой, если модель MoE, у которой активных весов в моменте не очень много работает, но в целом нужен большой объем памяти - мак хорошо подходит. Если же модель сразу 14b+ весов гоняет на каждый токен - тогда и скорость не очень уже, и греется как сковорода. Такие лучше на nvidia запускать, если есть под рукой. Но это именно m1 max, m4 max раза в полтора-два получше должен быть.

  Развернуть 1 комментарий

А есть ли какие-то локальные AI для QA активностей? Или пока тут глухо и пусто?

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб