Кроме ChatGPT есть жизнь

 Публичный пост
12 марта 2025  2257

Если из нейросетей ты знаешь только о ChatGPT — ты не одинок. С начала 2025 года AI-лабы навыпускали столько новых моделей, что стало легко запутаться.

Тренды показывают, что всем пофиг

Почему так?

Новые модели классные, но их названия — это пиздец, если честно. Я сам начал теряться и решил разобраться, написав этот пост.
К тому же их еще и по бенчмаркам стало не отличить. Раньше можно было просто сказать: вот эта вот лучшая, все пользуйтесь ей. Сейчас это перестало работать.

Короче, на рынке много действительно крутых нейронок, но ими мало кто пользуется.

А зря!

Дальше я попробую навести порядок в названиях, расскажу про кризис с бенчмарками и накидаю советов о том как все таки выбрать чем пользоваться.

Го.

Моделей стало дофига, и называются они просто ужасно.

Дарио Амодей давно шутит, что мы быстрее создадим AGI, чем научимся понятно называть модели. Гугл тут по традиции впереди всех:

Google Gemini

Хотя их можно понять. У каждой "базовой" модели появилось куча улучшений. Разница между ними есть, но не такая, чтобы с хайпом объявлять каждое обновление новой версией. Отсюда и лезут эти префиксы.

Чтобы разобраться, я собрал табличку с моделями разных типов у каждой топовой лабы. И вычистил все лишнее.

В целом все не так сложно, если забить на дотошность

Есть огромные и мощные базовые модели. Они медленные и экономически невыгодные при массовом использовании.

Поэтому придумали дистилляцию: берём базовую модель, обучаем на её ответах более компактную модель, и получаем примерно те же способности, только быстрее и дешевле.

Это особенно важно на рассуждающих моделях. В последние полгода лучшие результаты показывают модели делающие перед ответом большое количество шагов рассуждения. Они составляют план решения задачи, выполняют его и проверяют результат на адекватность. На такие цепочки можно потратить в разы больше ресурсов. И.. это дорого.

Есть ещё специализированные модели: под поиск, супер-дешёвые для самых простых задач, или модели для узких сфер вроде медицины и юриспруденции. Ну и отдельная группа для картинок, видео и звука. Я всё это не стал добавлять, чтобы не путаться.

Все модели стали примерно одинаково хороши.

Настолько одинаково, что сложно понять, какая лучше. Андрей Карпати написал, что у нас кризис оценки моделей:

Это из его твиттера. Уже непонятно, на какие метрики смотреть. MMLU устарел, SWE-Bench слишком узкий. Chatbot Arena настолько популярна, что лаборатории уже научились её "хакать".

Сейчас есть несколько способов оценивать модели:

1 - Бенчмарки, которые измеряют что то одно конкретное и узконаправленное.

Например, умение писать код на питоне или уровень галлюцинаций в ответах. Но модели становятся умнее, осваивают всё больше задач, и одной метрикой их уровень уже не измеришь.

2 - Системные бенчмарки, которые пытаются кучей чиселок обсчитать модель с разных сторон.

Но когда начинаешь сравнивать кучу показателей, получается полный хаос. Одна модель лучше в одном, другая — в другом, и не понятно как это интрепретировать.

LifeBench, тут внутри каждой категории по 3 метрики. И это только один бенчмарк, а их десятки!

3 - Арена, где люди вслепую сравнивают ответы моделей по своим субьективным критериям.

И вместо непонятной кучи оценок, каждая модель получает ELO-рейтинг, как в шахматах. Чаще выигрываешь — выше эло. Но это было круто и удобно, пока модели не подобрались слишком близко друг к другу.

Разница в 35 ELO значит что у одной модели шанс дать ответ лучше 55%, а у другой 45%. Как и в шахматах, у игрока с меньшим ELO всегда есть шансы выиграть. Даже при разнице в 100 ELO треть ответов "худшей" модели будет лучше.

Это ну вот вообще даже близко не то как я себе представляю "простой бенчмарк".

Ну то есть опять — одни задачи лучше решает одна модель, другие другая. Выбирай модель выше в списке и один из 10 твоих запросов будет получше. Какой и насколько лучше — хз.

А чё делать то?

Карпати предлагает за неимением лучшего полагаться на вайб-чек. Пробуешь на своих задачах и смотришь, норм или нет. Тут легко себя обмануть из-за предвзятости и всяких искажений. Но что поделать.

Мои советы такие:

  • Открывать сразу несколько вкладок с разными моделями при каждой задаче и пробовать.
  • Субьективно смотреть, за какой нейронкой мне нужно меньше переделывать.
  • Не гоняться за цифрами. Намного важнее, чьи продуктовые фичи тебе реально нравятся и за какую подписку ты уже отдаешь долор.
  • Если все таки хочется циферок, юзайте LifeBench. Авторы пишут, что он решает проблемы хакинга, устаревания, однобокости и субьективности.
  • Если делаешь продукт на основе моделей, вот классный гайд от HuggingFace о том как собрать свой бенчмарк.

А пока, если вы ждали знак, чтобы попробовать что то кроме ChatGPT, то вот он:

https://claude.ai
https://gemini.google.com
https://grok.com
https://chat.deepseek.com
httрs://сhаt.openai.сom

Дальше я сделаю отдельный пост, где расскажу, что интересного у каждой модели и сделаю саммари вайб-чеков других людей.

Связанные посты
61 комментарий 👇

  Развернуть 1 комментарий
Petr Korolev ETHusiast in open-source & privacy 13 марта в 19:51

Гайд по моделям ChatGPT

GPT-4o mini

Лучше не использовать. Самая слабая модель, придумывает ответы, не способна следовать сложным инструкциям.

GPT-4o

  • Быстрая модель для ответов, не требующих проверки фактов (может их придумывать).
  • Хорошо подходит для перевода картинок в текст, если нужно быстро.
  • Требует факт-чека.
  • Имеет доступ к памяти, поддерживает голосовое общение, может генерировать изображения (DALL·E).
  • Не рекомендуется для обработки больших файлов.

GPT-4o with scheduled tasks (beta)

Использую только для To Do:

  • Каждое утро модель пишет мне, спрашивает приоритеты, показывает текущий список задач и т. п.

o3-mini

  • Отличная модель для кодинга и повседневных задач.
  • Хорошо ищет в интернете, неплохо следует инструкциям, при этом очень быстрая.
  • Если нужен быстрый ответ, берите её.
  • Хороший вариант для анализа картинок и файлов.
  • Не имеет доступа к памяти.
  • Реже ошибается в фактах, но всё же может ошибаться.
  • В Plus-тире 150 сообщений в день.

✨ o3-mini-high

  • Улучшенная версия o3-mini: модель дольше думает перед ответом, поэтому ещё реже ошибается и качественнее решает задачи.
  • Великолепно следует инструкциям.
  • Хорошо работает с файлами.
  • Совет: сначала тратьте 50 запросов этой модели, затем переключайтесь на o3-mini или o1.

o1

  • Генератор отчётов, эссе и рефератов.
  • Медленная модель, хорошо следует инструкциям, но может ошибаться в фактах.
  • Не умеет искать в интернете.
  • Хорошо видит картинки и читает файлы, не теряя деталей.
  • Лимит: 50 запросов в неделю.
  • Требует подробного промптинга с описанием желаемого отчёта.

o1 pro mode

  • Лучшая модель на рынке:
    • Почти никогда не ошибается в фактах.
    • Решает самые сложные задачи кодинга.
    • Дольше всех думает.
    • Лучше всех понимает изображения.
  • Не умеет искать в интернете и не работает с файлами напрямую.
  • Перепроверяет факты сама.
  • За ~3 месяца использования только 1 раз заметил неточность.
  • Требует детального промптинга.
  • Доступна только в Pro-тире, лимитов нет.

Deep research

  • Несмотря на то, что модель вынесена в отдельную кнопку, это версия новой o3 для поиска в интернете.
  • Как ей лучше пользоваться – напишу отдельно, когда дадут доступ всем.
  • Ищет в интернете и анализирует данные с помощью кода (но сам код не показывает).
  • Может включать в отчёт графики.
  • Лучший инструмент для интернет-поиска.
  • Пока доступна только в Pro.
  • Важно: при активации этой кнопки выбор модели в выпадающем списке игнорируется. UX, который мы заслужили.

TL;DR

Для повседневных задач:

  1. o3-mini-high – лучший выбор.
  2. o3-mini, когда у первой кончились лимиты.

UPD:
Оригинал это от
Денис секси: https://t.me/denissexy/9499

  Развернуть 1 комментарий

@skywinder, Для GPT-4o mini есть один юзкейс — замена GPT-4o, когда из-за высокой нагрузки на сервера, модели тормозят, и с обычной GPT-4o не пообщаться голосом.

https://openai-status.llm-utils.org/ — вот эта страница трекает загруженность моделей. Официальная статус-пейдж сообщает только о падениях сервисов, а эта неофициальная раз в полчаса замеряет скорость ответа в токенах в секунду.

Чтоб было удобнее, кликните на графике на устаревшие модели, чтобы их скрыть. Устаревшие, это: 4, 4-турбо, 3.5-турбо

  Развернуть 1 комментарий

@zahrevsky, @skywinder на сколько я понимаю, в бесплатной версии chatGPT всё еще 4-turbo, которая переходит в 3.5 после выхода за лимит.

Можете поделиться мнением, выбирая между бесплатными моделями, на какую стоит смотреть?
Та же Claude 3.7 Sonnet в бесплатной версии сразу.

  Развернуть 1 комментарий

@skywinder, ну и неплохо бы сослаться на первоисточник :)

  Развернуть 1 комментарий

@Spaider, Даа! Это у меня уже в заметках лежало своих, откуда и скопировал. Но ты прав, лучше с ссылкой. Сейчас найду где это было)

Upd.
Вот! https://t.me/denissexy/9499

  Развернуть 1 комментарий

@skywinder, o1 уже умеет искать, в самой дешёвой версии.

  Развернуть 1 комментарий

Ожидание: Кроме чатгопоты есть айти
Ожидание 2: Кроме ЛЛМок и Гены Аи есть машинное обучение

Реальность:

  Развернуть 1 комментарий

@mighty_conrad, не супер удачное название + не интересная тема? Может быть.

Но как ты об этом написал, мне было не приятно читать

  Развернуть 1 комментарий

@leeaao, не пытался задеть тебя лично, но если уж вышло, то приношу извинения.

  Развернуть 1 комментарий

Карпати предлагает за неимением лучшего полагаться на вайб-чек.

Люблю полезные выводы из статей =)

  Развернуть 1 комментарий

@glebkudr, нужен сервис для собеседования нейросетей на работу

  Развернуть 1 комментарий

@leeaao, есть уже, работают кмк на дальнейшее ухудшение рынка труда.

  Развернуть 1 комментарий

@glebkudr, для найма нейросетей 😁

  Развернуть 1 комментарий

@glebkudr, нормальный вывод, чё.
Технологии рано или поздно выходят на такой уровень, что, условно говоря, всё примерно одинаковое.
Когда ко мне приходят (см. тыжпрограммист) и спрашивают, какой ноут брать, я часто отвечаю: "Берите красвый, чтобы нравился".

  Развернуть 1 комментарий

А чтобы не регистрироваться и платить за каждый сервис отдельно, можно зарегистрироваться в OpenRouter, в котором есть все популярные модели по ценам производителя, и поднять LibreChat - форк интерфейса ChatGPT который поддерживает любые модели и работает локально. Плюс он дополнительно поддерживает несколько крутых функций которых нет в официальном ChatGPT и может использовать в том числе ваши локальные модели для sensitive запросов.

  Развернуть 1 комментарий

@poma, душевно, спасибо. Опять же, LibreChat работает через апишечку. Это что же получается, можно не платить и за подписку на чат, и за апишку. Выглядит вкусно.

  Развернуть 1 комментарий

@Spaider, только не получится использовать функции которых нет в апи, например Deep Research. Я исключительно ради этого в OpenAI тоже оплачиваю подписку, но все остальное удобнее через локальный UI.

  Развернуть 1 комментарий

@poma, Очень рекламный слог 🌚
/Skip

  Развернуть 1 комментарий

@mixbez, это то, чем лично я пользуюсь

  Развернуть 1 комментарий

@poma, а как часто ты моделями пользуешься и сколько денег в месяц на openrouter уходит?

  Развернуть 1 комментарий

@leeaao, пользуюсь много каждый день, выходит дешевле чем ChatGPT Plus обычно

  Развернуть 1 комментарий

У разных моделей, на самом деле есть разные кейсы в которых они очень круто справляются.

Но кажется, что обычному адекватному человек это не нужно, кто не работает с ними 8 часов в день.

Сейчас плачу за
Gemini (самый длинный контекст и Deep Research, который хуже OpenAI, но сильно выше лимит)
OpenAI (просто универсальная модель)
Anthropic (когда надо генерить код).

Иногда стал захаживать в Grok тоже за DeepResearch, когда у OpenAI и Gemini уже закончился лимит.

Из API дополнительно в проекта использую:
Gemini-2-flash - быстро, дешево и хорошо
Qwen-32b - очень дешево, очень быстро

  Развернуть 1 комментарий

@enjoykaz, а что ресерчишь так много, если не секрет?

  Развернуть 1 комментарий

@enjoykaz, или вообще сделать хитрый мув и на реддите купить у каких то серых челиков за 18 баксов криптой годовую подписку на Perplexity и сразу иметь доступ ко всем топовым моделям, целый год бед не знать и вообще ни за что больше не платить... ;)

  Развернуть 1 комментарий

@Polovinkin, а пошарь ссылочку)
А можно так клод купить, устал сам писать код )

  Развернуть 1 комментарий

@AleksandrLiadov, я тогда нашел вот этот тред и там купил, все сработало и куча комментов от других людей подтверждающих, но щас когда зашел увидел, что топик потерли и в новых комментах ссылка на другой, про него на 100 проц сказать не могу, но судя по описанию и номеру в вотсапе что там указан- этот тот же человек, так что должно быть норм. Я платил переводом крипты, но можно и банковскими.

После того как активировал учетку, он мне еще написал:
"Activated.
Give me a vouch on reddit if possible. Also lmk if you're interested in
linkedin premium
Canva edu invite
Primevideo(US/India only)
Netflix (US and Europe only)
Spotify (US,Europe only)
YouTube premium (Need newly created gmail and password. Change password and use)
Crunchyroll
Google one with Gemini advanced"

Так шо Claude видимо нет, но есть всякое другое)

UPD: нечаяно увидел упоминание что такой код можно купить и на Plati еще дешевле, как вариант - https://vas3k.club/question/27718/#comment-c15860c3-4dec-4b9f-a543-c16f27038549

  Развернуть 1 комментарий

В список еще можно добавить https://chat.mistral.ai 🙂

  Развернуть 1 комментарий

@rhamdeew, особенно учитывая их прорыв в OCR https://mistral.ai/fr/news/mistral-ocr

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

ask le chat

  Развернуть 1 комментарий

@rhamdeew, слышу упоминания про Ле Чат в инете и Реддите, но нигде сильно не встречается инфа мол в чем его преимущество перед основными big boys как GPT, Claude и Gemini? Типо для чего его юзать если есть они?

  Развернуть 1 комментарий

@Polovinkin, ну это Франция стронг)
Мы автоматтческое кодревью крутим на мистралях +- лучше выхлоп чем от среднего индуса.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

В последнее время, каждый раз, когда меня выбешивает Claude 3.7 (даже с рассуждениями), иду в Grok 3, и он раскладывает проблему и решает ее как божечка.

Сначала страдал что у него не удобный интерфейс в твиттере, а потом понял что есть grok.com и там гораздо удобнее, так что теперь если задача хоть чуток сложноватая или баг не сильно понятный или код от Claude попахивает пиздежом + оверинжинирингом - пользуюсь Гроком.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
Ivan Aleksashin Инженер HVAC и немного бекендер 14 марта в 16:36

Спасибо за полезный пост!

А есть ли простой способ сделать локально доступный API для того же ChatGPT, чтобы он юзал подписку? В виде расширения для браузера или еще как?

  Развернуть 1 комментарий

@ialgos, я кажется не очень вопрос понял. Локальная, ты имеешь в виду чтобы у тебя сама модель где-то на твоём железе работала? Из того что я знаю oai не отдаёт свою модель никому, даже в энтерпрайз подписке.
Apple Intelligence мб исключение, но там мобилка

  Развернуть 1 комментарий

Ещё поделюсь субъективизмом.

Давно мечтал задействоват LLM в рефакторинге кода.
Написать по аналогии, или добавть в гуишке пару кнопочек - это запросто.
А вот запилить крутую архитектуру, чтобы душа радовалась смотря на код - с этим плохо.

Как-то давно я делал попытки... но gpt4o была для этого совершенно бесполезна - она выдавала какую-то общую муть.

Но прошло вермя и появились думающие модели, и вот как-то подвернулся случай, и я решил протестить разные модели на одном и том же примере.

У меня есть ключик от OpenAI, недавно сделал ключик для DeepSeek.
Использую самописный GUI, который может закинуть сразу несколько файлов, а потом распарсить ответ и обновить файлы на диске:
https://vas3k.club/project/26935/

Так вот. Я ему закинул некий питоновский файл с некой моделью. Файл был целиком написан тем же GPT. Я конечно просил LLM группировать похожий код в отдельные методы и выносить что-то в отдельные классы, но всё-равно получился некий говнокодный монстр в одном файле.

Промпт был таким:
You are senior python developer. Here is my file: ..... Analyze the given code and identify areas that need refactoring. For each necessary change, provide a detailed explanation, including the class name and function name. Clearly describe the issue with the current implementation and propose an improved approach. Ensure that the explanation is specific and actionable, focusing on enhancing code readability, maintainability, and performance.

Результаты тестирования

  • gpt4o Много воды, мало конкретики. На грани полезности

  • 03-mini Очень неплохо - всё ещё размытые формулировки, но появляется хоть какая-то конкретика. И он нашёл реальный баг в моём коде!!!

  • deepseek-reasoner - самый чёткий. Он прямо показывает строчки кода, и часто даже пишет пример когда - как нужно это исправить чтобы было хорошо. Прям максимум конкретики!

  • o1 - тоже нашёл реальный баг. Вот это первая модель, которая меня реально впечатлила. Она написала мне на какие 4 класса я могу разбить свою модель, чтобы разделить разные сущности. И это прямо то, что я хотел!!!! Свершилось! (остальные модели ограничивались "у тебя слишком сложная функция попробуй её разбить на несколько частей"

  • gpt4.5 - выдала ту же самую вдумчивую разбивку на 4 класса. Вообще не упоминула о мелочах. Баг не нашла. Но как бы так сказать... это был прям ответ системного архитектора, который озвучивает тебе только архитектурные проблемы, а мелочи даже не считает нужным упоминать. Чуть больше советов системного уровня, чем 01

  • gemini 2.0 Flash Thinking - (тестировал через веб) - несмотря на свою бесплатность (даже через API) - лучше 03-mini и пожалуй наравне или может чуть лучше deepseek-reasoner ! Пойду прикручиват её в свой питоновский GUI.

P.S.
Не претендую на научность т.к. тестировал только по 1 разу и на одном запросе (а как известно, даже на один и тот же запрос повторённый 3 раза одна и та ж модель може выдать разные ответы).

P.P.S
O1 и тем более gpt4.5 прям game-changer в моей практике программироавния, но при их стоимости токенов с ними нужно быть очень осторожным, особенно если пихать в них большие файлы. Как-то 01 за 10 минут высадила у меня $5, и даже с третьей попытки так и не выдала мне требуемый результат...

  Развернуть 1 комментарий

я думала, что с моими задачами Клод лучше по большинству параметров. а потом я кастомизировала чат гопоты. и тут уже стало сложно. в итоге у меня их два, а на работе только Клод (потому что я его туда занесла х)

  Развернуть 1 комментарий

Ещё, кстати, батхёрта добавляет тот факт, что использование LLM-чатика и использование API – это два разных продукта, за которые нужно платить по отдельности.

  Развернуть 1 комментарий

@Spaider, даааа! Я тут увидел, что я за год за дешевый tts заплатил OpenAI уже 30 баксов. При том, что я на месячной подписке постоянно.

  Развернуть 1 комментарий

@Spaider, более того, которые дают супер-разные ответы на одно и то же. И фиг подберешь параметры, чтобы давало одинаковое

  Развернуть 1 комментарий

Я в конечном итоге уже давно возложил на все эти модели и пользуюсь ток ОпеАи, потому что оно имеет предсказуемый результат и стабильно работает, давая адекватные интерфейсы. Вот прям цитата из моего недавнего поста:

📱 Одно из главных преимуществ ChatGPT — это качественные приложения, а не бесконечное дрочилово в браузере. Они работают стабильно и не создают неожиданных проблем. Я точно знаю, что не столкнусь с ошибками через каждые 10 запросов или другими раздражающими багами.
Работа других продуктов непредсказуема, а стабильность оставляет желать лучшего — даже с учетом того, что OpenAI тоже не идеален.

  Развернуть 1 комментарий

Спасибо за информацию, простенько и понятно.

  Развернуть 1 комментарий
Vladlen Erokhin системный администратор 12 марта в 13:04

В списке нейросетей в конце поста, кроме ChatGPT, на последнем месте - ChatGPT (https://chat.openai.com/) :)

  Развернуть 1 комментарий

@Morhine, так и задумано!

  Развернуть 1 комментарий

@leeaao, комент ломает интригу. "Удоли!" :)

  Развернуть 1 комментарий

Может кто по опыту подскажет, песочница openAI это по сути chatGPT, но с оплатой pay-as-you-go?
Или в оригинальном чате «умный» системный промпт, которого нет

  Развернуть 1 комментарий

@Anthon, без системного промпта, без возможностей в виде агентов всех

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

А ни у кого не было ощущения, что модели OpenAI целенаправленно тупеют?

Я раньше очень много пользовалcя gpt4o для написания кода (python, C#, C++) и прям это круто работало!

Певрвое ухудшение было в ноябре, когда openAI выпустила новую О1.
Может конечно так совпало, но старая gpt4o прям стала работать на удивление плохо - приходилось по 3 раза переформулировать запрос, чтобы добиться от неё того, что раньше она делала с 1 запроса.
(да, запросы разные, в лоб не сравнишь).

Второе ухудшение было недавно, когда вышли o3-mini и gpt-4.5.
Сейчас я вообще не могу пользоваться gpt4o - иногда проще самом написать код, чем добиться от неё того, что я хочу.
Всё субъективно, но сейчас пожалуй o3-mini - работает чуть лучше gpt4o начала 2024.

Может кто-то ещё такое замечал? Или это моё субъективное искажение реальности?

  Развернуть 1 комментарий

@vitperov, да, вижу много отзывов что старые модели отупляют, это происходит из-за того, что снижают ресурсы на интерференс старых моделей, т. к. ресурсы ограничены

  Развернуть 1 комментарий

@timurkhakhalev,
Ну... я вот не очень понимаю как можно снижать ресурсы.

Ставить её на менее мощный сервак - пожалуй. Но тогда будет страдать только скорость ответа.

Но насколько я понимаю, фиксированная модель потребляет фиксированное количество ресурсов для вычисления некого количества токенов. И нельзя сделать только 80% или 90% вычислений - нужно делать все вычисления.

Единственный способ сэкономить ресурсы - дистилляция.

Вот, то, что gpt4o - уже не та самая, а уже несколько раз дистиллированная - я вполне бы поверил

  Развернуть 1 комментарий

@vitperov, да, дистилляция, это более подходящее объяснение

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб