Привет!
Меня зовут Михаил, и мои проекты очень связаны с темой AI. Многие видели громкие заголовки о DeepSeek, но почти никто не вчитывался в подробности.
Решил поделиться своим разбором для не специалистов, потому что это реально очень круто и изменит очень многое в отрасли и, скорее всего, мире.
Что произошло 27 января 2025?
Насдак упал на 3%.
Nvidia влетела на минус 17%, потеряв 600 млрд долларов за один день — исторический антирекорд.
Microsoft догоняющим ударом минус 7 млрд долларов капитализации на послеторговой сессии.
Как выяснилось, причина одна: DeepSeek-R1 — это модель искусственного интеллекта, которую выложила в открытый доступ китайская компания DeepSeek, принадлежащая хедж-фонду High-Flyer.
Чем DeepSeek-R1 так зацепила рынок?
- Неожиданный игрок
Обычно, когда речь заходит об ИИ, в голову приходят OpenAI, Google, Microsoft, Meta — все эти гиганты с огромными командами и бюджетами в сотни миллионов (а то и миллиарды) долларов. Казалось бы, конкурировать с ними невозможно. И тут — бац! — 47 человек из Ханчжоу берут и выпускают модель, которая показывает сравнимые результаты с GPT-O1!!!, но стоит им это в 50 раз дешевле.
- Открытый доступ вместо «закрытых платных решений»
DeepSeek-R1 выложили бесплатно и с открытым исходным кодом. То есть каждый желающий может:
- Скачать и попробовать запустить у себя (если есть компьютер с 8 супер GPU).
- Копаться внутри и улучшать под свои задачи.
- Для многих компаний (в том числе стартапов, которым не по карману GPT-4o API) это не просто экономия, а реальный шанс войти в клуб «хай-перформанс AI».
- «AI против AI» и прочие фишки оптимизации
Немного деталей о том, как DeepSeek-R1 смогли так сильно ужать бюджет обучения — 5,6 млн долларов против сотен миллионов у конкурентов (на самом деле там больше денег чем 6M конечно потратили, но официальная версия такая):
- AI обучает сам себя. В крупных корпорациях тысячи людей сидят и размечают данные, помогают модели отвечать корректнее, исправляют ошибки. В DeepSeek большую часть этого процесса отдали самой нейросети.
- Селективная активация. GPT-4o всегда тянет все «мозги» при любом вопросе, а R1 включает только нужные участки сети. Меньше вычислений — меньше расходов.
- Дистилляция. Многие топ-лабы давно играются с идеей «ужатия» нейросетей без потери качества, но DeepSeek, видимо, довели её до ума, снизив объём памяти до -75%.
Они просто подумали:
-А что будет, если обучить модель с точностью в четыре раза меньше. Меньше памяти, меньше времени , меньше электричества. А результат оказался ниже только на 10 процентов.
- Самокоррекция. Вместо перманентного «дообучения» на новых ошибках, R1 генерирует несколько ответов и сама выбирает лучший. Представьте ученика, который перед сдачей экзамена пробегает варианты в уме и выбирает оптимальный.
Хедж-фонд вместо «классического AI-стартапа»
Как выяснилось, High-Flyer — это хедж-фонд, который зарабатывает на биржевой волатильности. По сути, когда цена акций где-то скачет, они на этом выигрывают. И им не надо делать платные подписки на свой AI, как это делают OpenAI или Google — у них другая бизнес-модель.
Монетизация у них получается через колебания рынка, а не через платный доступ к модели. То есть у DeepSeek нет причин «закрывать» код и продавать лицензии; наоборот, им выгодно посеять панику и хайп, ведь это увеличивает рыночные скачки.
Реакция гигантов
- OpenAI. Планировалась новая модель O3 на январь 2025, но релиз тихо отложили. Официально: «Мы хотим, чтобы следующий апдейт был по-настоящему революционным, а не промежуточным.» Но, судя по утечкам, им пришлось срочно пересматривать архитектуру, чтобы не выглядеть устаревшими рядом с DeepSeek R1.
- Meta. Вроде бы в кулуарах говорили, что топы Meta не понимают, как их 10 000 сотрудников проиграли команде из 47 человек. По слухам, там сейчас даже внутренние совещания по оптимизации бюджета на нейросети.
- Nvidia. Эта компания стала одним из главных бенефициаров AI-бума, ведь для обучения крупных моделей нужны десятки тысяч дорогостоящих видеокарт. А теперь оказывается, что не нужны. Люди посмотрели на DeepSeek-R1 и поняли: «А мы можем тратить намного меньше денег на железо!» Вот вам и удар по акциям.
Почему это интересно нам с вами?
- Порог входа снижается. Представьте, вы стартап или небольшая фирма, у вас нет сотен миллионов, чтобы обучать собственную GPT-like модель. Но раз DeepSeek-R1 доступен бесплатно, можно взять его за основу и адаптировать под свои задачи. Это как иметь маленькую (но крутую) версию AI без гнета подписок.
- Открытая экосистема. Когда модель открытая, появляется миллион ответвлений и модификаций. Раньше такой подход выстреливал, например, в Linux-сообществе. Почему бы не повториться и с AI, если им займутся сотни тысяч разработчиков по всему миру?
- Глобальное влияние. DeepSeek уже обходит экспортные ограничения США (там ведь часто накладывают запреты на продажу передовых технологий в некоторые страны). А здесь — код в открытом доступе, не надо ничего «продавать». Пошёл да скачал. Это может серьёзно изменить расклад сил на мировом AI-рынке.
Мои мысли и вопросы к вам
Я вижу в этом всём историю а-ля «Давид против Голиафа», где маленькая, но умная команда вышла против нескольких гигантов и сорвала куш в виде мировой шумихи. При этом своей открытостью они могут выстроить гигантскую экосистему сторонников.
Что думаете, будет ли это точкой перелома? Пойдём ли мы все по пути «эффективных open-source моделей», или всё-таки гиганты вернут себе лидерство за счёт невероятных инвестиций и договорённостей?
Мне кажется, это реально важный этап для всего AI-сообщества. Когда-то мы смотрели, как Google, Microsoft и OpenAI инвестируют миллиарды, и думали: «Это космос, неповторимо». А теперь выясняется, что командой из нескольких десятков человек можно добиться сопоставимых результатов — главное уметь оптимизировать и иметь смелость выкладывать всё это в открытый доступ.
Итог
DeepSeek-R1 не просто «очередная моделька», а знаковый пример, что в AI больше не решает грубая сила и бездонные карманы.
Крупным игрокам придётся адаптироваться.
Открытый код даёт возможность многим компаниям — а, возможно, и исследовательским группам — делать что-то крутое без астрономических счетов за API.
Надеюсь, мой разбор поможет вам разобраться в сути этой истории и понять, почему все так обсуждают DeepSeek. Если остались вопросы или хотите поделиться своим опытом — пишите в комментариях, всем будет полезно!
Спасибо, что дочитали до конца.
PS конечно я использовал для подготовки этого текста DeepSeek R1 который развернул на облаке Azure за пару минут.
PPS официальный бесплатный доступ к модели от разработчиков лежит из за большого спроса, поэтому и не привожу ссылку.
как же калит жопу такая аналитика,
Откуда вот это официально взялось? Почему Сама ещё в декабре говорил что о3-мини запустят в конце января, а о3 — позже, И РОВНО ЭТО ПРОИЗОШЛО. Откуда взялось вот это "официально мы хотим"? Какие утечки с пересмотром архитектуры? Откуда вы все это берете, с панорамы?
Немного жалею, что у меня нет нормального запаса кэша, чтобы вложиться прямо сейчас в Насдак и в НВидию в частности.
Оч хорошее событие, страшно наблюдать, какую монополию строят в штатах со своими Statgate итп
Нужна уравновешивающая сила. Спасибо, китайцы 🇨🇳 💪
Я не настоящий сварщик, но все равно вброшу несколько тезисов:
High-flyer это, конечно, неожиданный игрок, но это совсем не случайные люди в индустрии. Они занимались ML-powered трейдингом еще в прошлом десятилетии, а в 2021 году они создали свой первый суперкомпьютер, который через год заменили вторым. Иронично кстати, что сама торговля конкретно с помощью ML и выбранных им стратегий у фонда была не то чтобы слишком успешной.
Я просто не понимаю, как можно всерьез говорить о 6 миллионах долларов. Даже из официальных источников это расходы на обучение одной из предыдущих версий, не учитывает версии, которые были до нее и не учитывает дообучение их последней R1. Лаборатория (а DeepSeek это именно лаборатория при хедж-фонде) годами скупала чипы NVIDIA и собирала отличных спецов, что характерно для HFT. Скорее всего, чипы продолжили скупать и после введения санкций. Это к изначальному тезису о том, что бизнес NVIDIA теперь под угрозой. NVIDIA стала одним из бенефициаров, просто видно это пост-фактум. Но сам факт того, что они сделали обучение намного дешевле, чем сейчас ожидается (видимо, на пару порядков), бесспорно верный.
Про монетизацию, которая достигается через колебания рынка — лаборатория при хедж-фонде определенно не жалуется на финансирование (тут уже начинаются мои домыслы), но продвижение продукта вперед должно стоит дорого. А у фонда есть и свои обязательства перед инвесторами, и я ОЧЕНЬ сильно сомневаюсь, что в период, когда у квантовой торговли непростые времена (регуляции в Китае, в США эта модель была зарегулирована еще раньше) этих инвестиций будет хватать.
Это не первая модель с открытыми весами, выложенная в опенсорс. Я просто напомню, что есть Llama из топов, Mistral из того что на слуху. Их конечно больше, но я не хочу гуглить. При этом это сильный шаг, и многим будет полезен, тоже вопросов нет, просто это само по себе не новаторство.
В общем — это было круто, рынок пошатали хорошо, их хаки в обучении модели точно повлияют на то, как модели будут обучать в будущем, но это не какие-то революционеры из гаража, сделавшие модель на деньги, сэкономленные с корпоративных обедов. Это серьезные ребята, которые долго готовились к тому, чтобы заявить о себе. И это я не беру в расчет еще и спекулятивные вещи, о которых точно не известно, но которые вполне вероятно имели место — о скрытом финансировании.
А можно вот про это подробнее? Можно кинуть вменя ссылкой на мануал)
И сколько денег вышло такое использование на подготовку статьи?
Мне лично не кажется DeepSeek маленькой инди компанией, твитам о том что они всё это делали в качестве хобби, а так то они математики – тоже не верю.
Когда я узнал что их материнская компания хэдж-фонд, то для меня все эти события сложились в один паззл – это была очень хорошая маркетинговая кампания, которой они дали под жепу всей индустрии, молодцы, конечно.
Вот я всё ждал когда кто-нибудь сделает обзор на эту модель, потому что она у меня как у дилетанта вызывает кучу вопросов.
Плюс новости, что deepseek украли данные у open ai, теневое финансирование от КПК и т.д. (нет, я бы удивился, если бы их в чём нибудь таком не обвинили). Но, какова вероятность, что там под капотом не какой-то скам, цель которого та самая волатильность?
Есть ощущение, что автор спецпиально попросил нейросеть набросать спорные постулаты (а порой и просто додумки) ради комментов (была бы реклама еще ТГ канала, вообще бы все сошлось).
Модель монетизации через колебания рынка... А нет ли пруфов для таких выводов?
Тут больше интересных подробностей, что под капотом:
— с 12:15 по 14:45
— с 15:15 по 19:01
А с 08:26 общие факты
А почему 8 супер? R1-14B у меня на 4070 Ti запустилась и бодренько заработала, и даже следующая пошла, хоть и не так быстро.
Однако ж локальная модель не впечатлила чот, полноценных ответов на русском добиться не получилось (а мне в основном нужен русский).
Во время чтения не покидало ощущение, что обзор писался с помощью ИИ, и в конце это подтвердилось :)
Но в целом текст понравился, хотя и хотелось чего-то более глубокого после такого заголовка.
Однако одну фразу совсем не понял, можете пояснить?
😱 Комментарий удален его автором...
В новостях было, что там одна сплошная дыра в безопасности. По этому поводу есть какие-то подробности?
а за инсайдерскую торговлю не вздрючат этот хедж фонд?
Open AI вчера отменили анонсированый выпуск ChatGPT O3.
Теперь в их обещания входит выпуск ChatGPT 4.5 не рассуждающей модели, которую некорректно сравнивать с DeepSeek R1