Почему «думающие» модели на самом деле не думают (и что об этом говорит новое исследование Apple)

 Публичный пост
17 июня 2025  2538

Привет, Клуб!
Сегодня хочу погрузиться в одну из самых горячих тем в мире ИИ. Вы наверняка слышали про новое поколение языковых моделей — OpenAI o3 pro, Claude 4 Sonnet Thinking, Deepseek R1 и другие. Их называют «рассуждающими моделями» (Large Reasoning Models, LRM), и они обещают не просто отвечать на вопросы, а показывать весь свой «мыслительный процесс», шаг за шагом разбирая задачу. Звучит как прорыв, правда? Почти как зарождение настоящего искусственного разума.

Но что, если я скажу вам, что это может быть лишь очень убедительной иллюзией?

Я наткнулся на свежее и, честно говоря, отрезвляющее исследование под названием «Иллюзия мышления» от группы инженеров из Apple. Они решили не верить на слово громким анонсам и копнуть глубже. Вместо того чтобы гонять модели по стандартным тестам, они создали для них настоящий «интеллектуальный спортзал» с головоломками. И то, что они обнаружили, ставит под сомнение саму природу «мышления» этих систем.

Давайте разберемся вместе, что же там произошло.

Почему тесты по математике — плохая линейка

Прежде всего, нужно понять, почему исследователи вообще усомнились в стандартных бенчмарках. Большинство моделей тестируют на математических и кодовых задачах. Проблема в том, что интернет завален решениями этих задач. Модель, как прилежный, но не очень сообразительный студент, могла просто «зазубрить» миллионы примеров во время обучения. Это называется загрязнением данных (data contamination), и следующие результаты по математическим тестам это хорошо иллюстрируют.

Сравнительный анализ reasoning и non-reasoning моделей в различных математических бенчмарках выявляет несогласованные паттерны производительности. В то время как результаты на наборе данных MATH-500 показывают сопоставимую производительность между обоими типами моделей, reasoning модели демонстрируют превосходную производительность на бенчмарках AIME24 и AIME25. Кроме того, наблюдаемое снижение производительности от AIME24 к AIME25 подчеркивает уязвимость этих бенчмарков к проблемам загрязнения данных.
Сравнительный анализ reasoning и non-reasoning моделей в различных математических бенчмарках выявляет несогласованные паттерны производительности. В то время как результаты на наборе данных MATH-500 показывают сопоставимую производительность между обоими типами моделей, reasoning модели демонстрируют превосходную производительность на бенчмарках AIME24 и AIME25. Кроме того, наблюдаемое снижение производительности от AIME24 к AIME25 подчеркивает уязвимость этих бенчмарков к проблемам загрязнения данных.

Как проверить, действительно ли студент понимает физику, а не просто выучил формулы? Нужно дать ему задачу, которую он никогда раньше не видел.

Именно это и сделали в Apple. Они взяли четыре классические головоломки:

  1. Ханойская башня (Tower of Hanoi): Головоломка с тремя стержнями и набором дисков разного размера. Цель — переместить все диски с первого стержня на третий. Перемещать можно только один диск за раз, брать только верхний диск и никогда не класть больший диск на меньший.
  2. Прыгающие шашки (Checker Jumping): Одномерная головоломка, в которой в ряд расположены красные, синие шашки и одно пустое место. Задача — поменять местами все красные и синие шашки. Шашку можно сдвинуть на соседнее пустое место или перепрыгнуть через одну шашку другого цвета на пустое место. Движение назад запрещено.
  3. Переправа через реку (River Crossing): Головоломка, в которой n актеров и их n агентов должны пересечь реку на лодке. Цель — перевезти всех с левого берега на правый. Лодка имеет ограниченную вместимость и не может плыть пустой. Актер не может находиться в присутствии другого агента без своего собственного. Аналог наших "Волк, коза и капуста".
  4. Мир блоков (Blocks World): Головоломка со стопками блоков, которые нужно переставить из начального положения в целевое. Задача — найти минимальное количество ходов для этого. Перемещать можно только самый верхний блок в любой стопке, помещая его либо на пустое место, либо на другой блок.

Иллюстрация четырех сред-головоломок. Колонки показывают прогрессию от начального состояния (сверху) через промежуточное состояние (посередине) к целевому состоянию (снизу) для головоломок.
Иллюстрация четырех сред-головоломок. Колонки показывают прогрессию от начального состояния (сверху) через промежуточное состояние (посередине) к целевому состоянию (снизу) для головоломок.

Прелесть этих головоломок в том, что их сложность можно очень точно контролировать, просто меняя количество элементов (дисков, шашек, кубиков). При этом логика решения остается той же. Это идеальная среда, чтобы увидеть, где у модели ломается «рассуждалка».

Три режима сложности: от гения до полного провала

Прогнав через эти головоломки «думающие» модели и их обычные, «не думающие» аналоги (например, Claude 3.7 Sonnet Thinking vs. Claude 3.7 Sonnet), исследователи обнаружили четкую и повторяемую картину, которую можно разделить на три режима.

1. Режим низкой сложности: желтая зона
На простых задачах, где нужно сделать всего несколько ходов, обычные модели справлялись так же хорошо, а иногда и лучше, чем их «думающие» собратья. При этом они тратили гораздо меньше вычислительных ресурсов. По сути, заставлять reasoning модель решать простую задачу — это почти как использовать суперкомпьютер для сложения 2+2. «Мыслительный процесс» здесь — избыточная роскошь, которая только замедляет работу.

2. Режим средней сложности: голубая зона
Вот здесь-то «думающие» модели и начинали блистать. Когда задача становилась достаточно запутанной, способность генерировать длинную цепочку рассуждений, проверять гипотезы и исправлять себя давала им явное преимущество. Разрыв в точности между reasoning и non-reasoning версиями становился значительным. Казалось бы, вот оно — доказательство!

3. Режим высокой сложности: красная зона
Но триумф был недолгим. Как только сложность головоломки перешагивала определенный порог, происходило нечто поразительное: производительность обеих моделей падала до нуля. Полный коллапс.

Слева и посередине: При низкой сложности non-reasoning модели более точны и эффективны по расходу токенов. По мере увеличения сложности reasoning модели превосходят их, но требуют больше токенов — пока обе не коллапсируют за критическим порогом. Внизу справа: В случае правильно решенных задач Claude 3.7 Thinking, как правило, находит ответы рано при низкой сложности и позже при более высокой сложности. В случае неудач он часто фиксируется на раннем неправильном ответе, растрачивая оставшийся бюджет токенов. Оба случая выявляют неэффективность в процессе рассуждений.
Слева и посередине: При низкой сложности non-reasoning модели более точны и эффективны по расходу токенов. По мере увеличения сложности reasoning модели превосходят их, но требуют больше токенов — пока обе не коллапсируют за критическим порогом. Внизу справа: В случае правильно решенных задач Claude 3.7 Thinking, как правило, находит ответы рано при низкой сложности и позже при более высокой сложности. В случае неудач он часто фиксируется на раннем неправильном ответе, растрачивая оставшийся бюджет токенов. Оба случая выявляют неэффективность в процессе рассуждений.

Точность reasoning моделей (Claude 3.7 Sonnet Thinking, DeepSeek-R1) по сравнению с их non-reasoning аналогами (Claude 3.7 Sonnet, DeepSeek-V3) во всех средах-головоломках и при различных уровнях сложности задач.
Точность reasoning моделей (Claude 3.7 Sonnet Thinking, DeepSeek-R1) по сравнению с их non-reasoning аналогами (Claude 3.7 Sonnet, DeepSeek-V3) во всех средах-головоломках и при различных уровнях сложности задач.

Производительность Pass@k reasoning по сравнению с non-reasoning моделями при эквивалентных вычислительных бюджетах в средах-головоломках низкой, средней и высокой сложности. Non-reasoning модели показывают превосходные результаты в простых задачах, reasoning модели демонстрируют преимущества при средней сложности, тогда как оба подхода терпят неудачу при высокой сложности независимо от выделения вычислительных ресурсов.
Производительность Pass@k reasoning по сравнению с non-reasoning моделями при эквивалентных вычислительных бюджетах в средах-головоломках низкой, средней и высокой сложности. Non-reasoning модели показывают превосходные результаты в простых задачах, reasoning модели демонстрируют преимущества при средней сложности, тогда как оба подхода терпят неудачу при высокой сложности независимо от выделения вычислительных ресурсов.

О метрике Pass@k

Да, «думающие» модели держались чуть дольше и сдавались на несколько шагов позже. Но в конечном итоге они упирались в ту же самую фундаментальную стену. Их способность к рассуждению не была по-настоящему обобщаемой. Она просто отодвигала неизбежный провал.

Парадокс сдающегося разума

Но самое странное и контринтуитивное открытие ждало исследователей, когда они посмотрели, сколько модель «думает» в зависимости от сложности. Логично предположить, что чем сложнее задача, тем больше усилий (токенов мышления) модель должна на нее потратить.

И поначалу так и было. С ростом сложности росло и количество «размышлений». Но ровно до той точки, где начинался коллапс. Приближаясь к критической сложности, модели вели себя парадоксально: они начинали сокращать свои усилия, что прекрасно видно на графике.

Точность и токены рассуждения в зависимости от сложности задачи для reasoning моделей в различных средах-головоломок. По мере увеличения сложности, reasoning модели изначально расходуют больше токенов, в то время как точность постепенно снижается, до критической точки, где рассуждение коллапсирует — производительность резко падает, а усилия на рассуждение снижаются.
Точность и токены рассуждения в зависимости от сложности задачи для reasoning моделей в различных средах-головоломок. По мере увеличения сложности, reasoning модели изначально расходуют больше токенов, в то время как точность постепенно снижается, до критической точки, где рассуждение коллапсирует — производительность резко падает, а усилия на рассуждение снижаются.

Представьте студента на экзамене, который, увидев слишком сложную задачу, не пытается исписать несколько страниц черновика, а просто смотрит на нее пару секунд и сдает пустой лист. При этом у него есть и время, и бумага. Модели, имея огромный запас по длине генерации, просто переставали пытаться.

Это указывает на фундаментальное ограничение их архитектуры. Это не просто нехватка знаний, а некий встроенный предел масштабирования мыслительных усилий.

Два гвоздя в крышку гроба «чистого разума»

Если предыдущие пункты еще оставляли пространство для интерпретаций, то следующие два вывода выглядят как приговор идее о том, что LRM действительно «понимают» логику.

1. Неумение следовать инструкциям
Это, пожалуй, самый убийственный аргумент. Исследователи провели эксперимент с Ханойской башней, в котором они дали модели точный пошаговый алгоритм решения прямо в промпте. От модели требовалось лишь одно — тупо следовать инструкциям.

Результат? Никакого улучшения. Модель проваливалась ровно на том же уровне сложности, что и без подсказки. Это можно сравнить с человеком, которому дали подробнейшую инструкцию по сборке шкафа из IKEA, а он все равно не может его собрать. Такое поведение говорит о том, что он не читает и не выполняет шаги, а пытается по памяти или по картинке воссоздать то, что видел раньше. Похоже, модель не выполняет* алгоритм, а пытается *распознать знакомый паттерн.

2. Странная избирательность
Анализ показал еще одну интересную вещь. Модель Claude 3.7 Sonnet Thinking могла с почти идеальной точностью решить Ханойскую башню на 5 дисков (это 31 ход), но полностью проваливала задачу о Переправе через реку для 3 пар (всего 11 ходов).

Почему так? Вероятный ответ — снова в данных для обучения. Примеров решения Ханойской башни в интернете полно. А вот сложных вариантов Переправы через реку — гораздо меньше. Модель сильна в том, что она «видела» много раз, и слаба в том, что для нее в новинку, даже если логически задача проще.

(a) и (b): Несмотря на предоставление алгоритма решения в промпте, сбои выполнения наблюдаются в схожих точках, что подчеркивает ограничения моделей рассуждения в выполнении логических шагов. (c) и (d): Примечательно, что модель Claude 3.7 Sonnet демонстрирует значительно более длинные безошибочные последовательности в Ханойской башне по сравнению с ранними ошибками в сценарии Переправы через реку.
(a) и (b): Несмотря на предоставление алгоритма решения в промпте, сбои выполнения наблюдаются в схожих точках, что подчеркивает ограничения моделей рассуждения в выполнении логических шагов. (c) и (d): Примечательно, что модель Claude 3.7 Sonnet демонстрирует значительно более длинные безошибочные последовательности в Ханойской башне по сравнению с ранними ошибками в сценарии Переправы через реку.

Но история на этом не закончилась. Ответный удар от создателей Claude

Казалось бы, выводы ясны: «думающие» модели — это очень продвинутая, но все же иллюзия. Я уже почти дописал эту статью, когда, как в хорошем детективе, на сцену вышел новый свидетель, который перевернул все дело. В виде ответной публикации под дерзким названием «Иллюзия иллюзии мышления» на арену вышли исследователи из Anthropic (создатели Claude) и Open Philanthropy.

Это не просто комментарий, это полный разгром. Суть их ответа проста и беспощадна: выводы Apple говорят не о фундаментальных ограничениях моделей, а о фундаментальных ошибках в дизайне самого эксперимента. Давайте посмотрим, как они разбирают аргументы Apple по косточкам.

1. Первый гвоздь в гроб «коллапса рассуждений»: закончилась бумага, а не мысли.
Помните идею, что модели «сдавались» на сложных задачах? Anthropic утверждают: модели не сдавались, они просто упирались в лимит токенов. Это не студент, который бросил решать задачу, а студент, которому дали всего один лист бумаги. Когда он заканчивается, он пишет «и так далее» и сдает работу. Модели делали то же самое, буквально сообщая в своих ответах: "Паттерн продолжается, но чтобы не делать ответ слишком длинным, я остановлюсь здесь". Автоматический тест Apple, не умея читать такие нюансы, засчитывал это как провал.

2. Второй выстрел: драма с нерешаемой задачей.
А вот тут начинается настоящая детективная история. Исследователи из Anthropic проверили условия задачи о Переправе через реку и обнаружили, что для 6 и более пар актеров/агентов при вместимости лодки в 3 человека она математически нерешаема. Это известный факт, подтвержденный другим исследованием. Получается, Apple на полном серьезе ставили моделям «неуд» за то, что те не смогли решить нерешаемую задачу. Это всё равно что наказать калькулятор за то, что он выдал ошибку при делении на ноль.

3. И, наконец, контрольный в голову: попросите рецепт, а не нарезку.
Чтобы окончательно доказать свою правоту, команда Anthropic изменила сам вопрос. Вместо того чтобы требовать от модели выдать тысячи ходов для Ханойской башни, они попросили ее написать программу (функцию на Lua), которая генерирует решение. И — бинго! — модели, которые якобы «коллапсировали», с легкостью написали идеальный рекурсивный алгоритм. Apple, по сути, тестировали механическую выносливость модели, заставляя ее «нарезать овощи» для огромного банкета. Anthropic же проверили знание процесса, попросив «написать рецепт». И модель его знала.

Так кто же прав? Иллюзия мышления или иллюзия оценки?

Этот ответный удар полностью меняет расстановку сил. Теперь выводы Apple выглядят не как открытие фундаментального порока ИИ, а как демонстрация классической ловушки для исследователя, в которую легко угодить, если не проверять свои же исходные данные.

Получается, та самая «стена сложности», в которую упирались модели, была построена не ими, а самими экспериментаторами через искусственные ограничения и невыполнимые условия.

Едкий, но справедливый вердикт от Anthropic подводит итог всей этой истории:
«Вопрос не в том, могут ли модели рассуждать, а в том, могут ли наши тесты отличить рассуждение от печатания».

Эта история — отличное напоминание, что в мире ИИ нужно сомневаться не только в ответах машин, но и в собственных вопросах. Я уверен, что многие из нас сталкивались с этим в своей практике. Иногда кажется, что модель «тупит», а на самом деле мы просто задали вопрос так, что она не может дать хороший ответ в рамках поставленных ограничений.


Что вы думаете об этом споре? Чьи аргументы вам кажутся более убедительными? Были ли у вас случаи, когда вы сами неправильно оценивали возможности ИИ просто потому, что «тест» был составлен некорректно?

Связанные посты
74 комментария 👇

Я пока остаюсь при мнении, что современный ИИ — это крутой инструмент, который может облегчить работу человека, а в некоторых случаях и заменить людей, но интеллектом на самом деле не является. Искусственный интеллект — это всего лишь маркетинговый термин. LLM будут становиться умнее, будут все лучше имитировать человека, но фундаментальные проблемы все равно останутся. Нужен какой-то принципиально новый подход.

Мне очень понравилась эта статья и ее продолжение с ответами на контраргументы, потому что рассуждения и выводы автора практически полностью совпадают с моими собственными. Но написал ее какой-то никому неизвестный программист, так что наверно надо относиться к его словам примерно с той же степенью доверия, что и к моим) Но источники есть, можно проследить рассуждения и подумать самому.

Например, он там ссылается на исследование Anthropic, где они научились видеть, какие именно нейроны в модели активизируются при генерации ответа. И оказалось, что при складывании двузначных чисел современные модели все так же просто статистически угадывают ответ. Поэтому ИИ на длинных числах начинает промахиваться, так как их не было в обучающих данных.

Развитие языковых моделей сравнивается с прогрессом в поездах. С момента появления поезда стали гораздо более быстрыми и комфортными. Но несмотря на это на поезде невозможно переехать на другой континент. Чтобы быстро путешествовать через моря и горы, нужно было изобрести самолет. Причем эти два вида транспорта развиваются почти независимо друг от друга.

С противоположной стороны есть такой сайт от известных личностей в области ИИ. Они дают интересный и немного пугающий прогноз развития на ближайшие годы. На поверхностный взгляд там тоже все выглядит довольно логично и обоснованно. Но я скорее отношусь к этому, как к известному комиксу от xkcd "Мое хобби — экстраполировать".

С интересом продолжаю следить за прогрессом.

  Развернуть 1 комментарий

@binque, Хорошие статьи, спасибо за ссылки! Интересный момент про статистическое угадывание в арифметике.

Думаю, ключевой вопрос не в том, "думают" ли модели как люди, а нужно ли им это для практических задач. Для многих случаев - возможно, и нет.

  Развернуть 1 комментарий

@xonika9, согласен, что для многих случаев модели и с таким устройством очень полезны. Просто важно помнить, что у них есть ограничения, и не ожидать слишком многого

  Развернуть 1 комментарий

@binque, Почитал статью из этого коммента

https://www.mindprison.cc/p/no-progress-toward-agi-llm-braindead-unreliable

Похоже на мой опыт, но при этом если попросить написать код на питоне, чтобы сложить эти числа, то LLM справляется

Я не очень понимаю почему

  Развернуть 1 комментарий

@ldi,

  Развернуть 1 комментарий

@ldi, современные облачные модели имеют доступ к Python-окружению. То есть она не сама интерпретирует собственный код, а реально запускает его и читает вывод из консоли

  Развернуть 1 комментарий

@ldi, а каком-то подкасте я слышал идею, что такие глюки с простой математикой связаны с обучением на Библии (и большим количеством цитат из неё в разных источниках), а там строфа 9.9 идёт раньше, чем 9.11.

  Развернуть 1 комментарий

@SergeiTikhomirov, попытка посчитать количество «r» в strawberry тоже заканчивается провалом, если не просить написать код

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
Sergey Petrov Делаю чтобы работало 17 июня в 09:40

Получается, Apple на полном серьезе ставили моделям «неуд» за то, что те не смогли решить нерешаемую задачу. Это всё равно что наказать калькулятор за то, что он выдал ошибку при делении на ноль.

Мне однажды УЗИ сердца делал завкафедры нашего мединститута, ну и у него под рукой было пару студенток. Он им показывает че там у меня и говорит "скажите что тут не так поставлю зачет автоматом".

Ну и как подабает LLM они пошли перебирать все что могли вспомнить, а оказалось что правильный ответ "тут все ок, это здоровое сердце"

  Развернуть 1 комментарий

@Pr0Ger, Самым сложным диагнозом всегда оказывается "норма" 😏

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Я наткнулся на свежее и, честно говоря, отрезвляющее исследование под названием «Иллюзия мышления» от группы инженеров из Apple. Они решили не верить на слово громким анонсам и копнуть глубже.

Нет, они поняли, что отстают, и решили выкатить статью с хот тейком, чтобы хайпануть. И у них это получилось. На всякий случай, в качестве автора статьи сделали интерна женщину индуса, чтобы если что, можно было сказать, что это её личное мнение, а мы не доглядели.

  Развернуть 1 комментарий

@timurkhakhalev, Соглашусь, что хайпанули. Reddit прям кипел от таких инсайтов, но мало кто ответ от Anthropic заметил. Статья вышла 7 июня, а ответ 10-го (когда все обсуждали Liquid Glass).

У Apple нет своей публичной модели, но есть большой авторитет (особенно среди неакадемической аудитории), поэтому можно взять чужие и посравнивать.

Кстати, насчет авторства статей, я часто натыкаюсь на исследования в AI, где авторы подписываются крупными компаниями, и там очень мультинациональный состав. Например тут или тут. Поэтому, интерн женщина индус это вполне стандарт, тем более с таким списком статей.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Тут вообще непонятно в чем дискуссия, apple сами придумали какой-то тезис, сами сделали вид что опровергли, ну молодцы че.

Вроде никто и не утверждал, что модели умеют думать. А учитывая, что мы и про человека не очень понимаем, а что же это такое - "думать", то такая дискуссия вообще не имеет смысла.

  Развернуть 1 комментарий

@underlow, вот да, во всех этих спорах проблема лежит в самом корне - нет ощей синхронизации, что такое "думать" и "интеллект". То есть, если она понимает новый мем, которого точно не было в моменте её обучения - это она думает или нет? А если она может распознать абстактный рисунок - уже мысли?

Я как-то задалбывал саму чатку вопросом "чем твои размышления отличаются от человеческих", на что она указывала в разнице органах чувств. Но когда я спросил что-то вроде "чем будет отличаться нейросеть с видеокамерой, микрофоном, датчиками касания и положения от человека", то убедительной разницы придумать не смогла.

  Развернуть 1 комментарий

@tetelevm, а уж как интересно станет когда вообще не отличить будет.

  Развернуть 1 комментарий

Ну, как обычно всё.

Эппл отстаёт, мы это знаем. Они провафлили, но я думаю, у них со своей платформой есть много вариантов. Так что за них я бы не волновался.

Антропик дали отличный ответ.

Действительно ЛЛМки - это замечательный инструмент, который особо полезен в поиске разношёрстных данных. По-факту, вообще незаменимый инструмент.

Проблема в том, что во всё это впутываются ультра-левые и ультра-правые. Про-ИИшники и Анти-ИИшники. И те и другие начинают бурлить говнами и накидывать на вентиляторы совершенную чушь, потому что в отличие от Антропиков, в которых работают вменяемые математики, эти говорят про электронные мозги, разум, разумность и способность заменить человеческий интеллект.

Кстати, рассказы о том, что компьютер - думает - это древняя легенда. Ещё в 1953 году Алан Тьюринг использовал словосочетание "Электронный мозг". И даже в то время он его использовал в следующем контексте:

Несколько человек из аудитории предполагали, что, возможно, не поймут ни слова из сказанного, но они оказались глубоко неправы. Мистер Тьюринг привёл очень понятную аналогию между глупым клерком с его механическим счётным устройством, бумагой для записей и инструкциями, и Электронным Мозгом, который объединял всё это в одном. Всё, что требовалось, — это ввести инструкции в перфоленту, и масса проводов, ламп, резисторов, конденсаторов и дросселей делала остальное, выводя ответ на другой ленте. Однако Мозг мог допускать ошибки, и в него были встроены тонкие механизмы проверки для их обнаружения.

То есть уже тогда мы считали, что электронный мозг - это какой-то клерк со счётной машиной. Насколько я знаю, никакая современная наука не определяет мозг как "Клерк со счётной машиной".

Проблема в том, что у нас начинают смешиваться две области знания, которые должны находиться в разных комнатах. С одной стороны - LLM, GPT, регрессионный анализ, и математическое моделирование со статистикой, а с другой стороны - это человеческий разум, внимание, мысли, идеи и тому подобные вещи.

Мы неплохо разбираемся в первой части всего этого. Но, насколько я могу видеть, понимание человеческого разума находится в плачевном состоянии. Ни одна наука на данный момент не может дать чёткого и не-философского определения слову "мысль" или "разум". У нас есть подозрения, и мы знаем, что если потыкать током туда или сюда, то можно вызвать глюки, но что конкретно мы знаем, мы не особо понимаем.

Сверху на это непонимание сваливаются необразованые репортёры и блоггеры. Они начинают радостно писать и рассуждать о том, как Чат ГПТ влияет на пределы человеческого мышления. Про первую часть этого предложения, такой человек знает примерно пару абзацев, а про вторую - вообще ничего. Но, это не мешает писать статьи обильно сдобренные антинаучными заявляениями про т.н. "Системы Искусствунного Интелекта" и то, как они относятся к человеческому разуму.

Как следствие, после этого в Эппл появляются интерны, которые пишут такие-вот статьи.

В то же время, есть нормальные люди. Они - разработчики и пользователи ИИ, которые не хайпом пользуются, а пытаются что-то полезное из этого ИИ выжать.

И тут уже рассуждения на другом уровне проводятся.

Например, когда я использовал ChatGPT 3.0 он более-менее вразумительно умел писать функции к яваскриптам. Иногда ошибался, но писал.

GPT 3.5 всё так же писал функции для яваскрипта, иногда ошибался, но писал сносно. Но ни тот ни другой не знали ничего про Netsuite, и когда я просил написать плагин для нетсуита, то они врали напрополую.

Когда вышел GPT 4.0 то в нём уже были данные о том, как работает Netsuite, и поэтому он уже мог писать фукнции для Netsuite. Иногда ошибался, но писал.

С тех пор прошло полтора года. У меня теперь Клод 4. "Думающий". Он всё так же пишет функции к Netsuite, иногда ошибается, но пишет. И всё так же не может в автоматическом режиме написать более-менее нормальный модуль или плагин.

Как ни крути, видимый прогресс ЛЛМок был в том, что им скормили больше данных, и потратили больше энергии на обучение, но по личным наблюдениям, конкретных улучшений я не вижу. Мне как надо было писать код с двух-трёх, промптов, так я и продолжаю его писать после двух-трёх промптов. Как скисали модели после пяти промптов, так они и продолжают скисать. Ну теперь после семи, но скисают.

Мне кажется, что в 2025 году нам надо начинать требовать, чтобы кто-то занялся онтологией. Сделать полный ребут, и начать сначала. Нам пора прекращать притворяться, что у нас есть наука, которая занимается человеческим разумом, и начинать настаивать, чтобы такая наука появилась. И начинала она не с того, чтобы анализировать "все существующие в мире данные на эту тему", а заняться созданием базовых постулатов, на основании которых такая наука могла бы строится. А уже после того, как мы с этим разберёмся, тогда уже бежать и брызжать слюной о том, что ИИ щас сделает то или это. На данный момент это звучит как "ИИ умеет сепулькать". Мы не особо понимаем, что такое сепулькание, но ИИ щас в нём устроит переворот.

При том, что сам по себе ИИ - это охуенный инструмент, который уже устроил много переворотов поменьше.

  Развернуть 1 комментарий

@newarked, про ллм как вычислительный инструмент полностью согласен. Про отсутствие науки о мозге не согласен, можно хоть ту же бехтереву почитать/послушать для введения

  Развернуть 1 комментарий

@gramlin, Я не говорю о конкретно одном человеке. Тут науки нет в принципе. Есть просто огромный набор мнений, которые друг с другом не коррелируют и не имеют никакой чёткой основы.

Взять, например, ту же Бехтереву, которую я читал:

А по-вашему, это есть доказательство постулата о том, что “много званных, но мало избранных”?

Я пока не готова дать на это ответ. У меня его просто нет. Но ученый должен прежде всего четко ставить перед собой вопросы. Не боясь. Сегодня очевидно: тело без души не живет. Но ведет ли биологическая смерть к смерти души - вот вопрос вопросов. Я впервые поставила его перед собой в ходе встречи с Вангой…

Я так же читал Канта, Вундта, Фрейда, Уотсона, Маслоу, Сократа и Платона.

К сожалению, вся наука выглядит как люди, которые постоянно скгыглятся и дерутся друг с другом, пытаясь доказать один другому что тот - неправ. Причём, это, кажется не баг а фитча.

В итоге, у нас нет науки. Тут, если кто-то сходит с ума, то не совсем понятно, рехнулся он или нет. Лет 70 назад кто-то стоял перед учёным советом, и доказывал, что лоботомия - это шик. Пятьдесят лет назад кто-то доказывал что LSD - это отличный способ прокачать психическое здоровье. И учёный совет, который всё это слушал не мог сказать "Да вы на голову ушибленные". Им пришлось всё это пропустить, потом посмотреть на реакцию от этого, и только потом вынести какое-то решение. Да, если проволокой тыкать в мозг, то это не помогает. Так и запишем.

Понимаете, я думаю, что наша цивилизация ДЕЙСТВИТЕЛЬНО дошла в совём техническом развитии до того уровня, когда нам стоит требовать наличия науки в области разума и мышления. Ведь как ни крути, а мыслим мы постоянно, и разумом пользуются абсолютное большинство людей на этой планете.

Понимаете, взять например, физику. Это - наука в которой существуют какие-то основополагающие законы и методы, которые переводят знания из области теории и фантастики в область знания. Есть термодинамика. Это область физики, которая объясняет много происходящих явлений. В какой-то момент мы наблюдаем чёрную дыру, или мы выдумываем чёрную дыру. Тут термодинамика не справляется. Мы начинаем осматривать имеющиеся области знания и выдвигаем новые гипотезы. Проверяем эти гипотезы с помощью математики, и потом наблюдаем их в физической вселенной.

То же есть в химии. И в самой математике, и во многих других науках.

В то же время, мы до сих пор не можем найти определение слову "разум". И каждый раз, когда мы о нём говорим, мы будем слышать витьеватые отговорки в стиле "Ну, мы этого сейчас не знаем, и знать не можем, как же так, знать что-то о чём-то, что есть у каждого человека, и каждый этим пользуется. Такого быть не может! Это - бред!" Слова мысль, разум, и тому подобные вещи должны подчиняться математически точным законам. Мы просто не туда смотрим, очевидно.

А теперь к этому добавляются интерны, которые пишут ненаучно-фантастические рассказы о том, как ЛЛМ - это разумный организм, при том не имея ни малейшего представления о том, что значит слово "разумный".

Понимаешь, когда мы говорим о законе притяжения, то человеку, которому не особо верится в закон притяжения можно треснуть по башке кирпичём, и ему придётся поверить в этот закон. Или получить премию Дарвина.

А когда мы говорим о таких тривиальных терминах как разум или мысль, то у нас начинается идиотизм, просто потому что эти слова значат разные вещи для каждого, кто говорит. Это как будто ты подходишь к человеку, и спрашиваешь: "Как дела?" а он тебе "Хоршо!" (Ему комбат сказал спалить трупы в яме, а он вместо того, чтобы их палить, её закопал. И поэтому трупы не будут вонять. Поэтому ему хорошо). Или ты спрашиваешь у соседки, которая внезапно улыбается: "Кать, как дела?" "Хоршо!" (Она только что узнала, что её парень изменял ей с подругой, и подлавила этого парня на измене, поэтому он виноват. Но он не узнал, что она изменяла ему с Серёгой, поэтому ей хорошо, потому что он внезапно спалился первым.) Или ты спрашиваешь у ребёнка: "Как дела?" Он говорит: "Хорошо!". (Лета у нас только первый месяц, а через неделю можно будет на море поехать. Нет школы и можно играть в майнкрафт часами.)

Понимаешь, это разные "хоршо". И до смысла этих хоршо мы не докапываемся. Мы привыкли, что ответа нам достаточно.

Поэтому мы редко ходим и задаём вопрос: "Как ты думаешь?" и ждём ответа. "Расскажи, что происходит у тебя в разуме, когда тебе надо вспомнить, что ты ел позавчера".

Когда я увижу подобные вопросы и реальные ответы на них, тогда я могу подумать о том, что кто-то занялся созданием науки, которая может называеться наукой, а не написанием ещё одной книги на тему "Как я сошёл с ума, но смог это выдать за новую терапию".

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

По личным ощущениям, спорить сейчас с АИ-скептиками, примерно то же, что и с "плоскоземельцами". Т.е. в теории можно, но трудно и бесполезно, а значит и не зачем.
Ну и претензии к термину "Искусственный интеллект", мне кажутся странными.
Это термин, для инструмента, который решает интеллектуальные задачи. Даже тот механизм, который регулировал светофоры на перекрестках еще 10 лет назад, уже вполне себе был "Искусственный интеллект".
Вороны способны эффективно решать некоторые интелектуальные задачи. Читал, что в ряде экспериментов они это делали эффективней людей.
Т.е. у воронов есть механизм решения интеллектуальных задач. Зачем доказывать, что это не так, они не могут думать и не построят воронскую цивилизацию )?
Зачем цепляться к терминологии? Никто ведь и не пытается доказывать, что ИИ по человечески разумен.
Что касается сабжа, то как мне кажется, даже если будет доказано, что эффект "думанья", это та же китайская комната на максималках, это ничего в принципе не изменит.
Инструмент "ИИ" совершенствуется семимильными шагами. А то, что он так и не сможет себя осознать и составить нам конкуренцию, вовсе не кажется чем-то особо ужасным.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@Normaldini, Про плоскоземельщиков — в точку.

Я для себя делю пользователей AI на три лагеря:

  1. «Теоретики». Сами не пробовали, но уже точно знают, когда Скайнет нанесет удар. Их познания об AI обычно основаны на голливудских сценариях или интервью с "экспертами".
  2. «Разочарованные». Это как раз те, кто пытается скормить модели всю кодовую базу одним куском, а потом жалуется на «галлюцинации». Они, по сути, повторяют ошибку исследователей из Apple, о которой я писал: составляют некорректный «тест» и на его основе делают глобальные выводы, что «ИИ не работает».
  3. «Умелые». Те, кто понял, что это не волшебная кнопка, а инструмент. Они освоили логику его работы, научились работать с контекстом, промптами и знают, для какой задачи какой молоток лучше подходит.

Я сам постоянно встречаю представителей всех трех типов и потихоньку «вербую» их в третий лагерь.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Это указывает на фундаментальное ограничение их архитектуры. Это не просто нехватка знаний, а некий встроенный предел масштабирования мыслительных усилий.

За очень короткое время сделали колоссальный рывок в AI, агентской продуктивности, это факт. Вектор и так демонстрирует, что пошли правильно: объем + качество данных и увеличение мощности вычислений.
Вопрос ведь в том как заиспользовать и перестроить алгоритм инференса для LLM на работу по созданию гипотез, оценки их вероятности, как их хранить и управлять их верификацией. Вероятно для многих "жадных" задач придется генерировать гораздо больше данных чем в себя вмещает сама модель. А это уже быстрая внешняя память, компьют, оценки сложности алгоритмов. Но опять ни какой магии.

  Развернуть 1 комментарий

@salimonov, математически, пошли правильно, если честно этим и бесит.
Bitter Lesson и закон Каплана концептуально ложатся в очень ебанутую математику, которую я до сих пор сам пытаюсь переварить. Это теория сложности и сложных систем (complex systems theory), эмерджентность там вообще базовое понятие.

МОМЕНТ ДУШНИЛОВКИ: Условно говоря, если есть множество параметров Х, его подмножество Xi, некоторая мера сложности К как описания возможных состояний системы, то К(X) >> К(Xi) и это эмерджентность. И это всего лишь одно из формальных определений. Теперь выдыхем и уходим отсюда.

В итого да, с течением времени забросав вычислительными ресурсами, строя ебанутые нейросетки всё жирнее и жирнее, в этой системе чисто на уровне теории должны появляться неучтенные способности. В такой оптике результаты эпол говорят о недостаточном количестве слоёв, нежели о том, что "ыыы тупая машина не умеет думать".

И даже так, можно свести всё к метафилософским вопросам "а что такое думать, мыслить и логика", а там сиди доказывай что ты не верблюд и всё твое поведение человеческое не тупой паттерн-матчинг. И в это я даже с костюмом химзащиты не полезу.

  Развернуть 1 комментарий

@mighty_conrad, такого же мнения. По эмерджентности - согласен. Буду признателен если пошаришь пейперы или книги которые сам читаешь.

Про "что такое думать" специально умолчал по той же причине. Хотя исхожу из простого принципа, что информация из ниоткуда взяться не может, следовательно нужен compute для вывода производных из имеющейся. Чем больше неизвестных - тем больше комбинаций гипотез для решения. Хотя и "решения" может не оказаться.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@aachen, то, что нейросетки - универсальные аппроксиматоры говорит о точности. Возможно это будет даже более уместным в примере эпол, да. Я скорее про неучтенку говорю, когда по факту языковая модель сама по себе умеет в инпромптинг (задача находится в самих данных) и весь спектр NLP без целевой дотренировки на неё.

как показало время, очень сомнительный фреймворк

Я только пытаюсь complex systems theory понять, так что не знаю что там по соте и насколько она полезна/бесполезна сейчас. Буду рад почитать потом по теме.

  Развернуть 1 комментарий

@salimonov, я пытаюсь пока вот эту вот осилить, но это учебник и интро.

https://open.umn.edu/opentextbooks/textbooks/233

  Развернуть 1 комментарий
Maxim Pletner Software Application Engineer 17 июня в 15:27

Спасибо, что привел здесь не только развернутые положения оригинальной статьи (ее выводы уже набили оскомину чуть более чем всем), но и наиболее релевантный ответ - от Anthropic, я про него ничего не знал. Тут получилась embedded дискуссия сразу 😎

По существу бизнес-интересы обеих сторон более или менее понятны, а встречная критика как раз очень интересна и на пользу радикальным лагерям хайпа AI.

  Развернуть 1 комментарий
Nikita Inkin Бэкенд-разработчик 21 июня в 06:30

Ну если ИИ принципиально не справится с перечисленными проблемами (то, что после какого-то лимита токенов он начинает не просто как-то тупить, а фактически отказывается работать) и если для нормальной работы нужно будет всегда использовать какие-то магические промпты, то это будет очень грустный "интеллект".
Проблема с токенами в chatGPT например при повседневной работе постоянно возникает (причем ему на подписке plus как будто бы память уменьшили где-то в прошлом году), он ни документ на 20 страниц не способен перевести из пдф в пдф. После долгих уговоров и очистки контекста он документ таки переводит, но собрать в пдф по частям не в состоянии, собирает в итоге одну страницу и остальное "тут должно быть продолжение" и каждый раз пишет, что "в этот раз я точно не обманываю и абсолютно все страницы перевода прикрепил в документ".
Заставить его какой-нибудь зипник прочитать - это сложнее, чем подростка уговорить пойти на курсы вязания вместо свидания с девушкой.
Контексты проектов в его токенах уменьшаются куда скромнее, чем в голове кожаного мешка, что по на текущий момент делает его бесполезным, так как с коротким контекстом код и кожаный мешок может набросать, а ты попробуй в голове весь проект удержать и увидеть какие-то нюансы.

  Развернуть 1 комментарий

Все время относился к думающим моделям как к ллм со скрытым этапом генерации текста

Вместо
Получить запрос -> выдать ответ

Стало
Получить запрос -> сгенерировать цепочку ответов -> выдать финальный ответ

В какой то степени было бы интересно понаблюдать за историей про MoE, где один скажет что даже незначительные параметры могут повлиять на ответ, а другой что они уменьшают точность (это выдумал из головы просто как вариант споров)

  Развернуть 1 комментарий
Влад Клюев Дизайнер, js-разработчик. 17 июня в 13:30

Поверю в умение ллм-ками мыслить, когда увижу сгенерированное изображение бокала вина, наполненного до краев.

  Развернуть 1 комментарий

@crafted, В чате рисующих роботов их штуки три скидывали

  Развернуть 1 комментарий

@crafted, Т.е. ты не веришь, что некоторые люди мыслят, если они не умеют рисовать?

  Развернуть 1 комментарий

@alex_laskin, так рисование тут не при чем. Модели не понимают смысла запроса. В этом главная архитектурная проблема.

  Развернуть 1 комментарий

@crafted, Попросил llm сгенерить мне скрипт для openscad, который описывает бокал, полный в края. Результат намекает, что она прекрасно поняла смысл запроса. Просто рисует плохо.

  Развернуть 1 комментарий

@crafted, Это троллинг какой-то?)

  Развернуть 1 комментарий

@xonika9, о, прикольно. А что за модель?

  Развернуть 1 комментарий

@crafted, Это ChatGPT без подписки

  Развернуть 1 комментарий

@xonika9, мне не сделал такую, оставил видимый кантик.
Попросил нарисовать руку с 20 пальцами, нарисовала с 17.

  Развернуть 1 комментарий

@xonika9, а где на картинке стакан наполненный до краев?

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@xonika9, был одно время мем, что gpt не может сгенерировать наполненный до краев бокал вина, потому что в интернете изображений таких нет. Я пытался всеми способами заставить - не получилось.
Попробовал сейчас - уже получше, но все еще не может. На твоем примере тоже не наполненный до краев бокал.

  Развернуть 1 комментарий

@blackDog, та же история.

Уточнил запрос, чтобы он нарисовал бокал, из которого выливается вино. И он наривал полную чушню - эти брызги были очень популярны в свое время на фотостоках.

Ок. Решил попросить нарисовать, казалось бы, невозможное - перевернутый бокал с вином.

Получилось отлично. Я был очень удивлен, что вино реально под действием гравитации не прилипло ко дну стакана, а опустилось на стол. Уже начал радоваться, но быстрый гуглеж подобного запроса и получаем кучу фотографий перевернутого бокала. Опять мимо, короче.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@vlad_grigorev, топ. Какой запрос был?

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
  Развернуть 1 комментарий

В прошлую пятницу надо было съездить в офис энергетиков, утром спрашиваю думающую колонку: Алиса, сегодня рабочий день?
Да, грит, сегодня пятница, рабочий день.
Приехал, офисный центр во мраке, откуда-то из глубин коридоров раздаётся хихиканье искусственного интеллекта...

  Развернуть 1 комментарий

@Klalofu, Алиса тупая, ассистент из неё хуже чем из меня даже. А ещё твоя Алиса, когда играл с ней в города, через минут 15 просто выключила игру и отнекивалась, что у нас был батл!

  Развернуть 1 комментарий

@tetelevm, получается, зря мы боимся, что они победят нас на поле интеллекта!
Они победят нас на поле ЛЕНИ!

  Развернуть 1 комментарий

Красиво! Спасибо

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб