🤖 Объясняем, как работает ChatGPT, в стиле Вастрика
Публичный постКак родилась эта статья: в какой-то момент я обратил внимание на то, что несмотря на дикий хайп последних нескольких месяцев вокруг ChatGPT, никто до сих пор так и не опубликовал на русском объяснение понятным для не-технарей языком - как это всё безобразие вообще работает. Что странно! Ведь такая статья стала бы гарантированным хитом.
Я поделился этим наблюдением со своим другом Димой @kisma, с которым мы раньше работали вместе аудиторами, а потом он успешно свитчнулся в дата-саенс. И он скинул мне ссылку на статью Игоря Котенкова на Хабре - которая сама по себе прекрасна, но явно рассчитана скорее на технарей-айтишников, а не на широкую публику.
В итоге я просто написал Игорю @stalkermustang в личку, типа "привет, ты меня не знаешь, го писать статью!" И сразу оказалось, что он на меня уже давно подписан, и был бы рад поработать вместе - вот так всё и завертелось. Вообще, это один из крутейших плюсов быть относительно "известным" блогером - можно предлагать незнакомым интересным людям делать всякое вместе, и они весьма нередко соглашаются. =)
Подход к статье
Как я сказал Игорю - мне хотелось бы, чтобы статья была хоть немного похожа на то, как @vas3k блестяще разложил для обычных людей на пальцах, как работает блокчейн. Ну, единственное - совсем уходить в "шестереночную модель" в базовой обзорной статье не хотелось, так как иначе получился бы вообще неподъемный какой-то мега-лонгридище. Но хотелось сохранить вот этот "feel", что ты прочитал статью - и теперь понимаешь на уровне общих концепций и каких-то понятных аналогий, что примерно происходит внутри этих самых языковых моделей.
В итоге мы очень много времени потратили с Игорем на обсуждение общей структуры и формата статьи - в общей сложности провисели на телефоне не меньше часов четырех, я думаю. Игорь всё время накидывал мне кучу каких-то мега-интересных подробностей и нюансов - а я всё время отвечал "это слишком сложно... объясни мне, как будто я совсем тупой!" и пытался понять, как всё это превратить в какой-то связный сторилайн, который будет являться одновременно и интересным/развлекательным, но при этом чтобы читатель постоянно узнавал/осмыслял новые важные факты о языковом моделировании.
У нас в конце концов получилась довольно хитрая структура: главная нить повествования завязана вокруг таймлайна эволюции моделей семейства GPT, а отдельный суб-плот посвящен попытке в максимально простых терминах объяснить, как работает нейросетка, и какие там есть основные этапы ее запиливания (на уровне "сбор данных => тренировка => генерация => дообучение"). Нам пришлось прямо поломать голову, как всё это увязать таким образом, чтобы все части вытекали друг из друга, и в каждом месте текста было понятно - что конкретно ты читаешь, и почему.
Некоторые мысли в завершение
Я прямо сильно кайфанул от совместной работы с Игорем - сначала я думал, что всё кончится форматом "эксперт написал текст, а я напихал туда мемов", но в итоге мы оба довольно существенно вложились в материал, и мне тоже пришлось поскрипеть мозгами и попереписывать много мест, чтобы получился правильный баланс сложности/увлекательности. (А Игорь, кстати, подкинул целый ряд хороших мемов, в свою очередь.)
По моим ощущениям - это самая интересная статья, над которой мне довелось поработать за последний год. Если она не станет хитярой - то я даже вообще не знаю, совсем разуверюсь тогда в моем паучье-журналистском чутье!
Кстати, не забудьте подписаться на ТГ-канал Игоря Котенкова Сиолошная про искусственный интеллект и современные технологии - там местами бывает довольно технично, но даже мне (совсем не-айтишнику) большинство постов кажутся весьма понятными и интересными.
И еще: если вы крутой спец в какой-то дико интересной теме, в которой мало кто глубоко разбирается, и вы хотите тоже сделать интересный коллаб в формате статьи - смело пишите мне, может сможем что-то сделать классное, если совпадем по интересам. =)
Читать саму статью про ChatGPT: https://habr.com/ru/company/ods/blog/716918/
Мы со @stalkermustang запилили лонгрид с разбором всего, что известно на текущий момент о GPT-4: что она умеет, как (вероятно) поменялась ее начинка, и почему нас немного пугают некоторые ее наклонности. В каком-то смысле это продолжение к статье про эволюцию моделей GPT!
Читать статью: https://habr.com/ru/company/ods/blog/722644/