ИИ

Интерфейсы из научной фантастики скоро станут реальностью

Публичный пост

1 декабря 2023 2767

Leonid Khomenko

Будет много душнилова про технологии и парочка мемасиков, пристегивайтесь.

OpenAI keynote

В начале ноября OpenAI провели DevDay - конфу по важности похожую на выступления Джобса в эпоху взрывного роста мобилок. Оч плотно и сочно, как в старые добрые времена.

У Бена Томпсона (это топовый блог про тех сектор) есть классный разбор презентации. Меня там зацепила одна мысль - про Универсальный Интерфейс. Раньше не слышал этот термин, но в куче сайфай фильмов и всякой фантастике они постоянно встречаются.

Каждый раз с замиранием сердца смотрю как чуваки машут по воздуху рукамми, а комп греет видеокарты и выводит красивые картинки.

И вот читая статью понял, что походу мы довольно скоро доживем до чего то такого. Дальше расскажу почему это важно и какие еще мысли есть вокруг.

Universal Interface

На конфе рассказали про релиз GPTs - это новая итерация плагинов - возможность дообучить нейронку лучше справляться с какими то конкретными задачами. Например, анализировать таблички с данными или ходить по ссылкам и интернете. То есть не просто текст выдавать, но и что то делать. Например, искать ответ в куче записей в твоих заметках. Их теперь можно загрузить в нейроночку, да.

По сути это инструменты, которыми может пользоваться модель. Она отлично умеет в понимание и генерацию языка, но пока плохо справляется с более точными штуками типа математики. Так вот ребята из OpenAI научили модель звать на помощь внешние инструменты если сама не справляется.

У Глеба Кудрявцева недавно был пост (канал Глеба, он классный) что мне как юзеру про это все нахер не нужно знать. Сэм Альтман даже упомянул, что людей бесило поятоянно ручками выбирать плагины.

И вот они убрали плагины. И тут же добавили GPTs. С которыми.. опять нужно выбирать. Как было бы классно, чтобы все это было проинтегрировано и спрятано под капот. В... Универсальный Интерфейс!

Platforms

Статьи Бена Томпсона обычно оч плотно напичканы инфой. И еще он любит цитировать свои старые статьи. Короче, небольшое отступление.

Каждый стартап в Долине мечтает создать Платформу. Это когда твой продукт дает другим возможность причинять пользу на основе твоего. Платформы бывают разные, мне вот такое рзделение тут нравится:

1 . Консьюмерские - фокус на интересах конечного юзера. То есть стараются сделать максимально удобный пользовательский опыт, юзер-френдли интерфейс и вот это вот все.

Примеры это Инста, ФБ, Амазон, Спотифай, Нетфликс. Они обычно интегрируют у себя ВСЁ в единую экосистему и стараются сами напрямую приносить пользу юзеру.

2 . Девелоперских - тут фокус на том чтобы помочь другим разработчикам создавать приложения и сервисы для конечных юзеров. То есть это сервера, инструменты для деплоя, фреймворки, ну вы поняли.

Примеры - это винда и макОС, Андройд и Айос, Амазон AWS, GCP и другие облака.

Лучше Стива Балмера уже никто не сможет:

И вот тут инетресный вопрос, связаный с OpenAI DevDay. Представьте что вы молодой стартап. У вас нет сотен миллионов долларов на тренировку моделей и шестизначные зарплаты инженерам. И вот специально для вас OpenAI сделали API, продающий доступ к своим моделям и карточкам Майкрософта. Чтобы вы создавали свои продукты на платформе OpenAI.

И вот какой платформой вы как стартап хотите чтобы она была?
Наверное вы бы хотели с кайфом и дальше пользовать их API, ждать новых фичей у моделей, удешевления и прочего из презентации.

Но. Кажется, что Сэм Альтман строит не dev-centric как AWS, a consumer-centric платформу как Amazon (который маркетплейс, а не общая компания). В чем разница? А в том что в какой то момент вы проснетесь, а ваш сервис уже реализован в их экосистеме.

Clayton Christensen

Нужно больше отступлений!
Профессор Кристенсен извествен любим в долине за свою Теорию Инноваций.

Его интересовал вопрос, почему в тех секторе лидеры постоянно меняются. Почему из раза в раз мы видим как очередной Кодак проебывает очередной приход цифорвой фотографии. Из раза в раз, same story.

У него есть две теории дизраптящих рынок инноваций.

1 . Low-end disruption.

Это когда более простой и дешевый продукт заходит на нижнюю часть рынка, а затем постепенно продвигается вверх. Фокус на менее требовательных к фичам юзеров. Со временем качество растет и становится вполне ок для основных потребителей на рынке.

Лидеры рынка обычно хороши в своих продуктах - поэтому они и лидеры. Они умеют пилить фичи для приносящих бабки сегментов. И игнорят нижнюю часть рынка, потому что не интересно. Это дает новичкам возможность.

Классический пример - Hyundai начавшие с дешевых тачек. Или лоукостеры типа Southwest Airlines.

2 . New market disruption.

Это когда новый продукт создает совершенно новый рынок. Продукт традиционных лидеров лучше во всем, что нужно менстримному юзеру. Но если твой хорош в чем то другом, это привлекает в рынок новых юзеров, давая компании место для разгона.

Например, Tesla - изначально нишевый рынок EVs для экологически сознательных богатеев и техно-гиков. Но Тесла реинвестировала доходы в ресерч и сделала электрокары дешевле и круче. В итоге это переебало рынок и теперь олдскульные производители тачек на ДВГ сами начали вкладываться в EVs. К этому же типу относятся смартфоны и цифровые камеры.

Если ниче не понятно, но интересно разобраться, то вот тут норм обьяснение. Ну или читайте Книгу.

Идем дальше. Интересно, что Кристенсен чуток проебался, предсказывая проблемы у Apple из за low-end дизрапторов.

В своих исследованиях он насобирал много примеров из b2b рынков. А теория оказалась не особо применима к консьюмерским рынкам. Обычные юзеры не то чтобы очень рациональные. И подход Apple с вертикальной интеграцией всего-всего в замкнутую экосистему с ебейшим качеством и вылизанным пользовательским опытом до сих пор не дает отжать у себя рынок.

По фреймворку Майкла Портера у них стратегия дифференциации, дающая уникальность и привлекательность.. и возможность чарджить премиум цену.

Короче, юзеры в среднем больше предпочитают классный Customer Experience, а не низкие цены и кастомизируемость.

Divine Discontent

Сорян, еще одно ответвление, демонстрирующее ту же мысль.
Stay with me. Ща будет понятно к чему это все.

В отношении дизрапта я уже несколько раз слышал фразу "everyone read the book". Имеется ввиду Книга. Дилемма Инноватора Кристенсена, где он рассказывает про свои теории. Ну в этот то раз уже все ее прочитали и понимают что происходит.

Например, ответ Безоса - нужно нонстоп работать над пользовательским опытом. У Амазона другая модель, но похожий на Apple ответ. Амазон это платформа с ориентацией на ооочень широкий пул сервисов. Но тоже консьюмероцентричных.

Безос все эти годы старался внести в культуру компании идею, что требования юзеров постоянно растут. И что было охуенным вчера, сегодня уже минимально ожидаемый уровень.

Короче, снова - пользовательский опыт это оч важно.

Dushnilovo

Окей, UX matters, понятно. Как это связано с нейронками и презентацией?

Походу OpenAI хотят стать консьюмерской платформой, а не девелоперской.

И сделать универсальный интерфейс. Отполированый до невозможности и .. универсальный: он сам будет выбирать инструменты, когда чисто языковых способностей будет не хватать.
С максимално бесшовным вводом и выводом информации.

Почему так этого хочется?

Мы живем во время перемен. Такой асштаб встречался всего несколько раз за всю историю. Юваль Харари пишет про 3 значимые революции. На картинке ниже последняя - промышленная.

Она случилась когда мы научились аутсорсить физическую силу мышц машинам. Оказалось что комбайн намного лучше ебашит на поле, чем лошадки и мягкотелые крестьяне. Это вылилось в гигантское повышение продуктивности, сделавшее все, что было ранее экономически нежизнеспособным.

В сельском хозяйстве наличие тягловой лошади заменяет ~6 человек. Первые тракторы в эпоху промышленной революции уже ~15-20 человек. Современные культиваторы и комбайны ~500. Один фермер теперь может вспахать 100 гектаров полей за несколько дней. Раньше он бы за неделю справился дай бог с гектаром.

Люди круты тем, что научились использовать инструменты, повышающие физическую продуктивность в сотни раз.

А еще мы научились делать инструменты для вычислений, что открыло возможность автоматизировать почти все что угодно.

Мы дизайним и програмируем самолет лететь по воздуху и он делает это! В тысячи раз быстрее чем можем передвигаться мы. И в воздухе. И еще грузы перевозить. И это вообще рутина, которой никого не удивишь уже.

Уже того что есть сейчас хватает чтобы полностью преобразовывать отрасли. Посмотрите, что стало библиотеками после появления поиска. Со словарями после гугл транслейта, с таксистами после навигаторов и Убера итд. Библиотеки стали местом где ты на чиле можешь посидеть с ноутом и поботать. А бумажные книги удел винтажников и любителей запаха краски.

Но в силе кроется уязвимость. Мы растем, а все так же фундаментально ограничены доступными инструментами. И все время стремимся улучшать их. Рост продуктивности высвобождает ресурсы, ресурсы тратим чтобы придумать еще более классные инструменты.

Компы, интернет и мобилки ускорили то как мы учимся и обмениваемся знаниями. Мы все больше полагаемся на цифровой мир как на свой инструмент. Мы почти киборги - меч самурая (клавиатура) уже настолько завязан с нейронами в мозгу, что это почти продолжение нас самих.

Но наши интерфейсы взаимодействия с цифровым миром не то чтобы супер эффективные если сравнивать с контескстом 100 кратного буста предыдущий революции. Все еще используем тот же язык, что и тысячи лет до нашей эры. И с помощью этого языка, глаз и десяти кожаных колбасок пытаемся взаимодействовать с информацией. Это медленно и не супер точно.

Слова это всегда только приближение (аппроксимация) мысли. Когда выражаешь мысль словами, как будто сжимаешь ее архиватором. И естественно теряешь информацию при сжатии. Особенно это тяжко при общении с другими. Мозгу нужно моделировать чужой мозг, чтобы понимать как сжимать и разжимать без сильных потерь.

Распознавание чужих слов основано на своем предыдущем опыте. Утеряные при архивации туда-обратно нюансы ты додумываешь на основе похожести с тем, что испытывал ты сам. И если у тебя не было похожего опыта - потери будут сильными.
Кажется именно из за этого так сложно промптить модели. Ведь GPT очень мало знает о нашем контексте и о том что мы думаем. И вынуждена догадываться об этом через слова в промпте.

Жопа горит с такой неэффективности. Кажется мы уже не вывозим обьемы информации с которыми нужно взаимодействовать.

Стало физически невозможно читать все статьи по твоей научной области, их слишком много. Люди все еще не научились качественно коммуницировать друг с другом по важным вопросам. То что было в ковид или политическая поляризация в америке хорошо это иллюстрируют. Мы не умеем нормально общаться.

Короче, старая революция была про аутсорс физической силы машинам. Новая будет про аутсорс машинам когнитивных задач.
И нам явно не хватает пропускной способности чтобы с этим справиться.

Integration

Раньше уже были попытки делать голосовых ассистентов. И как то не очень удачно. Пока что самые популярные юзкейсы там - это проверить погоду и напомнить о созвоне. Что то более сложное чаще всего выливалось в давайте я поищу это а вас в интернете.

Но вот в последние годы, есть классные продвижки по всем составляющим такого интерфейса.

Синтез и распознование голоса стали невероятно хороши после появления Wavenet и Whisper.
В новых очках от Меты можно выводить браузер прямо на поток от камеры. Чувак поставил теслу на зрядку и работает как в хоумофисе:

https://www.youtube.com/shorts/Yvtr79J6--c
Почему видео не встраивается, блэт?

И вот OpenAI через GPTs видимо дойдут до решения кейсов по всяким бытовым но понятным штукам.

Типа помоги покушать заказать. Эти ваши приложения доставки.. когда нибудь было такое, что листаете и ничего выбрать не можете? Слишком много выбора.

Навигатор лучше любого водителя знает как быстрее куда то доехать. Почему с едой не так? Просто закажи мне пиццу или еще что нибудь пожалуйста, ты лучше меня знаешь что из этого будет збс. Или дай выбор из пары вариантов, чтобы не терять чувство того что я все еще могу контролировать свою жизнь.

Постепенно он разовьется в коммерционализированную версию Джарвиса из Железного Человека.

Marketing

Напоследок хочу набросить немножно: как будет выглядеть маркетинг в мире универсального интерфейса?

Сколько денег моя пиццерия будет готова заплатить, чтобы понравиться нейросети, выбирающей что сегодня покушать?

А на компанию-владельца нейронки будут с другой стороны давить те же финансовые стимулы какие были перед Гуглом и Фейсбуком.

В прошлый раз закончилось это тем, что из-за SEO в интернете стало невыносимо больно что то искать. Что мы больше не доверяем брендам и отзывам. Инстаграмм и ТикТок настолько затягивают, что даже появилась метрика non-regrettable timespent.

Остроты еще докидывают вопросики к этичности Сэма Альтмана. Поесле его увольнения и возвращения наткнулся на слухи, что с Полом Грэмом из YC они не то чтобы на хорошей ноте расстались. Хотя как руководителя он его уважает и не просто так президентом сделал.

Короче, в душе не ебу что будет, если честно.
Но очень интересно.

Смотрите вот как чувак роботом управляет:

А вот как на через голос можно управлять нейронкой-агентом, чтобы она что то сделала:

https://www.youtube.com/live/U9mJuUkhUzk?si=0FciCeWAwZU3rqxx&t=2398

Посмотрите видео, это реально почти Джарвис уже.

А так, спасибо за внимание, можно отстегиваться.

Связанные посты

Кто побеждает в борьбе за технологии и что изменилось в AI с приходом опенсорса

20 комментариев 👇

Сергей Герасимов программист 1 декабря 2023

Круто, спасибо!

Слова это всегда только приближение (аппроксимация) мысли. Когда выражаешь мысль словами, как будто сжимаешь ее архиватором. И естественно теряешь информацию при сжатии. Особенно это тяжко при общении с другими. Мозгу нужно моделировать чужой мозг, чтобы понимать как сжимать и разжимать без сильных потерь.

Вот тут я не уверен что это так. Есть достаточно давние предположения, что пока мы не вербализовали мысль, мы на самом деле её ещё не сформулировали, а наше понимание только кажущееся (я не найду сейчас пруфов, но это известный приём при обучении - пока не смог своими словами сформулировать какой-то новый концепт, желательно ещё и вслух -- ты на самом деле ещё его не понял).

Хотя факт того, что у тебя и собеседника есть некий общий контекст понимания мира тоже крайне трудно переоценить.

Развернуть 1 комментарий

Oleg Brezhnev 1 декабря 2023

@hauu, мне кажется это оч взаимодополняющие взгляды. Типа оказывается, что наш диалог с самим собой не сильно отличается от диалога с кем-то внешним.
Мы же в процессе размышления тоже занимаемся аппроксимацией размытых образов. Так же в голове у внешнего человека наши слова придают форму какому-то образу. И это две разные формы)

Развернуть 1 комментарий

Leonid Khomenko 2 декабря 2023 автор

@hauu, понял на какое исследование ты ссылаешься. Ты прав, я кажется когда писал, больше имелл ввиду контекст вокруг мысли, а не саму мысль.

Типа, когда в отношениях ссоришься, кричишь словами "твоя проблема в том, что..."

А на самом деле за этой фразой столько эмоций, обиды, невысказанных протребностей, воспоминаний. Мозг хорошо в ассоциативсть умеет, так что с этой мыслью куча всего связано. Того что может быть и вызвало всю мысль. И это все не передается через речь.

Развернуть 1 комментарий

Сергей Герасимов 2 декабря 2023

@leeaao, даа, это когда начинаешь отслеживать, поражаешься иногда какие штуки вылезает (а сколько ещё их не замечаешь, потому что даже не знаешь что именно отследить)

Развернуть 1 комментарий

Константин Бузановский 5 декабря 2023

@hauu, Это не совсем так, но принцип верный. Мышление у нас "символьное", а касаемо вербализации, отличный довод от лингвиста по образованию Тома Скотта, видос здесь

. Символ, проекция того, что ты хочешь сказать, есть, но вот слов может не оказаться.

Развернуть 1 комментарий

Иван Горбунов Frontend Писака 1 декабря 2023

Мне понравилось, спасибо за поездку!

Развернуть 1 комментарий

Leonid Khomenko 1 декабря 2023 автор

@jhonny_sweets, пасиба, приятно

Развернуть 1 комментарий

Михаил Полыковский Lead python developer 4 декабря 2023

Немного не стыкуется первая часть "все интерфесы медленные, словами через клавиатуру", и вторая "вот теперь будут крутые интерфейсы, словами через рот". Это та же самая архивация, просто канал другой. Новый интерфейс - это скорее Neuralink.

Развернуть 1 комментарий

Leonid Khomenko 4 декабря 2023 автор

@glader, частично согласен про архивацию, хотя скорость все же минимум в 2 раза выше.

А это кмк дает фичи типа возможности наговорить больше контекста.

Плюс голос это только часть интерфейса.
Наговорил как получится, а нейроночка сама фразы в нормальные команды собрала. И еще уточнила: "ты же имелл ввиду вот это и вот это, да?" А дальше агентная часть - она сделала еще что то, какой нибудь код запустила итп.

Ну а Нейролинк действительно хочется, но пока нужно подождать.

Развернуть 1 комментарий

Maxim Kоbetz JavaScript Software Engineer 1 декабря 2023

С одной стороны это круто, с другой - похоже фронтендерам пора переквалифицироваться

Развернуть 1 комментарий

Oleg Brezhnev 1 декабря 2023

@MaximmV, блин, я надеюсь там в будущем будут нормальные профессии типа космический контрабандист, нейромансер или бэкендер. Не пропадем тогда

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Leonid Khomenko 2 декабря 2023 автор

@MaximmV, кажется на текущем этапе нейронки намного больше помогают начинающим специалистам. И где то читал, что ухудшают перфоманс крутых.

Дальше наверное начинающие будут не то чтобы нужны. Полная замена и автоматизация.
А крутые спецы будут либо human-in-the-loop, либо будут решать какими то очень нишевыме задачи близкиме к миру юзера. Типа там где важен личный контакт, впечатления и эмоции от общения.

Развернуть 1 комментарий

Oleg Brezhnev Фуллстек-Разработчик 1 декабря 2023

Очень круто написано, спасибо :3

Развернуть 1 комментарий

Denis Borisevich Senior Paradeiser ✖ Команда Клуба 4 декабря 2023

А можешь скинуть ссылку на первый видос, пожалуйста? Попробую через ВПН какой глянуть, а то для Австрии он почему-то недоступен...

Развернуть 1 комментарий

Leonid Khomenko 4 декабря 2023 автор

@dennisfen, хм

Можешь попробовать в ютубе найти: Iron Man 3 Virtual Crime Scene Reconstruction
Вот ссылка на то что у меня www.youtube.com/watch?v=DkMptLZIk_g&ab_channel=REDLionMovieShorts

Развернуть 1 комментарий

Павел Грязнов Кодю на Go 4 декабря 2023

Скажи, а откуда график communication speed today? Исследование какое-то?

Развернуть 1 комментарий

Leonid Khomenko 5 декабря 2023 автор

@grbit,
я взял из статьи Тима Урбана https://waitbutwhy.com/2017/04/neuralink.html
А он от ресерчера "Moran Cerf has gathered data on the actual bandwidth of different parts of the nervous system" но на конкретную статью ссылки нет.

В комментах тут есть оттуда график с циферками

Развернуть 1 комментарий

Павел Грязнов 5 декабря 2023

@leeaao, Спасибо большое!

Развернуть 1 комментарий