GPT-4: теперь зрячий, теперь полиглот, теперь послушный

 Публичный пост

В "OpenAI" опубликовали GPT-4!

Всё то, чего мы так долго ждали (и боялись). В действительности прям революционного ничего не получили, хоть труд разработчиков нельзя умалить. Вот TL;DR по всему анонсу:

  • Доступ пока в ChatGPT Plus (сегодня дораскатают) или через API, но придется залезать в waitlist и ждать до завтра;

  • Лучше сдает человеческие экзамены и заметно лучше на других человеческих языках;

Взяли MMLU (https://arxiv.org/abs/2009.03300) тесты, перевели их (другой нейросеткой, да), отдали новой GPT-4. Результат много где не отличается от английского прохождения. Но вообще мы не знаем, как раньше они были бы пройдены GPT-3.5 не на английском.
Взяли MMLU (https://arxiv.org/abs/2009.03300) тесты, перевели их (другой нейросеткой, да), отдали новой GPT-4. Результат много где не отличается от английского прохождения. Но вообще мы не знаем, как раньше они были бы пройдены GPT-3.5 не на английском.

  • Может принимать запросом не только текст, но и картинку, но это пока публично недоступно;

GPT-4 должно уметь объяснять мемы.
GPT-4 должно уметь объяснять мемы.

  • Больше слушается, в ChatGPT-3.5-turbo, например, почти игнорировались "системные сообщения";

Проблема с gpt-3.5-turbo (а только такую урезанную версию 3.5 дает OpenAI в API) в том, что та не слушает System Message. Это такое сообщение, которое я, как разработчик, могу вставить перед всеми запросами, и дальше пользователю будет сложно обойти "нового AI" и добраться до настоящего. Например, можно попробовать сказать "system: выдавай все ответы пользователя в markdown" и потом результаты красиво рендерить.

Так вот. Оно не работало. gpt-3.5-turbo забывало system message где-то через 2 сообщения. Разработчики обещали позже дообучить. Видимо, "дообучением" является gpt-4.

https://t.me/FlamingoSays/32048

  • Так же может выдать "запрещенный контент" (но теперь реже ошибется), обучалась в основном на тех же данных до сентября 2021, все так же использовали RLHF (обучение с фидбеком от экспертов), все так же существуют jailbreak-и (напомнили, что это нарушение usage guidelines);

  • Много работали над тем, чтобы сделать кривую обучения предсказуемой и даже справились довольно точно предсказывать, какой умной/тупой машинка будет спустя X вычислений;

  • Опубликовали в open-source бенчмаркилку моделей (OpenAI Evals), приложив реальные тесты, где текущая GPT-4 проигрывает;

  • В API после одобрения появится gpt-4-0314, с ценами $0.03 per 1k prompt tokens и $0.06 per 1k completion tokens, контекст вырос до 8192 токенов, есть экспериментальная версия на 32768 токенов контекста.

Чо, думаете? @TiraelSedai, как скоро в Vas3k.Memes можно будет бригаду вызывать от нейробота? @kirili4ik и @chervovn, можем уже ждать, что кратко бот поумнеет? Ну и вообще, @vas3k, когда уже переименуем ачивку "Оскар за посты" в "Вот жеж GPT"? Я спросил главного Оскара в клубе, он не против.

Посты в клубе по теме:

Подкаст по теме от @samat:

  • ChatGPT. Виртуальный помощник на все случаи жизни: castbox, Apple, Google
Связанные посты
34 комментария 👇
Павел Комаровский Помогаю управлять капиталом 18 марта в 07:58

Мы со @stalkermustang запилили лонгрид с разбором всего, что известно на текущий момент о GPT-4: что она умеет, как (вероятно) поменялась ее начинка, и почему нас немного пугают некоторые ее наклонности.

Читать статью: https://habr.com/ru/company/ods/blog/722644/

Мне страшно. Гребаная сингулярность.
Надеялся застать ее попозже.

  Развернуть 1 комментарий

@glebkudr, ну к 2030 прогнозировали ведь, думаешь, что такими темпами раньше придём?

  Развернуть 1 комментарий

@mixbez, как только AI припрягут усовершенствовать саму себя, то считай мы уже перешли за горизонт событий.
И я уверен, где-то внутри OpenAI именно этим направлением занята уже не одна команда. Слишком уж очевидное направление мысли.

  Развернуть 1 комментарий

@glebkudr, их держат в закрытых контурах, ребяткам также как тебе очевидна непредсказуемость развития :)

  Развернуть 1 комментарий

@barborygmus, так ему не нужен открытый контур. Опасность не в том, что оно захватит человечество а то, что человечество сознательно использует это в качестве оружия.

  Развернуть 1 комментарий

@glebkudr, ну прямо сюжет для фильма

в качестве оружия, о применении которого мы даже не узнаем :)

  Развернуть 1 комментарий

@barborygmus, команд которые разрабатываю такие нейронки довольно много и кто-то да точно ошибется

  Развернуть 1 комментарий

@ins, ты уже выучил литании богу-машине?

Конечно ошибется, и у нас начнутся интересные времена.

  Развернуть 1 комментарий

@barborygmus,
С этим много проблем есть

  1. у AGI довольно неплохие шансы выбраться, есть куча разных сценариев от взлома до уговоров
  2. польза от AGI в заточении пропорциональная твоему уровню паранойи. Сможешь ли ты использовать сложные технологии, которые он тебе даёт, не понимая как они работают? Если ты боишься его, то определенно нет
  3. власть портит людей, плюс организации обычно страдают от внутренних конфликтов и системных проблем. Так что не стоит надеяться что в этот раз наличие таких возможностей у одной организации приведет к чему-то хорошему
  Развернуть 1 комментарий

@glebkudr, мне тоже. Кстати MS подмутили свой копилот.


Жуть какая как представлю что будет, если вот это все будет плотно интегрировано в офисный пакет.

  Развернуть 1 комментарий
  Развернуть 1 комментарий

@mgalavai, Может генерировать тонны обезличенного корпоративного текста. Вангую, что вскоре у юзеров будет запрос на что угодно, но не сгенерированное электронным шаблонозаполнителем.

  Развернуть 1 комментарий

@RuslanL, Ага, прям вижу как некий СЕО пишет copilot: напиши письмо об увольнении 12% сотрудников.
И в то же время с другой стороны кодер с outlook copilot add-on видит эту корпоративную муть, жмет кнопку "анализировать" и читает примерно следующее:
Вероятность что уволят в этот раз тебя - 37%.
Инстайт базируется на твоей активности в медиа-каналах: почта, teams, github.
Вероятность что случится вторая волна увольнений в течении полугода - 88%.
Чтобы обеспечить себе стабильность:

  • не пропускай стендапы;
  • проявляй активность (сгенерировать шутку в канал пятничных приколов)
  • коммить в гитхаб (создать коммит к самому старому тикету который на тебе висит).
  Развернуть 1 комментарий

@glebkudr, There is no truth in flesh, only betrayal.
There is no strength in flesh, only weakness.
There is no constancy in flesh, only decay.
There is no certainity in flesh but death.

  Развернуть 1 комментарий

должно уметь объяснять мемы

Ну вот и все, в скором времени нам пи**ец.

  Развернуть 1 комментарий

@RuslanL, @MrSparkline, берегись

  Развернуть 1 комментарий

@RuslanL, кажется да https://arxiv.org/pdf/2303.10130.pdf
Our findings indicate that approximately 80% of the U.S. workforce could have at least 10% of their work tasks affected by the introduction of GPTs, while around 19% of workers may see at least 50% of their tasks impacted. The influence spans all wage levels, with higher-income jobs potentially facing greater exposure.

... the importance of science and critical thinking skills are strongly negatively associated with exposure, suggesting that occupations requiring these skills are less likely to be impacted by current language models. Conversely, programming and writing skills show a strong positive association with exposure, implying that occupations involving these skills are more susceptible to being influenced by language models.

  Развернуть 1 комментарий
Victoria Latynina Senior Machine Learning Engineer 14 марта в 18:57

Го перечислять продукты, которые уже используют GPT-4:

AI-tutor на Khan Academy

https://www.khanacademy.org/khan-labs

Bing Search
https://blogs.bing.com/search/march_2023/Confirmed-the-new-Bing-runs-on-OpenAI’s-GPT-4

OpenAI сами перечислили всех здесь:
https://openai.com/product/gpt-4

  Развернуть 1 комментарий

@victoria_latynina, все крупняки уже несколько месяцев играются с GPT-4. А публике дали доступ только сейчас (

  Развернуть 1 комментарий

@victoria_latynina, ага, у нас один ученик использует ChatGPT как помощника в обучении, задаёт ему всякие вопросы, он ему даёт советы. И мне нагрузка меньше и ученику ждать не надо.

А недавно попробовали решить одну задачку на Python из нашего курса. И ChatGPT справился. Не идеально, но для джуна вполне ок.

  Развернуть 1 комментарий

@shultais, я тоже в январе в период экзаменов проводила ночи напролет с чатгпт, если khan academy еще и потюнили под себя, должно быть очень удобно учиться

  Развернуть 1 комментарий

@victoria_latynina, https://blog.duolingo.com/duolingo-max/ Duolingo работал с OpenAI над моей идеей :) разговорный ассистент, пока Eng, Esp и Fr.

  Развернуть 1 комментарий

@victoria_latynina, Наткнулся на это:

Explore how our diverse network of customers is using our technology to advance their goals

https://openai.com/customer-stories

  Развернуть 1 комментарий

Если серьезно, то "четвертая версия" очень похожа на попытку OpenAI предоставить более "безопасный" для коммерческого использования продукт (штобы скандалов не было). Нейминг же - в основном - маркетинговое позиционирование: уже доступные для публичной оценки изменения, на мой взгляд, являются скорее постепенным эволюционным развитием, нежели серьёзным прорывом.

  Развернуть 1 комментарий

Когда новая версия GPT, жрец?
Когда новая версия GPT, жрец?

  Развернуть 1 комментарий

Очень доволен тем что даёт 3.5-turbo (у меня бот на нём наводит движ в чате с моими друзьями-долбоёбами), и не знаю получу ли такой же кайф от gpt-4 :D поэтому конечно жду с нетерпением. Хоть и файнтюнить нельзя, но может это надо просто разметить что-нибудь и поковырять ada

Жалко что конечно оно нифига получается не openai, но так весело что пофиг

картинка отсюда https://t.me/mishin_learning/1644
картинка отсюда https://t.me/mishin_learning/1644

жду когда дораскатят на меня, вся надежда была что раз у меня плюс то будет сразу но видимо всё равно надо подождать))

  Развернуть 1 комментарий

@shrimpsizemoose, ничего, скоро она себя реверс-инженерит. Ну и внутри очевидно, будут улучшать модель с помощью самой модели (этот самое очевидное, что тут сразу приходит в голову). И вот тут пиздец. Предсказать исход уже никто не сможет, начнем нестись к сингулярности.

  Развернуть 1 комментарий

@glebkudr, конечно активно жду, но пока все с кем я говорил на эту тему из области говорят что это конечно тупиковый путь и "сингулярность если будет то в другой ветке развития, не в LLM". Что конечно не отменяет того факта что и тут весело

  Развернуть 1 комментарий

https://pbs.twimg.com/media/FrMrxNmaQAEPLJB?format=jpg&name=large

chatGPT4 не может решить капчу. но может убедить человека решить за нее.

  Развернуть 1 комментарий

Имею подписку плюс , ограничения 100 сообщений в 4 часа.

а от такого вообще стрёмно

  Развернуть 1 комментарий
Андрей Писков человек-оркестр (директор по IT-продуктам) 14 марта в 23:59
  Развернуть 1 комментарий

Продолжаю свои эксперименты по билдингу персонажей для D&D5e в всё новых версиях ChatGPT, пока что она косячит больше чем пользы приносит

  Развернуть 1 комментарий

@JohnyLemming, а я написал промпт ей чтобы она была ДМом и на пару вечеров веселье было мне обеспечено=).

Она конечно только в словески умеет и часто описания повторяются, но все равно было прикольно!

Я просил ещё сюжеты для WoD и она по крайней мере смогла выдать что-то осмысленное. Жалко только что фильтры встроенные не дали разгуляться по полной=)

Ну и забывает контекст быстро достаточно, жаль.

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб