chatGPT вместо дата аналитика

Публичный пост

14 марта 2023 2344

Роман Гайлит

Все видели как GPT пишет SQL, который мы можем скопипастить и выполнить в IDE (главное чтобы он еще был правильный и учитывал схему БД).

Я пошел дальше в вопросе освобождения людей от различного рода умственных нагрузок (и рабочих мест) и написал (с помощью chatGPT, конечно) техническую демку, которая делает аналититку в БД за вас, ей только нужны:

креды от вашей БД ~~и номер кредитки~~ . Но можно просто юзать мою, специально подготовленную для этого демо (креды вшиты);
непосредственно ваш вопрос по поводу данных там хранящихся (сформулированный простым человеческим языком).

Приложуха подумает и выдаст ответ в виде таблички (прям как дата-аналитик кидающий в вас excel файл).

Потыкать на тестовой БД с типичными sales данными можно тут (переодически крашится, но чаще работает)
Код лежит тут

PS: привычка перезапустить неработащий код еще раз в надежде, что "на второй раз точно заработает" тут не является чем-то порицаемым, а скорее must have если вы встретили ошибку. ChatGPT каждый раз генерирует разный подход к решению задачи, так что на второй раз часто действительно работает...

Примеры:

Несложный запрос с парой джойнов

Любимые оконные функции для финансистов

Очередной финансовый запрос с накопленным итогом

Когда в БД нет колонок содержащих необходимые данные, chatGPT додумывает фильтрацию сам

GPT делает предположение о том как оставить только "west states"

Комментарии, критика, скрины с крашами -- welcome в комменты

51 комментарий 👇

Alexey Sviridov Full Stack Web Dev 15 марта 2023

Прости, похоже не следовало мне просить ChatGPT дропнуть все таблицы и все данные у тебя в базе...

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Роман Гайлит 15 марта 2023 автор

@AlexSv, прощаю, у юзера read-only доступ :)

Развернуть 1 комментарий

Evgenii Kochanov Анализирую данные 16 марта 2023

Но может ли твой робоаналитик делать это?

Развернуть 1 комментарий

Роман Гайлит 16 марта 2023 автор

@kochanoff, мой может сделать вот это. Сори если получилось токсично (это все chatGPT виноват)

'9:00 AM' 
'Evgenii arrives at work, 15 minutes late as usual. He fires up Excel and starts browsing Reddit for pixel-art memes inspiration.' 

'10:00 AM' 
'Evgenii gets coffee and snacks from the kitchen. He spends 20 minutes in the break-room explaining to his coworkers how he is working on an Excel pixel-art masterpiece featuring the cast of The Office.' 

'11:00 AM' 
'Evgenii finally starts working on the pixel-art masterpiece. He spends an hour zooming in and out of cells, coloring them with the palette of a rainbow, obsessively trying to make each pixel perfect.' 

'12:00 PM' 
'Evgenii takes a lunch break. He spends the entire time showing off his Excel pixel-art masterpiece to his coworkers, even though they are clearly not interested.' 

'1:00 PM' 
'Evgenii returns to his desk and continues working on the pixel-art masterpiece. He spends 45 minutes trying to make a pixelated Michael Scott smile look more like Steve Carell.' 

'2:00 PM' 
'Evgenii gets an email from his boss telling him to come to his office. His heart sinks as he knows what is coming. He packs up his Excel pixel-art masterpiece and heads to the office.' 

'3:00 PM' 
'Evgenii leaves the office, carrying his box of belongings, including his Excel pixel-art masterpiece, and feeling ashamed of his procrastination. He realizes the hard way that procrastination does not pay off.'

Развернуть 1 комментарий

Evgenii Kochanov 16 марта 2023

@raymany, тупой железке нечем крыть, перешла к оскорблениям!

Развернуть 1 комментарий

Саша Березовский Дата аналитик 15 марта 2023

Ну ок, мы получили человека, который пишет не запросы в SQL, а запросы в ChatGPT. И это, на самом деле апликабл к куче профессий, не только дата аналитика.

А дэшборды в PowerBI или Табло бизнес давно сам умеет строить.

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Роман Гайлит 15 марта 2023 автор

@Nol, На моем лично опыте, нет, бизнес скорее НЕ умеет :(

Максимум, могут на человеческом языке сформулировать что им нужно в качестве output (и то не всегда успешно).

Так что такой инструмент как выше потенциально может быть очень кстати как self-service для бизнеса

Развернуть 1 комментарий

Саша Березовский 15 марта 2023

@raymany, согласен, некоторый бизнес не умеет. Но неужели ты думаешь, что этот самый неумеющий бизнес пойдет что-то там в ChatGPT морочиться. Он скорее человеку, который готов заморочиться скажет устно, какой дэшборд на выходе нарисовать.

Хотя, так или иначе ChatGPT-подобные штуки скормят массам (и нам тоже) поисковики в качестве колдунчиков. Еще мне лично нравится идея применения для саммари текстов.

А в корпе менеджеры вокруг меня умели сами строить себе и дешборды и эксельки.

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

💀 Юзер Удалился 18 марта 2023

@alexadamenko, предсказываю, что все пойдет не так: более квалифицированные продолжат осваивать новейшие инструменты, включая ChatGPT; а менее квалифицированные так и не освоят, неинтересно им.

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Gleb Kudriavtcev 16 марта 2023

@Nol, не умеет бизнес нихрена. Табло тормозной и очень сложный для освоения простыми пользователями.

А вот чатжпт это то что нужно для данных целей. Ибо с ним можно говорить бизнес-абстракциями и он их поймет, даже если они плохо выражаются в структуре бд.

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Саша Березовский 20 марта 2023

@glebkudr, @alexadamenko, @hk5WFPBy4fzE5bqO, убедили. :)

Развернуть 1 комментарий

sergey runov 21 марта 2023

@Nol, картинка божественна

Развернуть 1 комментарий

Катерина Сингаевская data analyst 15 марта 2023

Как человеку, работающему в большой корпорации, мне лично не совсем пока ясно, как работать с chat-GPT, когда ты имеешь дело с чувствительными данными, с которыми ты обычно работаешь только в защищенной среде. Ты не можешь просто скормить их внешней программе. Есть идеи как это может работать "безопасно"?

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Daniil Olshevskiy 15 марта 2023

@dpakonrojo, скажи ему, что данные очень чувствительны и на них нельзя смотреть и куда-либо сохранять!

Развернуть 1 комментарий

Роман Гайлит 15 марта 2023 автор

@dpakonrojo, как верно заметил @sobolev , скармливается исключительно схема: имена таблиц и колонок. Блок See introspected BD structure -- это ровно то (и не более) что видит ChatGPT при обработке запроса (ну еще ваш запрос разумеется).
Подробнее как формируется промпт можно посмотреть в коде

Развернуть 1 комментарий

Саша Березовский 15 марта 2023

@dpakonrojo, мне кажется корпа купит себе свой проприетарный инстанс ChatGPT (или аналога) и будет работать.

Развернуть 1 комментарий

Захар Кириллов 16 марта 2023

@Nol, в Ажур уже завезли OpenAI как компонент КогнитивСервисез, так что да, скоро можно будет запускать приватные инстансы.

Развернуть 1 комментарий

Ярослав 17 марта 2023

@dpakonrojo, скармливать ИИ схему + синтетические данные и тянуть готовые queries себе в среду, и смотреть воплощение на реальных данных.

Развернуть 1 комментарий

Anton Sol решаю вопросики (с данными) 15 марта 2023

ура! пошёл себя заменять

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Ярослав Data Analyst / Analytics Engineer 16 марта 2023

Оч круто, хочется бить себя сковородой по голове, что это придумал не я.

Одну проблему вижу я — внятное название колонок и разметка данных. И внятная документация к схемам.

Но это уже не проблема твоего продукта, это проблема 99.9% дата команд… Документация аутдейтед, столбцы называются хер пойми как, и часто дублируются, или очень похожи друг на друга без нормального пояснения, при переходе со слоя на слой часто путаница в названиях происходит и т.п.

Короч без людей всё равно никуда. Но для менеджеров, или для потребителей данных (если делать Дата Продукт под ключ) → оч классная идея.

P.S. чо прям можно себе уволочь продукт?

Развернуть 1 комментарий

Роман Гайлит 16 марта 2023 автор

@iaroslav,

С одной стороны, в сильно кривых схемах и человек не разберется, что тут от глупого робота ожидать? С другой стороны, робот не такой уж глупый так как он видел уже столько кривых схем БД что ему не в первой разбираться и делать зачастую верные предположения о том как их вертеть и джойнить для достижения результата.

По поводу PS: конечно бери, это же опенсоурс!

На планировании показываешь демку и убеждаешь стейкхолдеров, что для пилотного внедрения нужно пол года твоей упорной работы
Если удалось убедить, уезжаешь чилить на пляж на пол года
На последней неделе чилаута -- внедряешь, как обещал (там как раз API GPT4 подвезут -> работает еще лучше чем на демо с GPT3.5)
Бонус\промоушен получен\дизрапшен произведен. Не забудь мне пиво купить потом если выгорит

Развернуть 1 комментарий

Роман Гайлит Software Engineer автор 20 марта 2023

😱 Комментарий удален его автором...

Развернуть 1 комментарий

Marat Minnekaev Тимлид команды аналитики 16 марта 2023

В Tableau есть похожая штука, Ask data, которая призвана переводить с менеджерского, на условный SQL. Но по-моему оно работало всегда так себе, скорее для маркетинга было. Чую, будут переводить потом все подобные фичи на движки GPT.

Развернуть 1 комментарий

Софья Кондратьева PM, внедряю GenAI в банкинге и плачу 18 марта 2023

Мне очень нравится такое решение в теории, но я не вижу выгоды от его применения, например, у себя на работе. Если говорить о крупных конторах, такого бота можно было бы использовать в областях, где нужно регулярно доставать однотипные датасеты, немного меняя условия. Например, для генерации рассылочных листов из crm, аудита. Но для этого придется потратить время/деньги на внедрение приложения и на обучение +круги бюрократического ада. Я бы сказала, что дешевле и быстрее попросить ДА выкатить пару дэшбордов с кучей фильтров и отправить заниматься дальше нормальной работой

Развернуть 1 комментарий

Ярослав 18 марта 2023

@sofya_panda, Это будет хорошим self-service инструментом, для сотрудников, далёких от кода и всей этой «дата магии».
Например, если мы собираем все ивенты с фронтенда (всё поведение юзеров), в одну здоровенную БД в BigQuery. И какому-нибудь трафик-менеджеру, или смм-менеджеру, или СМО или кому-то около темы, нужно быстро получить данные без SQL запросов (которые они не знают), и вообще без знания ЧТО лежит в этой базе.

Просто пишут в окошко «посчитай по дням количество посещений от источника «гугл адвордс» с плавающим средней ценой клика» и получают результат в виде готовой таблички.

И не надо дёргать для этого команду BI или аналитиков, у которых более серьёзных дел хватает.
Это же прям афигеть инструмент.

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Софья Кондратьева 18 марта 2023

@iaroslav, я это понимаю. Но 1. Чтобы быстро получать такие стандартные метрики обычно и разрабатываются дэшборды, и они даже регулярно автоматически обновляются (мы же предполагаем, что аналитики у нас есть?). Поэтому юзер может получать данные там, вместо того чтобы каждое утро чатиться с ботом. 2. Смысл моего комментария в том, что это не выглядит выгодно с точки зрения компании (деньги + время). Может для небольших бизнесов, где сидит один ДА (он же DS, DE и на дуде дудец), такое решение может быть интересно. Но и там надо смотреть, не будет ли дешевле просто нанять чувака, который нормальную аналитику выстроит.

Я занудствую не просто так. Мне действительно хочется понять, мог бы быть такой тул полезен и коммерчески выгоден, и при каких условиях🤷‍♀️

Развернуть 1 комментарий

Роман Гайлит 19 марта 2023 автор

@sofya_panda, возможно не до конца понимаю консерн, но попробую ответить.

Мой опыт показывает, что даже в огромных tech корпорациях, сколько красивую автоматизированную унифицированную отчетность ни выстраивай, бизнес все равно каждый спринт к аналитикам ходит с ad-hoc запросами, которые не покрыты существующим BI. Потому что покрыть всё BI-ем невозможно, да и не нужно.
И вот так наш аналитик каждый спринт пишет свой одноразовый SQL. Иногда вместЕ, а иногда и вместО разработки нормального BI.
Данный app нацелен как раз на ad-hoc кейсы, и не призван заменить нормальную BI систему компании

Развернуть 1 комментарий

Тимофей Хаханов CEO, entrepreneur 19 марта 2023

Чем больше я читаю восторженных соображений по поводу языкового AI, тем глубже записываю себя в скептики.

ChatGPT это, конечно, здорово. И я им тоже пользуюсь.

Но он же не «понимает» контекст, он просто сплетает слова в предложения. Он буквально не гарантирует, что говорит правду, а не что-то правдоподобное.

И все кейсы «вот сейчас бизнес как сгенерит запрос к базе» разобьются о то, что в какой-то момент он сделает рандомно-неправильный запрос, и спросить будет не с кого

Развернуть 1 комментарий

Ярослав 19 марта 2023

@daihaminkey, ChatGPT-4 уже используют аналитики и инженеры для структурирования базы данных в Morgan Stanley…
Что как бы уже говорит о многом. Они, конечно, могут и ошибаться, или не получить, в итоге экспериментов, нужного им результата. Но всё же, я склонен думать, что если они его используют, то «что-то таки да знают».

Развернуть 1 комментарий

Тимофей Хаханов 19 марта 2023

@iaroslav, ну так они на то аналитики и инженеры, что могут сравнить output с желаемым результатом.

Я больше про историю «ну теперь-то бизнес сам будет делать Х»: нет, не будет, если ты не можешь сам составить условный SQL-запрос — AI рано или поздно сгенерит правдоподобную оплошность, которую ты не заметишь.

Также добавлю, что подход «вот в Morgan Stanley так делают» без конкретных деталей, ПОЧЕМУ они так делают — не очень эффективный, карго-культ же

Развернуть 1 комментарий

Ярослав 19 марта 2023

@daihaminkey, «карго-культ же» — так-то да, согласен.

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Роман Гайлит 20 марта 2023 автор

@daihaminkey,
Ваш комментарий навел меня на следующие философские размышления:

"Но он же не «понимает» контекст, он просто сплетает слова в предложения. Он буквально не гарантирует, что говорит правду, а не что-то правдоподобное."

А понимает ли контекст живой человек? Действительно ли он его понимает или у каждого из нас на любой поставленный нам вопрос в голове рождается лишь правдоподобное сплетение слов, призванное на него ответить? Чем больше я об этом думаю, тем больше прихожу к выводу, что в вопросе понимания мы ближе к языковой модели чем нам хотелось бы.

Возможно мне стоит перестать об этом думать пока не стало поздно

Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?

Войти или Вступить в Клуб