chatGPT вместо дата аналитика

 Публичный пост
14 марта 2023  1785
ОХУЕННО

Все видели как GPT пишет SQL, который мы можем скопипастить и выполнить в IDE (главное чтобы он еще был правильный и учитывал схему БД).

Я пошел дальше в вопросе освобождения людей от различного рода умственных нагрузок (и рабочих мест) и написал (с помощью chatGPT, конечно) техническую демку, которая делает аналититку в БД за вас, ей только нужны:

  • креды от вашей БД и номер кредитки . Но можно просто юзать мою, специально подготовленную для этого демо (креды вшиты);
  • непосредственно ваш вопрос по поводу данных там хранящихся (сформулированный простым человеческим языком).

Приложуха подумает и выдаст ответ в виде таблички (прям как дата-аналитик кидающий в вас excel файл).

  • Потыкать на тестовой БД с типичными sales данными можно тут (переодически крашится, но чаще работает)
  • Код лежит тут

PS: привычка перезапустить неработащий код еще раз в надежде, что "на второй раз точно заработает" тут не является чем-то порицаемым, а скорее must have если вы встретили ошибку. ChatGPT каждый раз генерирует разный подход к решению задачи, так что на второй раз часто действительно работает...

Примеры:

Несложный запрос с парой джойнов

Запрос про языки в странах
Запрос про языки в странах

Любимые оконные функции для финансистов

Очередной финансовый запрос с накопленным итогом
Очередной финансовый запрос с накопленным итогом

Когда в БД нет колонок содержащих необходимые данные, chatGPT додумывает фильтрацию сам

GPT делает предположение о том как оставить только "west states"
GPT делает предположение о том как оставить только "west states"

Комментарии, критика, скрины с крашами -- welcome в комменты

51 комментарий 👇

Прости, похоже не следовало мне просить ChatGPT дропнуть все таблицы и все данные у тебя в базе...

  Развернуть 1 комментарий

@AlexSv, если у пользователя "дата аналитика" не только read-only доступ, то тут проблема уже не в ChatGPT :D

  Развернуть 1 комментарий

@AlexSv, прощаю, у юзера read-only доступ :)

  Развернуть 1 комментарий
Evgenii Kochanov Анализирую данные 16 марта 2023

Но может ли твой робоаналитик делать это?

  Развернуть 1 комментарий

@kochanoff, мой может сделать вот это. Сори если получилось токсично (это все chatGPT виноват)

'9:00 AM' 
'Evgenii arrives at work, 15 minutes late as usual. He fires up Excel and starts browsing Reddit for pixel-art memes inspiration.' 

'10:00 AM' 
'Evgenii gets coffee and snacks from the kitchen. He spends 20 minutes in the break-room explaining to his coworkers how he is working on an Excel pixel-art masterpiece featuring the cast of The Office.' 

'11:00 AM' 
'Evgenii finally starts working on the pixel-art masterpiece. He spends an hour zooming in and out of cells, coloring them with the palette of a rainbow, obsessively trying to make each pixel perfect.' 

'12:00 PM' 
'Evgenii takes a lunch break. He spends the entire time showing off his Excel pixel-art masterpiece to his coworkers, even though they are clearly not interested.' 

'1:00 PM' 
'Evgenii returns to his desk and continues working on the pixel-art masterpiece. He spends 45 minutes trying to make a pixelated Michael Scott smile look more like Steve Carell.' 

'2:00 PM' 
'Evgenii gets an email from his boss telling him to come to his office. His heart sinks as he knows what is coming. He packs up his Excel pixel-art masterpiece and heads to the office.' 

'3:00 PM' 
'Evgenii leaves the office, carrying his box of belongings, including his Excel pixel-art masterpiece, and feeling ashamed of his procrastination. He realizes the hard way that procrastination does not pay off.'
  Развернуть 1 комментарий

@raymany, тупой железке нечем крыть, перешла к оскорблениям!

  Развернуть 1 комментарий

Ну ок, мы получили человека, который пишет не запросы в SQL, а запросы в ChatGPT. И это, на самом деле апликабл к куче профессий, не только дата аналитика.

А дэшборды в PowerBI или Табло бизнес давно сам умеет строить.

  Развернуть 1 комментарий

@Nol, вот кстати да, просто новый уровень абстракции

  Развернуть 1 комментарий

@Nol, На моем лично опыте, нет, бизнес скорее НЕ умеет :(

Максимум, могут на человеческом языке сформулировать что им нужно в качестве output (и то не всегда успешно).

Так что такой инструмент как выше потенциально может быть очень кстати как self-service для бизнеса

  Развернуть 1 комментарий

@raymany, согласен, некоторый бизнес не умеет. Но неужели ты думаешь, что этот самый неумеющий бизнес пойдет что-то там в ChatGPT морочиться. Он скорее человеку, который готов заморочиться скажет устно, какой дэшборд на выходе нарисовать.

Хотя, так или иначе ChatGPT-подобные штуки скормят массам (и нам тоже) поисковики в качестве колдунчиков. Еще мне лично нравится идея применения для саммари текстов.

А в корпе менеджеры вокруг меня умели сами строить себе и дешборды и эксельки.

  Развернуть 1 комментарий

@Nol, те, кто умеет строить дешбороды и эксельки как правило дорого стоят, долго обучаются и еще и норовят свалить куда-нибудь где больше платят, а делать нужно меньше.

Есть вероятность, что с chatgpt менее квалифицированная рабочая сила начнет справляться с задачами, для которых раньше требовались более квалифицированные люди.

  Развернуть 1 комментарий

@alexadamenko, предсказываю, что все пойдет не так: более квалифицированные продолжат осваивать новейшие инструменты, включая ChatGPT; а менее квалифицированные так и не освоят, неинтересно им.

  Развернуть 1 комментарий

@hk5WFPBy4fzE5bqO, вполне может быть!

на самом деле в рабочем контексте у меня маленькая выборка. Судя по моей небольшой компании, где работают люди разной квалификации и возраста, среди них все успешно используют бота для широкого спектра ежедневных задач: от написания имейлов до аналитической работы при работе с комплексной документацией. Видел и таких кто предпочитает руками все делать(по моим оценкам это скептики и упертые специалисты с большим самомнением), но мои личные замеры скорости и качества работы разных людей с которыми я работаю против chatgpt показывают, что буквально все получают преимущества от его использования!

Рядовой офисный сотрудник с навыками ниже среднего, будь то разработчик, менеджер, квант или еще кто-то, используя chatgpt практически превращается в универсального солдата=)

Я конечно сильно романтизирую, но ощущения приблизительно такие.

  Развернуть 1 комментарий

@Nol, не умеет бизнес нихрена. Табло тормозной и очень сложный для освоения простыми пользователями.

А вот чатжпт это то что нужно для данных целей. Ибо с ним можно говорить бизнес-абстракциями и он их поймет, даже если они плохо выражаются в структуре бд.

  Развернуть 1 комментарий

@glebkudr, подписываюсь под каждым словом.

я видел пару примеров внедрения табло и это всегда боль через нехочу и какие-то бесконечные тренинги для обычных рядовых сотрудников.

а вот в чатике написать что-то как в whatsup это любой освоит, порог вхождения минимальный, это одна из причин почему так резко произошло принятие. И можно сосредоточиться на бизнес-логике, а не на обучении инструментам!

  Развернуть 1 комментарий

@glebkudr, @alexadamenko, @hk5WFPBy4fzE5bqO, убедили. :)

  Развернуть 1 комментарий

@Nol, картинка божественна

  Развернуть 1 комментарий

Как человеку, работающему в большой корпорации, мне лично не совсем пока ясно, как работать с chat-GPT, когда ты имеешь дело с чувствительными данными, с которыми ты обычно работаешь только в защищенной среде. Ты не можешь просто скормить их внешней программе. Есть идеи как это может работать "безопасно"?

  Развернуть 1 комментарий

@dpakonrojo, если я правильно понял, скармливается структура, а не данные. Полученный SQL запрос от ChatGPT уже выполняется на сервере.

  Развернуть 1 комментарий

@sobolev, структура БД это тоже чувствительные данные

  Развернуть 1 комментарий

@AntonLantsov, Зависит от ситуации, разумеется. Речь идет о балансе рисков. Главное -- обеспечить защиту данных. Закрытость схемы БД -- это принцип Security through obscurity. Если схема настолько чувствительна, что обмен с третьими сторонами неприемлем, то отвечая на вопрос Катерины, безопасное взаимодействие с сервисами типа ChatGPT невозможно. В таких условиях и использование Metabase или аналогичных инструментов аналитиками становится рискованным.

  Развернуть 1 комментарий

@sobolev, вообще я в жизни довольно часто сталкивался с ситуацией, что мне для какого-нибудь вывода из бд нужно помимо схемы еще и на сами данные поглядеть.

Названия колонок не всегда точно отражают, что в них хранится, какие-то из них могут быть вообще пусты, в каких-то константа или легаси данные.

  Развернуть 1 комментарий

@dpakonrojo, скажи ему, что данные очень чувствительны и на них нельзя смотреть и куда-либо сохранять!

  Развернуть 1 комментарий

@dpakonrojo, как верно заметил @sobolev , скармливается исключительно схема: имена таблиц и колонок. Блок See introspected BD structure -- это ровно то (и не более) что видит ChatGPT при обработке запроса (ну еще ваш запрос разумеется).
Подробнее как формируется промпт можно посмотреть в коде

  Развернуть 1 комментарий

@dpakonrojo, мне кажется корпа купит себе свой проприетарный инстанс ChatGPT (или аналога) и будет работать.

  Развернуть 1 комментарий

@Nol, в Ажур уже завезли OpenAI как компонент КогнитивСервисез, так что да, скоро можно будет запускать приватные инстансы.

  Развернуть 1 комментарий

@dpakonrojo, скармливать ИИ схему + синтетические данные и тянуть готовые queries себе в среду, и смотреть воплощение на реальных данных.

  Развернуть 1 комментарий
Anton Sol решаю вопросики (с данными) 15 марта 2023

ура! пошёл себя заменять

  Развернуть 1 комментарий

@raymany, это просто охуенно!

Надо срочно делать из этого продукт, это же безумно удобно.

Больше интеграций, оптимизировать промпты и в релиз! Сделать еще гайдов для людей которые не умеют пользоваться от слова совсем и это лишит работы огромное количество бесполезных людей.

  Развернуть 1 комментарий

@alexadamenko, и создаст кучу рабочих мест для следующей итерации «бесполезных людей»
SQL когда-то тоже позиционировался как Тула для бизнеса - извлекайте нужные вам данные на почти человеческом языке! Без программистов!
Хе-хе

  Развернуть 1 комментарий

@Siarhei-r, таков путь

  Развернуть 1 комментарий

@Siarhei-r, все верно, и хочется надеяться, что каждую такую итерацию мы лишаемся скучной рутинной работы и вынуждены учиться более весёлой и концептуальной!=)

Кому хочется вообще писать код, такой себе навык для реальной жизни, а вот общение, пусть даже с нейронной сетью, это зашибись!

  Развернуть 1 комментарий

@Siarhei-r, а потом придумали оконные функции... а на собеах на дата аналитика стали спрашивать как вывести ряд Фибоначи с помощью SQL и все как то пошло не туда

  Развернуть 1 комментарий

@Siarhei-r, так успех же, без программистов извлекается!

  Развернуть 1 комментарий

@Nol, успех не извлекается, к успеху идут. И то если фартанет.

  Развернуть 1 комментарий

@alexadamenko, это с месяц назад встроили в dbeaver, и в другие редакторы запросов, думаю, тоже уже или в процессе.

  Развернуть 1 комментарий

Оч круто, хочется бить себя сковородой по голове, что это придумал не я.

Одну проблему вижу я — внятное название колонок и разметка данных. И внятная документация к схемам.

Но это уже не проблема твоего продукта, это проблема 99.9% дата команд… Документация аутдейтед, столбцы называются хер пойми как, и часто дублируются, или очень похожи друг на друга без нормального пояснения, при переходе со слоя на слой часто путаница в названиях происходит и т.п.

Короч без людей всё равно никуда. Но для менеджеров, или для потребителей данных (если делать Дата Продукт под ключ) → оч классная идея.

P.S. чо прям можно себе уволочь продукт?

  Развернуть 1 комментарий

@iaroslav,

С одной стороны, в сильно кривых схемах и человек не разберется, что тут от глупого робота ожидать? С другой стороны, робот не такой уж глупый так как он видел уже столько кривых схем БД что ему не в первой разбираться и делать зачастую верные предположения о том как их вертеть и джойнить для достижения результата.

По поводу PS: конечно бери, это же опенсоурс!

  • На планировании показываешь демку и убеждаешь стейкхолдеров, что для пилотного внедрения нужно пол года твоей упорной работы
  • Если удалось убедить, уезжаешь чилить на пляж на пол года
  • На последней неделе чилаута -- внедряешь, как обещал (там как раз API GPT4 подвезут -> работает еще лучше чем на демо с GPT3.5)
  • Бонус\промоушен получен\дизрапшен произведен. Не забудь мне пиво купить потом если выгорит
  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий
Marat Minnekaev Тимлид команды аналитики 16 марта 2023

В Tableau есть похожая штука, Ask data, которая призвана переводить с менеджерского, на условный SQL. Но по-моему оно работало всегда так себе, скорее для маркетинга было. Чую, будут переводить потом все подобные фичи на движки GPT.

  Развернуть 1 комментарий

Мне очень нравится такое решение в теории, но я не вижу выгоды от его применения, например, у себя на работе. Если говорить о крупных конторах, такого бота можно было бы использовать в областях, где нужно регулярно доставать однотипные датасеты, немного меняя условия. Например, для генерации рассылочных листов из crm, аудита. Но для этого придется потратить время/деньги на внедрение приложения и на обучение +круги бюрократического ада. Я бы сказала, что дешевле и быстрее попросить ДА выкатить пару дэшбордов с кучей фильтров и отправить заниматься дальше нормальной работой

  Развернуть 1 комментарий

@sofya_panda, Это будет хорошим self-service инструментом, для сотрудников, далёких от кода и всей этой «дата магии».
Например, если мы собираем все ивенты с фронтенда (всё поведение юзеров), в одну здоровенную БД в BigQuery. И какому-нибудь трафик-менеджеру, или смм-менеджеру, или СМО или кому-то около темы, нужно быстро получить данные без SQL запросов (которые они не знают), и вообще без знания ЧТО лежит в этой базе.

Просто пишут в окошко «посчитай по дням количество посещений от источника «гугл адвордс» с плавающим средней ценой клика» и получают результат в виде готовой таблички.

И не надо дёргать для этого команду BI или аналитиков, у которых более серьёзных дел хватает.
Это же прям афигеть инструмент.

  Развернуть 1 комментарий

@iaroslav, если пофантазировать, то можно вообще себе представить такую оптимизацию компаний и потоков/архитектуры данных в ней, которая будет заточена исключительно под подобные инструменты и пользователей максимально близких к ключевым бизнес процессам. Я могу понять, почему это очень тяжело представить сотруднику дженерик большой корпорации, где существующие матрицы компетенций долго(но неизвестно насколько эффективно) выстраивались под нужды бизнеса, но это не значит, что с появлением подобных инструментов компании не самоорганизуются во что-то более эффективное, особенно в условиях рецессии, снижения выручки и в целом подсдутия мировой экономики.

Я не знаю, будет это chatgpt или какие-то производные инструменты, но я точно уверен, что cost pressure будет увеличиваться и в новых условиях бизнесу придется искать более эффективные способы использовать ресурсы.

Я смотрю на компании конкуренты в моей отрасли и вижу тех, кто до сих пор капитализирует технологии и процессы 30ти летней давности, тогда как мы делаем больший объем выручки с многократно меньшими ресурсами без проблем с масштабированием и это стало возможным только благодаря технологиям и инструментам.

  Развернуть 1 комментарий

@iaroslav, я это понимаю. Но 1. Чтобы быстро получать такие стандартные метрики обычно и разрабатываются дэшборды, и они даже регулярно автоматически обновляются (мы же предполагаем, что аналитики у нас есть?). Поэтому юзер может получать данные там, вместо того чтобы каждое утро чатиться с ботом. 2. Смысл моего комментария в том, что это не выглядит выгодно с точки зрения компании (деньги + время). Может для небольших бизнесов, где сидит один ДА (он же DS, DE и на дуде дудец), такое решение может быть интересно. Но и там надо смотреть, не будет ли дешевле просто нанять чувака, который нормальную аналитику выстроит.

Я занудствую не просто так. Мне действительно хочется понять, мог бы быть такой тул полезен и коммерчески выгоден, и при каких условиях🤷‍♀️

  Развернуть 1 комментарий

@sofya_panda, возможно не до конца понимаю консерн, но попробую ответить.

Мой опыт показывает, что даже в огромных tech корпорациях, сколько красивую автоматизированную унифицированную отчетность ни выстраивай, бизнес все равно каждый спринт к аналитикам ходит с ad-hoc запросами, которые не покрыты существующим BI. Потому что покрыть всё BI-ем невозможно, да и не нужно.
И вот так наш аналитик каждый спринт пишет свой одноразовый SQL. Иногда вместЕ, а иногда и вместО разработки нормального BI.
Данный app нацелен как раз на ad-hoc кейсы, и не призван заменить нормальную BI систему компании

  Развернуть 1 комментарий

Чем больше я читаю восторженных соображений по поводу языкового AI, тем глубже записываю себя в скептики.

ChatGPT это, конечно, здорово. И я им тоже пользуюсь.

Но он же не «понимает» контекст, он просто сплетает слова в предложения. Он буквально не гарантирует, что говорит правду, а не что-то правдоподобное.

И все кейсы «вот сейчас бизнес как сгенерит запрос к базе» разобьются о то, что в какой-то момент он сделает рандомно-неправильный запрос, и спросить будет не с кого

  Развернуть 1 комментарий

@daihaminkey, ChatGPT-4 уже используют аналитики и инженеры для структурирования базы данных в Morgan Stanley…
Что как бы уже говорит о многом. Они, конечно, могут и ошибаться, или не получить, в итоге экспериментов, нужного им результата. Но всё же, я склонен думать, что если они его используют, то «что-то таки да знают».

  Развернуть 1 комментарий

@iaroslav, ну так они на то аналитики и инженеры, что могут сравнить output с желаемым результатом.

Я больше про историю «ну теперь-то бизнес сам будет делать Х»: нет, не будет, если ты не можешь сам составить условный SQL-запрос — AI рано или поздно сгенерит правдоподобную оплошность, которую ты не заметишь.

Также добавлю, что подход «вот в Morgan Stanley так делают» без конкретных деталей, ПОЧЕМУ они так делают — не очень эффективный, карго-культ же

  Развернуть 1 комментарий

@daihaminkey, «карго-культ же» — так-то да, согласен.

  Развернуть 1 комментарий

@daihaminkey,  тут чтобы получить какое-то более менее объективное мнение нужно считать, мне кажется.

Люди в любом случае генерируют ошибки, вопрос в том, сколько они будут стоить для бизнеса. Если условный младший аналитик с chatgpt генерирует для бизнеса с учетом ошибок такой же аутпут как и специалист грейдом повыше, то будьте уверены, что бизнес решит использовать chatgpt, я как бизнесмен вам говорю.

В Австрии чей рынок я более менее знаю в общем, SME(small-medium enterprises) это 99% всех существующих бизнесов. Они вроде генерируют больше 60% ВВП и нанимают 3/4 всех сотрудников. А микроорганизации где до 10 человек это 90% всех SME. Дигитализация так или иначе происходит и вот для таких компаний, которые реально составляют бОльшую часть экономики, подобные инструменты позволят еще больше сократить затраты на персонал. Доля компаний где существует какие-то критические процессы в которых нельзя делать ошибки низкая, доля процессов этих критических тоже низкая.

  Развернуть 1 комментарий

@daihaminkey, возможно также что существует определенный bias: многие инженеры предпочитают работать в компаниях с высокой инженерной культурой, строить процессы и сервисы отказоустойчивые, принимать решения на основе аналитики, заботиться о качестве кода/данных и.т.д. Но это все становится возможным, только когда это экономически эффективно, т.е. когда есть выручка и прибыль, для остальных кейсов(которых по моим оценкам около 99%), как верно заметила @sofya_panda хорошо если вообще есть человек который делает хоть что-то, и для этой реальности chatgpt это прорыв.

Потому что можно нанять условного разработчика из развивающейся страны за 500 долларов в месяц и с chatpgpt для таких бизнесов он будет решать задачи в несколько раз быстрее. Да с ошибками, да задачи простые, но это все не особенно важно до тех пор пока это cost efficient.

  Развернуть 1 комментарий

@daihaminkey,
Ваш комментарий навел меня на следующие философские размышления:

"Но он же не «понимает» контекст, он просто сплетает слова в предложения. Он буквально не гарантирует, что говорит правду, а не что-то правдоподобное."

А понимает ли контекст живой человек? Действительно ли он его понимает или у каждого из нас на любой поставленный нам вопрос в голове рождается лишь правдоподобное сплетение слов, призванное на него ответить? Чем больше я об этом думаю, тем больше прихожу к выводу, что в вопросе понимания мы ближе к языковой модели чем нам хотелось бы.

Возможно мне стоит перестать об этом думать пока не стало поздно

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб