Проект: @dsunderhood  Публичный пост
23 июля 2020  1386
@dsunderhood
https://ds.underhood.club/

🐗 Пост обновлен: ноябрь 2020

Что может быть общего у твиттер-аккаунта, страницы в ноушене и щепотки тематического моделирования? Коллективный аккаунт в Твиттере!

Дисклеймер: этот пост не о том, как я зарегистрировал один аккаунт в Твиттере. И не о том, почему баянистые шутки из шапки поста набирают столько лайков даже в 2020.

🍿 Идея

Коллективный твиттер — площадка, на которой разные люди из индустрии делятся своим личным опытом. Концепция простая: каждую неделю у аккаунта новый автор, который каждый день раскрывает какую-то новую тему через серии твитов и общение с подписчиками. Именно так начинается вступление для авторов на странице проекта – https://ds.underhood.club/authoring/ – за текст и вдохновение создать еще один коллективный аккаунт спасибо @etolstoy.

В Твиттере уже было немало коллективных аккаунтов, но чего-то связанного с Data Science не было совсем. В один вечер я об этом подумал и написал в ODS:


Идея сообщество слабо зацепила (реакций немного, кто-то сразу сказал, что это полная дичь), но я все равно решил попробовать. Так и появился dsunderhood.

Как сделать коллективный аккаунт

  • найти интересующую не только вас тематику
  • завести отдельную симку для нового аккаунта
  • зарегистрироваться в Твиттере
  • искать авторов
  • ...
  • PROFIT!

🥁 Стек

Администрирование – веду публичный Google-календарь с авторами и списываюсь с ними, передаю креды для захода в аккаунт на неделю, на этом и заканчивается все, что на самом деле нужно только для коллективного аккаунта.

Сайт проекта

Все, что хоть как-то связано с сайтом, хранится в публичном репозитории на GitHub – https://github.com/tiulpin/ds.underhood.club/

Читать твиты авторов за неделю целиком не очень удобно. Поэтому замечательные люди придумали делать дамп твитов и куда-то выгружать их в читаемом формате, живой пример – abroadunderhood.ru.

Но нельзя просто так взять и использовать готовые решения: за все время использования я наловил багов в готовом проекте на JS. Нет, я не говорю, что он был плохим, это действительно отличный готовый сайт для андерхудов с открытыми исходниками, но эти же баги я не могу фиксить, так как это совсем незнакомый для меня стек. Пару месяцев я думал, как все-таки запилить нормальный сайт проекта, даже порисовал:

При этом так и не начал прокачивать себя в разработке фронта. Но ответ нашелся:

В итоге сайт dsunderhood действительно хостится на Ноушене:

Как? Неофициальный Notion API и один скрипт на Python, запускаемый на дампах в JSON: и новый автор каждую неделю подтягивается с одним GitHub Action (!):

Ну и на домене настроен Cloudflare worker – 🙏 Fruition.

Репозиторий открыт, иногда в свободное время я что-то правлю из багов, как попадутся. После открытия официального Notion API (ходят слухи, что это через несколько месяцев, но я не верю) планирую переписать скрипт в библиотеку и наиграться с этой новой "платформой" для андерхудов побольше.

Немного о топиках авторов

В начале статьи что-то было про тематическое моделирование.

Так вот, те самые топики у авторов получены с моделькой LDA из либы Gensim следующим образом:

  • запустил модель на неделе автора
  • получил фиксированное число ключевых слов по каждой теме
  • разметил (дал названия) темам по тем ключевым словам, что получились на прошлом шаге

Крутой и готовой модели для мгновенного извлечения топиков на твитах и автоматической разметки пока нет – это unsupervised задача. А подобные задачи известны тем, что их непросто решать ¯_(ツ)_/¯

Наверное, если разметка топиков сильно надоест, стоит попросить авторов выкидывать 5-6 тем, которые они затронули и считают важными сами.

Отдельно о Twitter API

Для выгрузки дампа твитов нужно получить доступ к Twitter API. Совет: оформляйте заявку на получение ключей не с 🇷🇺 IP, тогда одобрение будет почти моментальным. Я смог получить ключи только спустя месяц, когда догадался попробовать ProtonVPN.

🔥 Что произошло с запуска с марта по ноябрь 2020

"В гостях" аккаунта побывало немало крутых людей из области. Это может помочь показать новый вид таблицы из Ноушена:

С 1 марта по сегодняшний день вышло:

  • 3100+ твитов,
  • 1800+ фолловеров,
  • 3000+ реплаев,
  • 12500+ лайков,
  • 550+ ретвитов,
  • 9500+ кликов по ссылкам из твитов.

И всего около 3 400 000 impressions – это то, сколько раз кто-то в Твиттере видел посты от dsunderhood.

Еще прогнал анализ по самым используемым эмодзи (их мало ☹️)

И еще немного статистики

🎬 Это конец

В итоге:

Вы долистали до конца. Смотрите облако слов из твиттера dsunderhood:

3 комментария 👇
Roman Tezikov Head of AI в 23 года 25 июля 2020

Проект реально очень крутой и веселый. Был одним из первых авторов и получил громадную дозу эндорфина! ❤️

Если, кто-то хотел себя попробовать в таком, но стесняется, мое мнение – лучше сделать. Потом же будете гордиться собой, хех

Когда уже кто-то запустит коллективный твиттер для создателей коллективных твиттер аккаунтов?

  Развернуть 1 комментарий

Загугли metaunderhood

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб