🐗 Пост обновлен: ноябрь 2020
Что может быть общего у твиттер-аккаунта, страницы в ноушене и щепотки тематического моделирования? Коллективный аккаунт в Твиттере!
Дисклеймер: этот пост не о том, как я зарегистрировал один аккаунт в Твиттере. И не о том, почему баянистые шутки из шапки поста набирают столько лайков даже в 2020.
🍿 Идея
Коллективный твиттер — площадка, на которой разные люди из индустрии делятся своим личным опытом. Концепция простая: каждую неделю у аккаунта новый автор, который каждый день раскрывает какую-то новую тему через серии твитов и общение с подписчиками. Именно так начинается вступление для авторов на странице проекта – https://ds.underhood.club/authoring/ – за текст и вдохновение создать еще один коллективный аккаунт спасибо @etolstoy.
В Твиттере уже было немало коллективных аккаунтов, но чего-то связанного с Data Science не было совсем. В один вечер я об этом подумал и написал в ODS:
Идея сообщество слабо зацепила (реакций немного, кто-то сразу сказал, что это полная дичь), но я все равно решил попробовать. Так и появился dsunderhood.
Как сделать коллективный аккаунт
- найти интересующую не только вас тематику
- завести отдельную симку для нового аккаунта
- зарегистрироваться в Твиттере
- искать авторов
- ...
- PROFIT!
🥁 Стек
Администрирование – веду публичный Google-календарь с авторами и списываюсь с ними, передаю креды для захода в аккаунт на неделю, на этом и заканчивается все, что на самом деле нужно только для коллективного аккаунта.
Сайт проекта
Все, что хоть как-то связано с сайтом, хранится в публичном репозитории на GitHub – https://github.com/tiulpin/ds.underhood.club/
Читать твиты авторов за неделю целиком не очень удобно. Поэтому замечательные люди придумали делать дамп твитов и куда-то выгружать их в читаемом формате, живой пример – abroadunderhood.ru.
Но нельзя просто так взять и использовать готовые решения: за все время использования я наловил багов в готовом проекте на JS. Нет, я не говорю, что он был плохим, это действительно отличный готовый сайт для андерхудов с открытыми исходниками, но эти же баги я не могу фиксить, так как это совсем незнакомый для меня стек. Пару месяцев я думал, как все-таки запилить нормальный сайт проекта, даже порисовал:
При этом так и не начал прокачивать себя в разработке фронта. Но ответ нашелся:
В итоге сайт dsunderhood действительно хостится на Ноушене:
Как? Неофициальный Notion API и один скрипт на Python, запускаемый на дампах в JSON: и новый автор каждую неделю подтягивается с одним GitHub Action (!):
Ну и на домене настроен Cloudflare worker – 🙏 Fruition.
Репозиторий открыт, иногда в свободное время я что-то правлю из багов, как попадутся. После открытия официального Notion API (ходят слухи, что это через несколько месяцев, но я не верю) планирую переписать скрипт в библиотеку и наиграться с этой новой "платформой" для андерхудов побольше.
Немного о топиках авторов
В начале статьи что-то было про тематическое моделирование.
Так вот, те самые топики у авторов получены с моделькой LDA из либы Gensim следующим образом:
- запустил модель на неделе автора
- получил фиксированное число ключевых слов по каждой теме
- разметил (дал названия) темам по тем ключевым словам, что получились на прошлом шаге
Крутой и готовой модели для мгновенного извлечения топиков на твитах и автоматической разметки пока нет – это unsupervised задача. А подобные задачи известны тем, что их непросто решать ¯_(ツ)_/¯
Наверное, если разметка топиков сильно надоест, стоит попросить авторов выкидывать 5-6 тем, которые они затронули и считают важными сами.
Отдельно о Twitter API
Для выгрузки дампа твитов нужно получить доступ к Twitter API. Совет: оформляйте заявку на получение ключей не с 🇷🇺 IP, тогда одобрение будет почти моментальным. Я смог получить ключи только спустя месяц, когда догадался попробовать ProtonVPN.
🔥 Что произошло с запуска с марта по ноябрь 2020
"В гостях" аккаунта побывало немало крутых людей из области. Это может помочь показать новый вид таблицы из Ноушена:
С 1 марта по сегодняшний день вышло:
- 3100+ твитов,
- 1800+ фолловеров,
- 3000+ реплаев,
- 12500+ лайков,
- 550+ ретвитов,
- 9500+ кликов по ссылкам из твитов.
И всего около 3 400 000 impressions – это то, сколько раз кто-то в Твиттере видел посты от dsunderhood.
Еще прогнал анализ по самым используемым эмодзи (их мало ☹️)
И еще немного статистики
🎬 Это конец
В итоге:
- подписываться здесь – twitter.com/dsunderhood | апдейты архива тут – t.me/dsunderhood
- стать автором на неделю – https://ds.underhood.club/authoring
- задать вопросы можно в комментариях к посту или в личке
Вы долистали до конца. Смотрите облако слов из твиттера dsunderhood:
Проект реально очень крутой и веселый. Был одним из первых авторов и получил громадную дозу эндорфина! ❤️
Если, кто-то хотел себя попробовать в таком, но стесняется, мое мнение – лучше сделать. Потом же будете гордиться собой, хех
Когда уже кто-то запустит коллективный твиттер для создателей коллективных твиттер аккаунтов?