Графики про клуб

Публичный пост

15 июня 2021 1692

По результатам выгрузки нарисовал быстренько некоторые графики. Это не глубокая аналитика, но уже слишком много, чтобы постить в комментариях. Как индус с kaggle быстренько публикую EDA. Предложения, что ещё посчитать и/или нарисовать принимаются.
Дисклеймер: как мне уже в комментариях к посту с данными напомнили Correlation does not imply causation, а все картинки здесь только корреляции и показывают. Все выводы - лишь предположения, если не шуточки.

Просто статистики

На самом деле здесь очень сложно. Если брать топ не по суммам, а по среднему, выходят совсем другие люди. Такое хорошо изображать в parallel coordinates, но даже если из каждой номинации взять top 5, то всего выходит 19 человек, и на простом графике из матплотлиба это уже каша. Надо сидеть в векторном редакторе и перерисовывать всё по-нормальному, чтобы читалось.

Видно, что интро никто не читает. Чем пост длиннее, тем просмотров больше.

На самом деле кумулятивная сумма тут как верхняя оценка числа участников. Сложно (немного заморочно) корректно и аккуратно (легко сделать глупую ошибку) посчитать сколько в среднем пишет участник клуба со временем, но можно посмотреть как растёт количество участников и как меняется частота постов.

Дальше интереснее. Работа с заголовками.

Методология:

Нормализуем заголовки. Это потому что русский язык флексивный, а глупая машина не знает, что слова с разным окончанием -- это одни и те же слова. Дальше берём TfIdf и из него делаем вектора признаков. Добавляем всякие там дни недели, время, тип и всё такое и учим самую дубовую модель, то есть линейную регрессию, предсказывать, например, число апвоутов по всему этом. Дальше берём такую штуку для интерпретации предсказаний моделей и смотрим, что же по мнению модели больше всего влияет на результат, и в какую сторону.
Для мастеров NLP: да, я в курс про стоп-слова. Но у нас тут как минимум особое значение имеет слово "как", и количество данных для серьёзных вещей всё равно не годится.

Предсказываем upvote для постов типа link

Как это читать: синенький значит низкое значение признака, красненький -- высокое. Если слева от нуля, то уменьшает таргет (в данном случае число апвоутов), если справа, то повышает. Таким образом здесь чем длиннее пост, тем больше лайков. У ссылок на "статью" будет меньше лайков, чем у ссылок, у которых в заголовке "как ...". Ну не совсем так, но типа того.

Похоже идеальный заголовок для поста "история как не делать свой вастрик клуб", а худший "два рецепта онлайн помощи в IT"

Интересно, что тут так сильно влияет время публикации. А длина поста только здесь влияет в обратную сторону. Похоже, что успех баттла зависит от того, как лаконично и вовремя набросить.

Тут мне кажется интересно вышло. Просить советов не так эффективно, как спросить о личных пристрастиях и вкусах.

Связанные посты

→ Датамайнеры, налетай: выгрузка по постам Клуба за 1.5 года. Нужна ваша аналитика и визуализации 📊

27 комментариев 👇

Egor Biriukov Таксист 15 июня 2021

Мама, я в топ-20!

Развернуть 1 комментарий

Вастрик Блогер, погромист, мизантроп 16 июня 2021

Хорошо, но пока слишком простенько :)

Попробуй может наложить какие-то метрики на таймлайн, чтобы понять как они менялись со временем? Как, например, резкий прирост новичков под Новый Год сказался на качестве постов? А если всё это нормировать по количеству человек?

Что такое вообще это ваше «качество» и какой показатель его лучше всего выражает? Лайки — понятно, но может есть и менее очевидные метрики — например «время жизни» поста (когда тему в последний раз комментили с даты создания), либо отношения комментариев к лайкам.

Есть ли зависимость плюсиков или комментариев от времени суток или дня недели? Когда у Клуба прайм-тайм и люди лучше читают лонгриды, а когда лучше комментят треды?

Вот тут уже начинается интересное.

Развернуть 1 комментарий

Святослав Игуана 16 июня 2021 автор

@vas3k, претензий на сложность не было. Попробую посмотреть всё, как найдётся минутка. Про зависимости от времени суток и дня я вчера глянул, и там ничего интересного. Попробую повторить по разделам, потому что intro портят все распределения.

Ещё хорошо бы чтобы кто-то другой тоже порисовал графики. Тут же много датасаентистов.

Развернуть 1 комментарий

Вастрик 16 июня 2021

@iggisv9t, я без претензий, просто набрасываю идеи куда было бы ещё интересно копнуть

Развернуть 1 комментарий

Святослав Игуана 16 июня 2021 автор

@vas3k, попробовал посмотреть про прайм-тайм. Получается скучная ерунда. Хотя можно полагать, что ближе к полуночи в среднем активности больше.

Вот например по вопросам

А вот по постам

это апвоты. По комментам какая-то такая же картина. По другим категориям либо совсем ровно, либо очень дырявые данные. Ну то есть просто не постили в эти категории в какие-то промежутки времени, и не понятно, попадал ли прайм тайм.

Но это время published_at, то есть активность то может начаться и в другое время. Если достать время всех комментов, тогда что-то дельное можно намерить. По last_activity_at тоже не суперинтересно.

Развернуть 1 комментарий

Anatoly Shipitsin Специалист по НЕХ 16 июня 2021

Вот это поворот. А я думал мало пишу в клуб.

Развернуть 1 комментарий

Святослав Игуана Старший аналитик-разработчик автор 16 июня 2021

В пересчёте на один пост получается другая картина топ авторов

Есть ещё вырвиглазная попытка отобразить по топ5 из каждого рейтинга на одном графике. Больше 3-х человек так за раз сравнивать уже тяжко.

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Maximus Электрический инженер 16 июня 2021

Длинный пост более вероятно начнут читать на одном устройстве, отложат - позже продолжат на другом. :)

Развернуть 1 комментарий

Святослав Игуана 17 июня 2021 автор

@Maximus, ну вот надо смотреть тогда, как считаются просмотры. По устройствам или по юзерам. Как считаются просмотры для публичных постов ещё (кстати, я это нигде не учитывал).

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?

Войти или Вступить в Клуб