Графики про клуб

 Публичный пост
15 июня 2021  1446

По результатам выгрузки нарисовал быстренько некоторые графики. Это не глубокая аналитика, но уже слишком много, чтобы постить в комментариях. Как индус с kaggle быстренько публикую EDA. Предложения, что ещё посчитать и/или нарисовать принимаются.
Дисклеймер: как мне уже в комментариях к посту с данными напомнили Correlation does not imply causation, а все картинки здесь только корреляции и показывают. Все выводы - лишь предположения, если не шуточки.

Просто статистики

Количество постов на автора
Количество постов на автора

Топ 20 авторов по числу постов
Топ 20 авторов по числу постов

По апвотам
По апвотам

По комментам к их постам
По комментам к их постам

По просмотрам
По просмотрам

На самом деле здесь очень сложно. Если брать топ не по суммам, а по среднему, выходят совсем другие люди. Такое хорошо изображать в parallel coordinates, но даже если из каждой номинации взять top 5, то всего выходит 19 человек, и на простом графике из матплотлиба это уже каша. Надо сидеть в векторном редакторе и перерисовывать всё по-нормальному, чтобы читалось.

Гистограмма длин постов по их типам
Гистограмма длин постов по их типам

Число просмотров к длине поста
Число просмотров к длине поста

Видно, что интро никто не читает. Чем пост длиннее, тем просмотров больше.

Частота новых постов по времени
Частота новых постов по времени

Кумулятивная сумма всех интро
Кумулятивная сумма всех интро

На самом деле кумулятивная сумма тут как верхняя оценка числа участников. Сложно (немного заморочно) корректно и аккуратно (легко сделать глупую ошибку) посчитать сколько в среднем пишет участник клуба со временем, но можно посмотреть как растёт количество участников и как меняется частота постов.

Дальше интереснее. Работа с заголовками.

Как работать с текстом?
Как работать с текстом?

Методология:

Нормализуем заголовки. Это потому что русский язык флексивный, а глупая машина не знает, что слова с разным окончанием -- это одни и те же слова. Дальше берём TfIdf и из него делаем вектора признаков. Добавляем всякие там дни недели, время, тип и всё такое и учим самую дубовую модель, то есть линейную регрессию, предсказывать, например, число апвоутов по всему этом. Дальше берём такую штуку для интерпретации предсказаний моделей и смотрим, что же по мнению модели больше всего влияет на результат, и в какую сторону.
Для мастеров NLP: да, я в курс про стоп-слова. Но у нас тут как минимум особое значение имеет слово "как", и количество данных для серьёзных вещей всё равно не годится.

Предсказываем upvote для постов типа link
Предсказываем upvote для постов типа link

Как это читать: синенький значит низкое значение признака, красненький -- высокое. Если слева от нуля, то уменьшает таргет (в данном случае число апвоутов), если справа, то повышает. Таким образом здесь чем длиннее пост, тем больше лайков. У ссылок на "статью" будет меньше лайков, чем у ссылок, у которых в заголовке "как ...". Ну не совсем так, но типа того.

upvote для вопросов
upvote для вопросов

upvote для постов
upvote для постов

Похоже идеальный заголовок для поста "история как не делать свой вастрик клуб", а худший "два рецепта онлайн помощи в IT"

upvote для баттлов
upvote для баттлов

Интересно, что тут так сильно влияет время публикации. А длина поста только здесь влияет в обратную сторону. Похоже, что успех баттла зависит от того, как лаконично и вовремя набросить.

Число комментариев для вопросов
Число комментариев для вопросов

Тут мне кажется интересно вышло. Просить советов не так эффективно, как спросить о личных пристрастиях и вкусах.

Связанные посты
27 комментариев 👇

Мама, я в топ-20!

  Развернуть 1 комментарий
Вастрик Блогер, питонист, мизантроп 16 июня 2021

Хорошо, но пока слишком простенько :)

Попробуй может наложить какие-то метрики на таймлайн, чтобы понять как они менялись со временем? Как, например, резкий прирост новичков под Новый Год сказался на качестве постов? А если всё это нормировать по количеству человек?

Что такое вообще это ваше «качество» и какой показатель его лучше всего выражает? Лайки — понятно, но может есть и менее очевидные метрики — например «время жизни» поста (когда тему в последний раз комментили с даты создания), либо отношения комментариев к лайкам.

Есть ли зависимость плюсиков или комментариев от времени суток или дня недели? Когда у Клуба прайм-тайм и люди лучше читают лонгриды, а когда лучше комментят треды?

Вот тут уже начинается интересное.

  Развернуть 1 комментарий

@vas3k, претензий на сложность не было. Попробую посмотреть всё, как найдётся минутка. Про зависимости от времени суток и дня я вчера глянул, и там ничего интересного. Попробую повторить по разделам, потому что intro портят все распределения.

Ещё хорошо бы чтобы кто-то другой тоже порисовал графики. Тут же много датасаентистов.

  Развернуть 1 комментарий

@iggisv9t, я без претензий, просто набрасываю идеи куда было бы ещё интересно копнуть

  Развернуть 1 комментарий

@vas3k, попробовал посмотреть про прайм-тайм. Получается скучная ерунда. Хотя можно полагать, что ближе к полуночи в среднем активности больше.

Вот например по вопросам

А вот по постам

это апвоты. По комментам какая-то такая же картина. По другим категориям либо совсем ровно, либо очень дырявые данные. Ну то есть просто не постили в эти категории в какие-то промежутки времени, и не понятно, попадал ли прайм тайм.

Но это время published_at, то есть активность то может начаться и в другое время. Если достать время всех комментов, тогда что-то дельное можно намерить. По last_activity_at тоже не суперинтересно.

  Развернуть 1 комментарий
Anatoly Shipitsin Специалист по НЕХ 16 июня 2021

Вот это поворот. А я думал мало пишу в клуб.

  Развернуть 1 комментарий
Святослав Игуана Старший аналитик-разработчик автор 16 июня 2021

В пересчёте на один пост получается другая картина топ авторов

Есть ещё вырвиглазная попытка отобразить по топ5 из каждого рейтинга на одном графике. Больше 3-х человек так за раз сравнивать уже тяжко.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
Maximus Электрический инженер 16 июня 2021

Длинный пост более вероятно начнут читать на одном устройстве, отложат - позже продолжат на другом. :)

  Развернуть 1 комментарий

@Maximus, ну вот надо смотреть тогда, как считаются просмотры. По устройствам или по юзерам. Как считаются просмотры для публичных постов ещё (кстати, я это нигде не учитывал).

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб