По результатам выгрузки нарисовал быстренько некоторые графики. Это не глубокая аналитика, но уже слишком много, чтобы постить в комментариях. Как индус с kaggle быстренько публикую EDA. Предложения, что ещё посчитать и/или нарисовать принимаются.
Дисклеймер: как мне уже в комментариях к посту с данными напомнили Correlation does not imply causation, а все картинки здесь только корреляции и показывают. Все выводы - лишь предположения, если не шуточки.
Просто статистики
На самом деле здесь очень сложно. Если брать топ не по суммам, а по среднему, выходят совсем другие люди. Такое хорошо изображать в parallel coordinates, но даже если из каждой номинации взять top 5, то всего выходит 19 человек, и на простом графике из матплотлиба это уже каша. Надо сидеть в векторном редакторе и перерисовывать всё по-нормальному, чтобы читалось.
Видно, что интро никто не читает. Чем пост длиннее, тем просмотров больше.
На самом деле кумулятивная сумма тут как верхняя оценка числа участников. Сложно (немного заморочно) корректно и аккуратно (легко сделать глупую ошибку) посчитать сколько в среднем пишет участник клуба со временем, но можно посмотреть как растёт количество участников и как меняется частота постов.
Дальше интереснее. Работа с заголовками.
Методология:
Нормализуем заголовки. Это потому что русский язык флексивный, а глупая машина не знает, что слова с разным окончанием -- это одни и те же слова. Дальше берём TfIdf и из него делаем вектора признаков. Добавляем всякие там дни недели, время, тип и всё такое и учим самую дубовую модель, то есть линейную регрессию, предсказывать, например, число апвоутов по всему этом. Дальше берём такую штуку для интерпретации предсказаний моделей и смотрим, что же по мнению модели больше всего влияет на результат, и в какую сторону.
Для мастеров NLP: да, я в курс про стоп-слова. Но у нас тут как минимум особое значение имеет слово "как", и количество данных для серьёзных вещей всё равно не годится.
Как это читать: синенький значит низкое значение признака, красненький -- высокое. Если слева от нуля, то уменьшает таргет (в данном случае число апвоутов), если справа, то повышает. Таким образом здесь чем длиннее пост, тем больше лайков. У ссылок на "статью" будет меньше лайков, чем у ссылок, у которых в заголовке "как ...". Ну не совсем так, но типа того.
Похоже идеальный заголовок для поста "история как не делать свой вастрик клуб", а худший "два рецепта онлайн помощи в IT"
Интересно, что тут так сильно влияет время публикации. А длина поста только здесь влияет в обратную сторону. Похоже, что успех баттла зависит от того, как лаконично и вовремя набросить.
Тут мне кажется интересно вышло. Просить советов не так эффективно, как спросить о личных пристрастиях и вкусах.
Мама, я в топ-20!
Хорошо, но пока слишком простенько :)
Попробуй может наложить какие-то метрики на таймлайн, чтобы понять как они менялись со временем? Как, например, резкий прирост новичков под Новый Год сказался на качестве постов? А если всё это нормировать по количеству человек?
Что такое вообще это ваше «качество» и какой показатель его лучше всего выражает? Лайки — понятно, но может есть и менее очевидные метрики — например «время жизни» поста (когда тему в последний раз комментили с даты создания), либо отношения комментариев к лайкам.
Есть ли зависимость плюсиков или комментариев от времени суток или дня недели? Когда у Клуба прайм-тайм и люди лучше читают лонгриды, а когда лучше комментят треды?
Вот тут уже начинается интересное.
Вот это поворот. А я думал мало пишу в клуб.
В пересчёте на один пост получается другая картина топ авторов
Есть ещё вырвиглазная попытка отобразить по топ5 из каждого рейтинга на одном графике. Больше 3-х человек так за раз сравнивать уже тяжко.
Длинный пост более вероятно начнут читать на одном устройстве, отложат - позже продолжат на другом. :)