Футбольная аналитика — data, мемы, комьюнити

 Публичный пост
23 июля 2020  1045

Дарова, Вастрикяне!

Прочитал нашумевшую статью про оверсинкинг и решил, что нужно взять и на коленках накидать то, что давно обещал.

А обещал я постик по футбольной аналитике (для новичков с нуля без регистрации без смс). Ну лан, погнали, сделаем обзорную экскурсию вместе с маэстро футбольной аналитики Александром Бубновым. Чтиво лайтовое, без перенасыщения терминами - надеюсь будет понятно и тем, для кого футбол - это "какие-то пацаны мяч пинают"

Источник мема: великий risovach.ru
Источник мема: великий risovach.ru

В общем, че я писать то буду:

  • Че за данные тут вообще крутятся
  • Основной мем по этой тематике
  • Где тут мошин лернинг
  • Самые топовые юзкейсы
  • А че по комьюнити

Ну шо, погнали?

Великий risovach.ru
Великий risovach.ru

Data-driven foootbisss

Ну кто больше забил - тот победил, че тут щитать то???

Ну да, в футболе мы обычно считаем голы и в рамках одной игры ничего лучше нету - очки дают за то, что ты больше соперника забил, а не за то, что офигенно играл. На этом выезжали и выезжают мильоны тренеров, которые берут супер оборонительную тактику и просто никак не дают сопернику забить. Принцип простой: не пропустил = не проиграл, а еще мб какой-то шальной гол забьешь (привет от Бердыева и Евсеева).

По сути, забитые голы - это самая главная метрика, которую максимизирует каждая футбольная команда. Но блин, нельзя сказать: "я хочу забивать на 1 гол больше соперника в каждом матче", так же как нельзя сказать: "я хочу вдвое увеличить LTV продукта". Поэтому нужно копать глубже и понимать, что можно улучшить.

Первые продвижение - меримся хм-хм ударами и нарушениями

Ну вот, "голы считать - какой-то зашквар" подумали люди много-много лет назад. И начали считать удары, угловые, нарушения, процент владения мячом - в общем верхнеуровневые метрики, которые позволяют понимать, кто как играл: кто больше бил, владел мячом и нарушал правила.

По сути, вроде полезно, понимаешь расклад сил. Но ценность отдельных игроков по-отдельности не особо оценишь... А еще удар удару рознь, желтая карточка желтой карточке - один может пробить 1 раз за матч и забить, другой может лупить 20-30 раз с плохих позиций и уйти с нулем голов (Кирилл Панченко, хеллоу). А ЕЩЕ ДАННЫХ ДЛЯ ML МАЛО!!!!!! Ну и ситуации как на скрине ниже - вооообще не редкость.

Ето Поисковая выдача Яндеха, я ж с оверсинкингом борюсь и делаю эмвипи-эмвипи, поэтому над картинками не запариваюсь
Ето Поисковая выдача Яндеха, я ж с оверсинкингом борюсь и делаю эмвипи-эмвипи, поэтому над картинками не запариваюсь

Давайте нормальные данные посмотрим!!! Нет, пока мемы посмотрим

Нужно копать глубже, Копатыч. И тут люди начали считать больше событий на футбольном поле. И тут краткий экскурс в главного героя обзора. Есть такой человечек, Александр Бубнов, который начал считать ТТД (технико-тактические действия) игроков. Что же это такое? Давайте я просто процитирую мясопедию

ТТД Бубнова – показатели технико-тактических действий, рассчитанные гуру отечественной аналитики в ходе полночных бдений и бубнений с бубном. По горячему убеждению Бубнова, все те аналитические выводы, которые он сделал на основании полученных цифр ТТД, – есть абсолютная и непреложная истина в последней инстанции, малейшие сомнения в которой являются тягчайшим преступлением перед мировым футболом и должны караться смертью. Естественно, что у российских болельщиков слова "Бубнов" и "ТТД" стали практически синонимами: ибо мы говорим "Бубнов" – подразумеваем "ТТД", мы говорим "ТТД" – подразумеваем "Бубнов".

По сути ТТД - это просто количество всех действий, которые совершил игрок. Если их было много, а процент неудачных (процент брака) маленький, то игрок сыграл хорошо. Иначе - ДУОЙКА

Великий risovach.ru
Великий risovach.ru

Ну лан, давай адекватно

Идею ТТД развили, систематизировали, и начали записывать детали ВСЕХ событий на футбольном поле: Вася Пупкин отобрал мяч у Васи Уткина, который в это время ЗАСТРЯЛ В ТИНЕ. И таким образом люди считают:

  • все единоборства (кто, с кем и где)
  • перехваты (кто, у кого, как и где)
  • пасы (кто, кому, куда, каким образом)
  • удары (кто, откуда, куда, какой частью тела, насколько успешно)
  • и вообще все события на футбольном поле, которые можно к конкретному моменту времени привязать (у Вани развязался шнурок, Саша послал Артема сами знаете куда, а Дима призвал надругаться над мясом - возможно некоторые и это считают:))

(вот один из самых классных датасетов с такими данными)

Основная польза от таких данных - более полное представление о течении матча, о действиях конкретных игроков и каким образом была достигнута статистика из пунктов выше (такой аналог среднеуровневых метрик продукта). А еще тут тебе и объем данных для ML (на которых считается xG, xP, g+ и многие другие метрики с мошинным лернингом, про которые я напишу при наличии интереса аудитории).

Пример: Команда использовала много длинных передач с маленькой точностью, много раз вступала в отбор, и била по воротам соперника очень редко, но с хороших позиций - значит, вероятно, она парковала автобус (в переводе на человеческий: весь матч плотно обороняла свои ворота, без особых мыслей атаковать) и изредка выбегала в контратаки. Это обычно выражается в малом проценте владения мячом и малом количестве забитых обеими командами голов, что можно заметить на более верхнеуровневых метриках

Это ж не все? Нет, конечно

Гики на этом не остановились и поняли, что можно еще изучать КАК игроки ДВИГАЮТСЯ на поле, тут же тоже много инфы можно вынести. И тут появилась *tracking data* - с частотой в доли секунды записываются все положения игроков и мяча, на основе чего можно столько всего прикольного посчитааааать. Данный уровень данных дико низкоуровневый - с ними можно много всего сделать, но это либо для гиков, либо для нейросеток (с помощью которых, к слову, дофига пользы получают). Не буду глубоко копать, тут целый длиннопост нужен на эту тему.

Приведу пример юз-кейса: например, с помощью трекинг-даты такие красивые диаграмки строят и моделируют разные состояния футбольного матча.

<blockquote class="twitter-tweet" tw-align-center><a href="https://twitter.com/i/status/1273053678836973568"></a></blockquote><br><a href="https://twitter.com/i/status/1273053678836973568" target="_blank">https://twitter.com/i/status/1273053678836973568</a>

А кому-то эти данные помогали? Ой, да еще как...

Так, ребят, за ночь я этот текст не успел накидать, завтра на работу вставать, а запостить надо сегодня (оверсинкинг иначе эту статью убьет). Так шо напишу тезисно:

  • Мидтьюллан поднялся из низов и тупа выиграл чемпионат за счет данных и машинки для скаутинга игроков
  • Для менеджеров клубов сделали чисто социальную сетку, где они могут игроков изучать и договариваться об их покупке
  • А еще конторка Инстат, которая описанные выше данные поставляет, предположительно (но не факт) продает историю просмотров важных пользователей, из-за чего информация о трансферах клубов быстро сливается в медиа (например, представитель ЦСКА жаловался, что его историю просмотров слили и про его планы по усилению узнал весь мир)
  • И много много всего крутого, что я не успел написать (заинтересовал, а?))))

По комьюнити

Есть супер классный канал на ютубе, Friends of Tracking называется. Вокруг этого канала сформировалось сообщество гиков, но оно чет как-то мертвое.

И сейчас я в поиске единомышленников и комьюнити (пишу диплом по этой тематике, да и вообще, интересно же обсудить иксджи Чалова или свои достижения в Football Manager). И тут скорее совет нужен. Куда идти???

  • На спортсе колонку открыть
  • Канал + чатик в телеге
  • Мб еще что-то?

Буду дико благодарен, если кто посоветует по построению такого узкого комьюнити, либо выразит желание развиваться в этой теме вместе.

Ну и пишите, что интересно, и про что дальше писать, а то оверсинкинг меня щяс поглотит с мильоном тем.

Великий risovach.ru
Великий risovach.ru

32 комментария 👇

Не думал, что увижу в клубе мемы с Бубновым и упоминание xG. Предлагаю в честь этого отправить Спартак в пердив!

  Развернуть 1 комментарий

Поддерживаю. Можно и Дзюбу заодно отправить кое куда :)

  Развернуть 1 комментарий
Даня Жеренков , Sr. Technical Product manager 24 июля 2020

Привет! Классная статья, и я как раз из Спортса :)
Если нужна будет помощь с колонкой у нас пингуй, ну и в принципе если захочется на тему ML и спорта потрындеть, можем собраться как-нибудь (у нас есть фанаты и того, и другого).

  Развернуть 1 комментарий

Круто, что тут со Спорца люди::) у вас на сайте потрясающе неудобная вещь, мне кажется - что аккаунты спорц.ру и спорц.кибер.ру - это разные аккаунты, ужас как неудобно и непонятно, зачем это сделано:;)

  Развернуть 1 комментарий

@Sio, ага, есть такое
Кибер когда запускался там просто форкнули базы спорца на момент запуска чтобы проще было, но никак их не мерджили между собой (предпологалось что это пойдет в свое плавание под своим брендом), но вот спустя 5 лет это иногда вызывает путаницу, а матчить БДшки тяжко, да и смысла мало (в последние годы больше рег не со спорца идет)

энивей, чтоб не тут не офтопить, в профиле есть тележка, стучись туда если что :)

  Развернуть 1 комментарий

@Danya-Z, пасибки, буду знать с кем потрындеть по этой тематике можно (осталось только в Мск вернуться :)

  Развернуть 1 комментарий
Сергей Игнашев , Леттеринг | Техническое писательство 24 июля 2020

Думаю, для единомышленников надо чатик в тележке (зови сразу), плюс пиши блог на Спорц, почти уверен, что тема будет пользоваться популярностью:;)

  Развернуть 1 комментарий

Хей, сяпки, услышал. Будет чем в выходные заняться:)

  Развернуть 1 комментарий

Плюсую. Сам почитываю Лукомского, Васюхина, ну и футбол смотрю в удовольствие(Италию в основном). Буду рад пообщаться.

  Развернуть 1 комментарий
Andrey Kucherov , Руковожу проектным офисом 24 июля 2020

Глупый вопрос - как собираются сырые данные по каждому футболисту? Браслетов у них нет на ногах, как у лыжников и биатлонистов. Ручками кто-то считает вносит? По видеозаписи трекают?

  Развернуть 1 комментарий

Сейчас уже обучают нейросетки, думаю. Но вообще раньше вручную, адский труд

  Развернуть 1 комментарий

Ну вопрос вполне резонный, скажу я

По сути event data (данные по всем событиям, по типу ударов, единоборств, пасов и так далее) собираются вручную - есть специальные обученные люди, которые сидят во время матча и помечают все действия. Вроде этих людей на матче 3 - по 1 на каждую команду и 1 на запас

А tracking data по местоположению игроков, мяча вроде бы считается с помощью компьютер вижн - ставят камеру, шоб все поле было видно, и алгоритм все состояния матча фиксирует. Тут проблемка, что обычно такие данные становятся доступны где-то через сутки после матча (алгоритм долго работает), на что кстати жаловался датасаентист из Бенфики - по горячим следам матч не разберешь

  Развернуть 1 комментарий

@saydashtatar, спасибо! Явно какая-то мафия! Не понимаю, почему нельзя трехграммовую RFID метку прилепить на каждый кроссовок и на мяч, и все в реальном режиме времени хоть в 3D онлайн транслировать.

  Развернуть 1 комментарий

@saydashtatar, неужели нейросетки еще не научили в event data?

  Развернуть 1 комментарий

@Camargr, кстати, я не исключаю что так и делают, просто я не слышал... Но тогда странно, почему все так тащатся сейчас от анализа с компьютер вижн для получения трэкинг даты, мб из-за универсальности (с натяжкой)

  Развернуть 1 комментарий

@angelooooook, тоже не исключаю, но по крайней мере статей на эту тему я пока еще не видел (мб мало смотрел), очень жду (или можно самим замутить, хех)

  Развернуть 1 комментарий

Во1х спасибо за статью 😊
Решил не плодить камент первого уровня, т.к. мой вопрос тоже связан со сбором данных.
АПЛ вот прямо в перерыве показывает кучу крутых данных, типа тепловых карт для отдельных игроков. Подробную графику ударов/передач (начальная точка, вектор, success/fail). Неужели это все нейросеткой собирается?

  Развернуть 1 комментарий

@NeArh, сяпки.
В моем представлении мира эти данные пока спец разметчики пилят. Но возможно я неправ - появился классный филд для рисеча

  Развернуть 1 комментарий

@saydashtatar, а лифчики они не для трека как раз носят?)

  Развернуть 1 комментарий

@saydashtatar, а где можно посмотреть эти tracking data?

  Развернуть 1 комментарий

@son1c, там в основном по физухе показатели считаются, насколько я знаю. И футболисты их на матчи явно не всегда надевают)

  Развернуть 1 комментарий

@van-mronov, можешь посмотреть тут и тут

  Развернуть 1 комментарий

@saydashtatar, спасибо, а условный дасаентист Бенфики их откуда берет? они выкладываются куда-то в открытый доступ или клуб закупает их у кого-то?

  Развернуть 1 комментарий

@van-mronov, конкретно ДС из Бенфики рассказывал, что закупать у кого-то долго, и они сами настроили камеры/алгоритмы для генерации трэкинг-даты.

А в целом, есть стат. агентства типа Opta, Statsbomb, Instat, WyScout и так далее, которые на поставке данных (и не только) концентрируются. И их данных в открытом доступе хрен найдешь (разве что у статсбомба и вайскаута видел гипер ограниченные датасеты, на которых ничего релевантного не посчитаешь; но какую-то гипотезу/модельку на адекватность чекнуть можно)

  Развернуть 1 комментарий

@saydashtatar, понятно, я так и подозревал что данные никто палить не хочет :)

  Развернуть 1 комментарий

@van-mronov, пару лет назад работал в компании связанной с футбольной аналитикой, мы брали данные в сервисах типа enetpulse.
Тогда работать в этой сфере было немного муторно, но интересно. Айдишники у футболистов могли не совпадать в разных сервисах, приходилось матчить игроков вручную, либо по имени (это тоже не всегда работает, приходится применять регулярки, чтобы удалять спец çîmvøлы) и много других мелких, но не особо приятных проблем.

Я помню, спустя пол года работы узнал, что в футбольном матче может быть дополнительное время, сразу побежал после этого исправлять баги связанные с незнанием этого)).

  Развернуть 1 комментарий

@sanohin, круто, а какие задачи были? Удавалось среди всех этих данных что-то интересное накопать? Вообще сбор данных в футболе очень интересная штука- придумывают много хитрых метрик, но можно найти много контр-примеров, где они не работают.

  Развернуть 1 комментарий

@DmitryAndreev, я автоматизировал генерацию и постинг картинок и видео, чтобы менеджеры футбольных клубов, лиг, турниров в твитер и фб не постили вручную, что гол забит, выдана красная карточка и тд)

относительна дата саенса, наверное это хорошая область, фич там много, особенно если юзать нескольких провайдеров и мерджить. помню, там даже есть информация, в какой модели кроссовок игрок забил гол.

  Развернуть 1 комментарий

@sanohin, круто, спасибо за ссылку, а сколько стоили их данные случаем не в курсе?

  Развернуть 1 комментарий
denis kolosov , бекенд-разработчик 28 июля 2020

как выигрывать в фентэзи?

  Развернуть 1 комментарий

Смотреть/читать Магнуса Карлсона. Да-да, того самого шахматиста. Он на полставки ещё и один из лучших фэнтези-игроков в мире, даже несколько недель на первом месте по АПЛ был. Ну и куча форумов есть, где игроки общаются.

  Развернуть 1 комментарий

он вроде ничего не писал про это, только в твиттере что-то постил про Опту :)

  Развернуть 1 комментарий
denis kolosov , бекенд-разработчик 28 июля 2020

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб