У кого есть интересные кейсы для ML?
Публичный пост
Привет, ппл!
Читал тут пост Как стать дата саентистом. The hard way от @kochanoff , и мне пришла в голову мысль, спросить Клуб об интересных примерах для Машинного обучения (ML).
Сразу скажу - я новичок, и некоторые вещи для меня в диковинку. Но, уверен, таких как я тут много, и многим эта тема покажется интересной.
Тут я хотел бы собрать примеры, которые для простый людей не програмистов выглядели бы как магия.
Не буду писать, где и как применяется ML. Расскажу лишь пару примеров. Раньше я только и слышал, что с помощью обучения нейронных сетей такие мастадонты как Google подсовывают нам ссылки в поисковик, исходя из наших предпочтений. Например, ML применяется в алгоритмах Pinterest. Иногда их подборки выглядят и впрямь как магически подобранные под ваши интересы.
Некоторое время назад стали появляться стартапы, целиком основаные на ML. Наприер, Screenshop. Посмотреть на лук Ким Кардашьян в Инстаграме и в пару кликов заказать такой же — что может быть лучше? Этот стартап на днях продался Snap. Стартап создал мобильное приложение и плагин для Chrome, которые с помощью компьютерного зрения анализируют ваши вкусы и предлагают похожие вещи в партнерских магазинах.
Но это всё здорово, но скорее всего подходит для разговоров под пивко, когда ты рассказываешь другу/подруге вечерком "А ты знаешь, что машинное обучение теперь позволяет ..."
Я же ищу примеры больше для попытки реализации, чтоб запилить самому дома на питоне. То есть, скорее Задачки, как практические, так и теоретические, но более прикладные
Вот какого рода примеры ML знаю я:
- Пример 1 (затравочка). из поста @kochanoff (отличный пример)
"... я увлекаюсь бегом, для портфолио хотел сделать такой проект - взять протокол беговых соревнований, почистить-попреобразовывать данные, показать, сколько мальчиков-девочек в какой категории, кто в клубе беговом, кто сам бежал, кто из России, а кто нет. Порисовать картинки, а потом в конце предсказать (хоть бы и простейшей линейной регрессией) время на финише в зависимости от названных выше "фичей".
Пример 2. .
Самая классическая задача, о которой можно прочитать тут, является задача "Ирисы Фишера".
Нейронная сеть обучается при помощи фотографий и потом может определять, какой тип цветка Ирис представлен на фото.
Задача уже заезжена. Не буду сильно на ней останавливаться. Можно дома самому скачать все данные для ML и определять Ирисы без рекламы и смс.
Пример 3..
На мой взгляд пока самая интересная. Когда я прочитал о ней, она меня настолько впечатлила, что я решил во что бы то ни стало научиться хотя бы поверхностно работать с ML.
Поэтому, остановлюсь на ней чуть подольше.
Если доверять Википедии, то Титаник столкнулся с айсбергом в 11:40 вечера корабельного времени, когда подавляющее большинство пассажиров и корабельной команды находились в своих каютах. Есть данные людей, которые плыли на корабле в то время. Есть данные людей, которым удалось спастись.
Так вот, задачка заключается в том, что нужно скормить эти данныенейронной сети, а потом научится предсказывать, какова вероятность спастись у того или иного человека, исходя из его пола, возраста и т.п.
Мало того, чтоб проверить себя, есть еще набор данных с вымышленными людьми. И можно их так же скормить ML для "магического предсказания". На мой взгляд, это очень интересно, а некоторые люди вообще сочтут это за Вуду магию, согласитесь.
Ну и напоследок, что делаю сейчас я.
Я в Кафе собрал данные для 2к клиентов, которые заказывали что-то через службы доставки. Многого нет, многое запрещено использовать законом, к сожалению. Но я хочу сделать свою ML сеть, чтобы грамотно проводить рекламные компании и таргетировать её на более правильную ца и в более подходящее время.
Всем спасибо за внимание! Всем удачного ML
От датасетов "титаник", "ирис" и "цены на дома в бостоне" через пару лет обучения начинает уже воротить, настолько они часто встречаются в курсах и примерах :)
Насчет таргетинга - а гугл и конкуренты же делают все самостоятельно - скармливаешь им имейлы и/или телефоны (сделавших заказ), и он по аналогии находит нужную аудиторию. С той лишь разницей, что у него для этого данных про пользователей чуть больше.
Данные клиентов в твоем примере интересно было бы поковырять какими-нибудь алгоритмами кластеризации, чтобы лучше понять, кто они.
😱 Комментарий удален его автором...
Можно поискать идеи для проектов здесь: https://github.com/Xtremilicious/ProjectLearn-Project-Based-Learning#machine-learning--ai
Есть целая платформа для этого дела - https://www.kaggle.com/, начиная от титаника и ирисов с рядом дотошных разборов, заканчивая соревнованиями по текущим острым проблемам с пулом выигрыша. Сразу есть зашитая среда - jupyter, форумы и много много другого.