У кого есть интересные кейсы для ML?

 Публичный пост

Машинное обучение
Машинное обучение

Привет, ппл!

Читал тут пост Как стать дата саентистом. The hard way от @kochanoff , и мне пришла в голову мысль, спросить Клуб об интересных примерах для Машинного обучения (ML).

Сразу скажу - я новичок, и некоторые вещи для меня в диковинку. Но, уверен, таких как я тут много, и многим эта тема покажется интересной.
Тут я хотел бы собрать примеры, которые для простый людей не програмистов выглядели бы как магия
.

Не буду писать, где и как применяется ML. Расскажу лишь пару примеров. Раньше я только и слышал, что с помощью обучения нейронных сетей такие мастадонты как Google подсовывают нам ссылки в поисковик, исходя из наших предпочтений. Например, ML применяется в алгоритмах Pinterest. Иногда их подборки выглядят и впрямь как магически подобранные под ваши интересы.

Некоторое время назад стали появляться стартапы, целиком основаные на ML. Наприер, Screenshop. Посмотреть на лук Ким Кардашьян в Инстаграме и в пару кликов заказать такой же — что может быть лучше? Этот стартап на днях продался Snap. Стартап создал мобильное приложение и плагин для Chrome, которые с помощью компьютерного зрения анализируют ваши вкусы и предлагают похожие вещи в партнерских магазинах.

Но это всё здорово, но скорее всего подходит для разговоров под пивко, когда ты рассказываешь другу/подруге вечерком "А ты знаешь, что машинное обучение теперь позволяет ..."

Я же ищу примеры больше для попытки реализации, чтоб запилить самому дома на питоне. То есть, скорее Задачки, как практические, так и теоретические, но более прикладные

Вот какого рода примеры ML знаю я:

"... я увлекаюсь бегом, для портфолио хотел сделать такой проект - взять протокол беговых соревнований, почистить-попреобразовывать данные, показать, сколько мальчиков-девочек в какой категории, кто в клубе беговом, кто сам бежал, кто из России, а кто нет. Порисовать картинки, а потом в конце предсказать (хоть бы и простейшей линейной регрессией) время на финише в зависимости от названных выше "фичей".

Пример 2. .

Задача про Ирисы
Задача про Ирисы

Самая классическая задача, о которой можно прочитать тут, является задача "Ирисы Фишера".
Нейронная сеть обучается при помощи фотографий и потом может определять, какой тип цветка Ирис представлен на фото.
Задача уже заезжена. Не буду сильно на ней останавливаться. Можно дома самому скачать все данные для ML и определять Ирисы без рекламы и смс.

Пример 3..

Задача про Титаник
Задача про Титаник

На мой взгляд пока самая интересная. Когда я прочитал о ней, она меня настолько впечатлила, что я решил во что бы то ни стало научиться хотя бы поверхностно работать с ML.
Поэтому, остановлюсь на ней чуть подольше.

Если доверять Википедии, то Титаник столкнулся с айсбергом в 11:40 вечера корабельного времени, когда подавляющее большинство пассажиров и корабельной команды находились в своих каютах. Есть данные людей, которые плыли на корабле в то время. Есть данные людей, которым удалось спастись.
Так вот, задачка заключается в том, что нужно скормить эти данныенейронной сети, а потом научится предсказывать, какова вероятность спастись у того или иного человека, исходя из его пола, возраста и т.п.


Мало того, чтоб проверить себя, есть еще набор данных с вымышленными людьми. И можно их так же скормить ML для "магического предсказания". На мой взгляд, это очень интересно, а некоторые люди вообще сочтут это за Вуду магию, согласитесь.

Ну и напоследок, что делаю сейчас я.
Я в Кафе собрал данные для 2к клиентов, которые заказывали что-то через службы доставки. Многого нет, многое запрещено использовать законом, к сожалению. Но я хочу сделать свою ML сеть, чтобы грамотно проводить рекламные компании и таргетировать её на более правильную ца и в более подходящее время.

Всем спасибо за внимание! Всем удачного ML

9 комментариев 👇
Evgenii Kochanov Анализирую данные 30 апреля 2021

От датасетов "титаник", "ирис" и "цены на дома в бостоне" через пару лет обучения начинает уже воротить, настолько они часто встречаются в курсах и примерах :)

Насчет таргетинга - а гугл и конкуренты же делают все самостоятельно - скармливаешь им имейлы и/или телефоны (сделавших заказ), и он по аналогии находит нужную аудиторию. С той лишь разницей, что у него для этого данных про пользователей чуть больше.

Данные клиентов в твоем примере интересно было бы поковырять какими-нибудь алгоритмами кластеризации, чтобы лучше понять, кто они.

  Развернуть 1 комментарий

@kochanoff, спасибо за идею. Я на всякий случай решил тут не раскрывать тему целиком. Но проблема в Европе такая - чушие телефоны и емейлы запрещено каким-то либо образом хранить и использовать. Тут защита персональных данных люто соблюдается... так что работаю с чем могу пока

  Развернуть 1 комментарий

@zed, обычно это обходится использованием разных идентификаторов и работой с ними уже. Условно, пользователь регистрируется и ему создается ID. Так можно?

  Развернуть 1 комментарий

@CyberThroe, а они же не регистрируются у меня. Всё на стороне службы доставки. У меня оффлайн продажи скорее и через посредника

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

@PPVIMPYODQmqte8l, согласен. Но для простых смертных - это тоже магия, особенно в первый раз. В общем, для новичков это не такая уж плохая задачка

  Развернуть 1 комментарий

Можно поискать идеи для проектов здесь: https://github.com/Xtremilicious/ProjectLearn-Project-Based-Learning#machine-learning--ai

  Развернуть 1 комментарий

@5BSTJ547Q3WfDZqY, о, пикольно. Не знал о таком. Почитаю

  Развернуть 1 комментарий

Есть целая платформа для этого дела - https://www.kaggle.com/, начиная от титаника и ирисов с рядом дотошных разборов, заканчивая соревнованиями по текущим острым проблемам с пулом выигрыша. Сразу есть зашитая среда - jupyter, форумы и много много другого.

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб