С чего начать, чтобы стать data analyst?

 Публичный пост

Какие базовые навыки нужно иметь, знание програм, техник, технологий или гуд курсы?

Спасибо заранее за совет!:)

1 комментарий 👇

Привет!
По работе приходится достаточно плотно заниматься анализом данных, в моем случае – в основном связанном с вебом.

Ниже опишу, что изучал и регулярно использую (в нестрогом хронологическом порядке и по нарастанию сложности). В основном это будет перечисление инструментов, без ссылок на курсы:

  • Работа с таблицами (Google Spreadsheets). Много фишек почерпнул отсюда: https://www.benlcollins.com/
  • Google Analytics или любая другая система аналитики с предзаготовленными визуализациями и отчетами. Поможет на практике разобраться с тем, какие есть основные визуализации. Есть курсы непосредственно от гугла: https://analytics.google.com/analytics/academy/
  • Регулярные выражения (для различной трансформации, группировки или разбиения строк, да и в целом полезный инструмент). Курсы или ссылки не посоветую, учился непосредственно на практике)
  • Ознакомиться с существующими инструментми визуализации данных и BI-системами. Для начала я бы порекомендовал Google Data Studio как самый простой в освоении. Когда/если его возможностей перестанет хватать, можно изучить Microsoft Power BI и/или Tableau для более сложных визуализаций и дашбордов. Курсов много и большинство из них достойные.
  • Основы SQL (подойдет любой базовый курс, для начала база данных не имеет значения. Единственное, что порекомендую в первую очередь сосредоточиться на DML - как использовать операторы Select, Join, Group By и т.д.).
  • работа с командной строкой и основы Linux - всегда полезный навык, чем раньше с ним научишься работать, тем полезнее он будет в дальнейшем.
  • После того как изучены основы – изучить основы работы с DWH и аналитическими базами данных (Redshift, Google BigQuery etc.). Лично я рекомендую Бигквери, потому что он прячет под капот всю техническую сторону и позволяет сходу начать заниматься анализом данных. К тому же, во время начала работы и создания Google Cloud проекта тебе дают небольшой кредит, которого для целей обучения должно хватить за глаза.
  • Приблизительно в этот момент можно начинать ознакомление с языками программирования заточенными на работу с данными. Чаще всего это Python и R. Какой выбрать – вопрос холиварный, я предпочитаю Python потому что он менее узкоспециализированный и зная его я могу еще много чего, например клепать сайты или пилить всякую другую автоматизацию быта и жизни.

Если говорить о Python, то после базовых знаний по основам языка рекомендую ознакомиться с библиотеками Numpy, Pandas, а дальше ориентироваться в зависимости от того какие задачи будет нужно решать

  • Когда освоены DWH и какой-то из языков программирования, можно приниматься за изучение основ ETL - системы для автоматической агрегации данных, когда их накапливается очень много. Я использовал Matillion (инструмент заточенный под SQL, работает поверх Redshift или Bigquery), Airflow (это скорее оркестратор задач, который занимается планированием и последовательностью выполнения задач, эдакий Integromat на максималках). Но еще когда говорят ETL, обычно вспоминают Spark – мне с ним работать не приходилось.

Вот вроде все, с чем мне в разное время приходилось работать или изучить. Еще где-то впереди маячит Машин Лернинг и Биг Дата, но о них пусть подробнее расскажут те кто этим непосредственно занимается)

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб