Возможна ли реализация DataScience проекта от и до под Windows?
Публичный постВсем привет!
Расшифрую вопрос темы, т.к. не смог сооборазить как его задать кратко и передать суть.
А суть вот в чем: я сейчас учусь на специализации DataScience и на модуле про продакшн постоянно говорят "ребята, ставьте линукс". Резоны понятны. Но.
У меня помимо этого есть и оновные (надеюсь, пока) рабочие задачи , не связанные с DataScience. По ним и софт исключительно виндовый, и окружение исключительно виндовое, и плотное использование всяких тимсов/линков, и использование ресурсов в "чужих" корпоротивных сетях. А я не настолько хорошо знаю линукс, чтобы взять вот сходу все настроить и жить под линуксом.
И, при всем при этом, начал на работе потихоньку двигать проект по предиктивной аналитике ремонтов и использованием ML. Я им занимаюсь один и все задачи, в т.ч. и подготовкой к проду (я надеюсь, до этого все-таки дойдет :) , тоже буду делать я же. И вот как быть?
В принципе, пока хорошо выручает WSL2. Для учебных задачек/тестов вполне себе работает. Но достаточно ли его уже для "взрослых" вещей? Или есть какие-то известные подводные камни, из-за которых все-таки линукс маст хэв?
Работать с линукс машиной удаленно? Писать в юпитере можно и на винде, а запускать скрипты в на сервере.
Непонятно, что вы подразумеваете под "проектом по предиктивной аналитике". Нейроночки? GPU нужен? Anaconda под win не варинат? Но да, Pytorch какой-нибудь медленне в несколько раз под win. А что мешает настроить дуал бут?
Вобще UNIX-like и Linux это default choise в разработке, datascience, на серверах etc...
Microsoft обещает добавить DirectX для линукса и как следствие возможность работать с GPU из WSL, но это неизвестно когда произойдет. Если работа с GPU не критична, а дело только в софте, то может WSL самого по себе и хватит.
По своему опыту могу сказать, что всё можно настроить под виндой, хоть тензорфлоу-гпу, хоть куду, но займёт это в несколько раз больше времени (если не на порядок), чем на Убунте. У меня под разные задачи задействованы и винда, и убунта, и макбуки :) И всё вроде как около дата саенс. Но безболезненно в одном флаконе всё можно было бы только на убунту запихать, это правда.
P.S. все пишут про анаконду под винду, но частенько она не помогает и собирать надо ручками. Это не сложно, но занимает время. Только на анаконду я бы не рассчитывала.
Не читал даже другие ответы.
Сразу просто скажу - несколько лет польностью разрабатывал под виндой полноценные ДС проекты. Вообще изи.
Конда имеет все нужные пакеты, еще и доп оптимизация есть.
Вопросы, конечно, что именно тебе нужно делать, но в целом под виндой ВСЕ проще ставить, чем где бы то ни было.
Все кто, говорит, что пайторч под убунтой быстрее, ну хз.
Ставится под винду все намного проще, чем под линь, если хочется без танцев.
Если на курсах хочется прямо тру Linux экспириенса - то просто все делай из под WSL
В общем легко могу помочь правильно настроить окружение и все что нужно. Понятно, что уже может не релевантно, но энивей)
Даже почитал комменты.
Понятно что многое зависит от задачи, но в целом пока задача может решаться на локальном компе (не важно Windows или Linux) операционная система этого "локального компа" не важна вообще.
Все возможные пакеты сейчас есть и на то и на то, причем даже без WLS.
Когда для задачи потребуется что-то большее чем локальный комп (DataStage, Netezza, HDFS быстрый и кластер GPU) Windows как клиент этого тоже прекрасно справится, так как львиная доля софта подобного имеет или веб-морду или клиента под Win. И, кстати, часто клиента под Linux просто нет.
А какие задачи, модели, объемы данных у тебя?
Я не думаю, что ради стандартных питоньих ML пакетов прям обязательно нужно ставить линукс. Да и Tensorflow на GPU под виндой вполне нормально работает.
Если домашняя машина слабая, а модель ресурсоёмкая - никакой линукс не спасёт: тренировать в любом случае придётся в каком-нибудь облаке.
Если уж прямо не в моготу делать это всё на линуксе - есть куча образов для докера.
Да. Просто ставишь Anaconda. https://www.anaconda.com/products/individual.
Вы правы, дуалбут самое напрашивающееся решение в этой ситуации. Но вот не люблю я его жгучей нелюбовью :(
Что входит в этот модуль: деплоймент, мониторинг, что-то еще?
Ни разу. Куча людей делает этот ваш датасаенс в энтерпрайзе с виндовых машин.
Он же офигенен!
это очень зависит от того, что вы под "взрослой" понимаете. Размеры датасетов? Или просто что-то за что деньги платят?