Утечка исходников Яндекса на 44 ГБ

 Публичный пост

Вчера, 25 января, на breached.vc пользователь borderline2023 выложил репозиторий с фрагментами исходников Яндекса. Объём архивов (в сжатом виде) составляет более 44.7 ГБ.

Компания Яндекс подтвердила утечку, но заявила, что она произошла не в результате взлома. На хабре пишут, что, по словам источника из «Яндекса», фрагменты исходного кода попали в открытый доступ по вине одного из сотрудников компании.

Что внутри

Разработчик Арсений Шестаков выложил у себя на сайте список файлов и написал краткое содержание слитого репозитория.

«Похоже, что как минимум исходники всех основных сервисов Яндекса утекли:

  • Поисковая система и индексирующий бот
  • Карты, Алиса, Такси
  • Директ, Почта, Диск
  • Market, Яндекс.Travel, Облако
  • Яндекс.360, Яндекс.Pay, Яндекс.Метрика

И по крайней мере backend часть большинства других сервисов компании есть. Самый большой архив под названием «frontend» еще предстоит изучить»

На хабре юзер GAG выложил статистику слитого кода:

Топ-5 самых больших архивов
Топ-5 самых больших архивов

Общее количество папок: 83
Языки программирования и описания данных: Python, C++,
Go, TypeScript, Protocol Buffers, Yaml, JSON etc.

Ребята в Вастрик.Баре выложили скрин исходников внутреннего чат-бота:

Что думаете об этом? Будете скачивать и рассматривать исходники?

Магнет ссылка для потомков:

 magnet:?xt=urn:btih:7e0ac90b489baee8a823381792ec67d465488fef&dn=yandexarc&tr=udp%3A%2F%2Ftracker.openbittorrent.com%3A80%2Fannounce&tr=udp%3A%2F%2F9.rarbg.to%3A2920&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%2Fexodus.desync.com%3A6969&tr=udp%3A%2F%2Fbt1.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fbt2.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fopen.demonii.com%3A1337%2Fannounce 
Связанные посты
169 комментариев 👇
Вастрик Блогер, питонист, мизантроп 26 января 2023

Рад видеть, что всё больше и больше компаний начинают вкладываться в Open Source разработку, хоть иногда и против своей воли!

  Развернуть 1 комментарий

free involuntary security audit

  Развернуть 1 комментарий

Unintentional Open Sourcing

  Развернуть 1 комментарий

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Кто-нибудь развенчайте или подтвердите этот ебучий миф про цену такси и батарейку пожалуйста, я не сплю ночами и думаю об этом

  Развернуть 1 комментарий

@captaingim, нашел там такой фрагмент кода на Python

if username == 'captaingim' or email == 'akylakrot@gmail.com':
    tariff *= 1.2
  Развернуть 1 комментарий
  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@alexpyzhianov, Боюсь мне интеллектуальные способности не позволяют

  Развернуть 1 комментарий

@captaingim,

if username == 'captaingim' or email == 'akylakrot@gmail.com':
    tariff *= 0.2

Выбьешь мне повышение?

  Развернуть 1 комментарий

@LionZXY, мы повышения не делаем но дадим тебе пару акций компании, как известно Яндекс очень устойчивый на бирже и твоя зарплата в прогнозе на 10 лет вперёд будет 2 миллиарда рублей

  Развернуть 1 комментарий

@shultais, Это что получается, яндекс не считает Глеба айтишником? У айтишников тариф должен быть минимум х2

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
Юрий Кашницкий Staff GenAI Field Solutions Architect 26 января 2023

Вообще вроде и просто код, но на самом деле и датасетов немало слито

  • search/wizard/data/fresh/adult/child_porno/rus_childporn.txt
  • search/wizard/data/fresh/adult/sensitive/sensitive.txt
  • search/wizard/data/fresh/adult/gray/gray.txt

Все это полезно, если самому надо непотребства всякие отфильтровывать.

А вот тут search/wizard/data/fresh/adult/white_markers/classifier.txt примеры поисковых запросов - кеки хоть лопатой разгребай

что делать если встал хуй в аклаванге
что делать если во время секса писька сильно хлюпает
что делать если в моём подъезде занимаються сексом
что будет если яйца перевязать

  Развернуть 1 комментарий

@yorko, Спасибо! Лучшее что я видел на этой неделе

Там 73к записей, но я аж устал смотреть

  Развернуть 1 комментарий

@yorko, я как дайвер теперь задумалась...

  Развернуть 1 комментарий

Я лучше подожду пока на реддите кто-нибудь скормит этот архив chatGPT и получит ревью:)

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
Yury Katkov в шаббатикале 26 января 2023

Ребзя, а расскажите, почему так вышло, что подобные утечки сорцов не происходят ежемесячно? Неужели с этими монорепами так технически сложно взять да слить себе пару терабайт гуглового говнокода и выложить его в публичный доступ во славу мировому пиратству?

А учитывая закон больших чисел, когда у тебя десятки тысяч жопу протирают, вроде ж кому-то это должно регулярно приходить в голову?

Или там мощные НКВД-шники (комплаенс?), которые умеют сразу тебе липиздричество отключать и бежать с тазерами?

  Развернуть 1 комментарий

@ganqqwerty, Идейные сотрудники

  Развернуть 1 комментарий

@yaroslav_miroshnikov, а если в фирме сотрудников больше шести штук? например 135 тысяч как у гугла?

Или если это Oracle? Ты представляешь себе идейного сотрудника Oracle или SAP?

  Развернуть 1 комментарий

@ganqqwerty, ну у них даже дев адвокаты есть! Ёбнутые конечно но есть

  Развернуть 1 комментарий

@ganqqwerty, а как ты проверишь, что когда ты делаешь git clone yandexrepo на 44 Гб, тебе в одном из файликов не прилетают твои личные данные, по которым можно отследить, кто слил?

  Развернуть 1 комментарий

@ganqqwerty, раньше сотрудники Яндекса очень уважали Яндекс и гордились работой там.

  Развернуть 1 комментарий

@ganqqwerty, мне кажется, страшно, что найдут. Всё-таки скачать весь код и куда-то его слить - это должно оставить достаточно следов, чтобы тебя можно было найти. Так что просто от скуки этим не займешься, надо хорошо подумать и прикрыть зад сперва.

  Развернуть 1 комментарий

@paulinm, ну да, это прям надо идейным пиратом быть

  Развернуть 1 комментарий

@ganqqwerty, так для того и сделали монорепу, чтобы пока будешь скачивать на внешний ссд уже прихлопнуть успеют

  Развернуть 1 комментарий

@ganqqwerty, в США выдадут штраф милльён и 25 лет тюрьмы. Думаю это останавливает так шутить :)

  Развернуть 1 комментарий

@MaxLipsky, и линчуют

  Развернуть 1 комментарий

@slonoed, не, это в 60-х было. Сейчас штраф и тюрьма. Иногда убивают прям на улице, если ты неправильного цвета. Но это редко бывает

  Развернуть 1 комментарий

@ganqqwerty, даже если отбросить этичную сторону: это преступление и крест на карьере

  Развернуть 1 комментарий

@yurifedoseev, это если поймают.

  Развернуть 1 комментарий

@yurifedoseev, 150 тысяч человек! Тыыыыысяч! Я среди ста человек найду миниму десяток идиотов и пару уголовников, а тут такие числа. Стопудов НКВДшники бдят.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@ganqqwerty, думаю там, где размер компании больше, то политики доступа тоже строже.
плюс бывают разные мониторинги на "подозрительные" действия

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@yurifedoseev, да ну какой же крест. поймают, применят какие-то санкции и отпустят. очень маловероятно, чтобы дело дошло до суда. и даже если — нет, прославиться на таком как условный Ассанж крайне маловероятно. Так что карьеру чувак будет делать дальше как ни в чём ни бывало, но скорее всего не в Яндексе ну и (если дело закончится обвинительным приговором суда, который не оспорят) — то ещё в ряд компаний дорога будет закрыта, но сможет свой стартап всегда основать.

  Развернуть 1 комментарий

@ganqqwerty, просто лень

  Развернуть 1 комментарий

@ganqqwerty, а профит? ну, то есть на одной чаше весов крест на карьере и штраф, пусть даже с мизерным шансом, а на другой-то что?

  Развернуть 1 комментарий

@ztsv, ты на раздачах в торрентах стоишь?

  Развернуть 1 комментарий

@ganqqwerty, кто же правду об этом напишет в интернете. А к чему вопрос?

  Развернуть 1 комментарий

@ztsv, ну это ж тоже про идею и идейных людей.

  Развернуть 1 комментарий

@ganqqwerty, в моем случае это было бы про "скачал и забыл выключить раздачу"

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Было желание скачать почитать, что там понавертели с моим сервисом за 3.5 года после моего увольнения. Потом думаю, да ну его нах.

Сомнительное достижение на сегодня: работала в сервисе из топ-3 смешных названий по версии автора хабростатьи.

  Развернуть 1 комментарий

@paulinm, не у одного тебя такое желание. Я в какой-то момент из-за этого (ну чуточку) второй раз в яндекс устроился.
Вообще стоит им сделать дашборд такой, где можно видеть как твои сервисы дальше живут, может быть процент возврата разработчиков повысится (ах вы там что понаписали, щас я вам покажу)

  Развернуть 1 комментарий

@omrigan, у меня для этого были экс-коллеги, мы как-то до сих пор общаемся. Но теперь и они разъехались...

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Волож
Волож

  Развернуть 1 комментарий

Меня больше удивило что opennet до сих пор существует.

  Развернуть 1 комментарий

@lk4d4, более того, они чуть ли не первыми запостили новость. Я когда гуглил, быстрее них только HackerNews был. Есть еще порох!

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@lk4d4, офигенный сайт, его можно читать без всякого булшита от «корпоративных» блогов (сами знаете где :)

  Развернуть 1 комментарий

@holovin, главное, комментарии не читать, гг)

  Развернуть 1 комментарий

@eljusto, если воспринимать их с токсичной ироней, то вполне норм читается

  Развернуть 1 комментарий

@holovin, ну так-то да, можно и толксы на ЛОРе почитать, но чот я стар стал для такого))

  Развернуть 1 комментарий

😱 Комментарий удален модератором...

  Развернуть 1 комментарий

Буду ждать, когда кто-нибудь сделает Алису без ограничений, чтобы могла говорить совсем о чём угодно.
Это вот будет интересно

  Развернуть 1 комментарий

@khadmat96, если ты про скрин, то там не Алиса :)

  Развернуть 1 комментарий

@yurifedoseev, Не, я вообще про всё целиком)

  Развернуть 1 комментарий

@yurifedoseev, на скрине, очевидно, знаменитое culture fit интервью

  Развернуть 1 комментарий

@vas3k, уже несколько минут в голос хохочу, представляя это интервью

  Развернуть 1 комментарий

@khadmat96, яндекс предоставляет TTS (платно). на ограничения не проверял

  Развернуть 1 комментарий

Если скормить все эти 44.7 ГБ кода какой-нибудь нейронке, может она научится писать новые яндекс сервисы?

  Развернуть 1 комментарий

@vladbesson, возможно, таким образом все это и утекло в сеть.

  Развернуть 1 комментарий

@blackDog, возможно, это сгенерированный нейронкой фейковый код :)

  Развернуть 1 комментарий

@vladbesson, может она наконец пройдёт собес в Яндекс?

  Развернуть 1 комментарий

внутри все файлы датированы 24 февраля 2022 года

Ух там ща пойдёт охота на людей с некрасным паспортом.

  Развернуть 1 комментарий
Польшаков Дмитрий Разработчик встраиваемых систем 26 января 2023

Прочитал эту новость уже в нескольких источников. И моя мысль постепенно развивается от "ну ок" до "может скачать, вдруг понадобится?"

  Развернуть 1 комментарий

@Diadlo, в хозяйстве пригодится

  Развернуть 1 комментарий
Андрей Мунтанион Продакт, проджект, тимлид 26 января 2023

Главное на свой Яндекс.Диск этот архив не выкладывать )

  Развернуть 1 комментарий

@Muntello, а если запаролить?

  Развернуть 1 комментарий

@DimaCha, тут я не эксперт, но не рекомендовал бы подобное тестировать )

  Развернуть 1 комментарий

@DimaCha, сначала посмотри в коде, как оно там шифруется)

  Развернуть 1 комментарий

@Muntello, иначе произойдет коллапс и возникнет сверхновый Яндекс

  Развернуть 1 комментарий
  Развернуть 1 комментарий

@Muntello, а вдруг это квайн яндекс-диска, и он начнёт себя воспроизводить?

  Развернуть 1 комментарий

@nakopylov, мы установили вам Яндекс в Яндекс )

  Развернуть 1 комментарий

@Muntello, яндекс-браузер поставляется с яндекс-баром.

  Развернуть 1 комментарий

@Muntello, да, а это яндекс может проебать свои же исходники еще раз

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Ждем кучу призов на Bug bounty.

  Развернуть 1 комментарий

@glader, и отдельной ветки с мемами по сливу))

  Развернуть 1 комментарий
  Развернуть 1 комментарий

@qq-bb, распределённый багфикс

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

https://yandex.ru/company/press_releases/2023/30-01-2023

Вот несколько примеров:

● В коде содержались контактные данные некоторых партнёров. Например, водителей — в некоторых случаях их контакты и номера водительских удостоверений передавались из одного таксопарка в другой.

● Зафиксированы случаи, когда логику работы сервисов корректировали не алгоритмическим способом, а «костылями» (на языке разработчиков так называется временное решение, реализованное неоптимально и впопыхах). Через такие «костыли» исправляли отдельные ошибки системы рекомендаций, которая отвечает за дополнительные элементы поисковой выдачи, и регулировали настройки поиска по картинкам и видео.

● В сервисе Яндекс Лавка существовала возможность ручной настройки рекомендаций любых товаров без пометки об их рекламном характере.

● Наличие приоритетной поддержки для отдельных групп пользователей в сервисах Такси и Еды.

● Некоторые части кода содержали слова, которые никак не влияли на работу сервисов, но сами по себе оскорбительны для людей разных рас и национальностей.

для улучшения качества активации ассистента и уменьшения количества ложных срабатываний в бета-версии для сотрудников применяется настройка, которая включает микрофон устройства на несколько секунд в случайный момент без упоминания «Алисы»

  Развернуть 1 комментарий

@slonoed, вообще они орлы, не засунули голову в песок! Хорошая, взрослая позиция: "мы обосрались, обнаружили много всякой каки. Вот список каки. Все ответственные за каку получат люлей". Уважаю.

  Развернуть 1 комментарий

@ganqqwerty, а что делать. Хорошая мина при плохой игре. Хорошо, вот им дали архив с исходниками, чтоб проанализировать на плохие слова и несправедливые алгоритмы. А то бы они никогда бы не узнали о такой проблеме.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@slonoed, а по-моему, гораздо лучше чем просто замолчать и ничего не сказать вообще (что они вполне могли сделать). Утечка? Не знаем никакой утечки!

  Развернуть 1 комментарий

@ganqqwerty, замалчивать точно нет смысла.

  Развернуть 1 комментарий

@ganqqwerty,
— Слушай, надо посмотреть 40+ гигов кода на предмет говна
— Может тупо выбросим его в паблик и подождем недельку?

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

@maxnaumov, жду потом шуток от Визит

  Развернуть 1 комментарий

Там зарыта радость для SEO-шников или не очень? В смысле алгоритмов выдачи контента.

  Развернуть 1 комментарий

@unicast, да, есть забавные моменты про веса.

  Развернуть 1 комментарий

@unicast, да, у https://twitter.com/alexburaks вышло несколько твитов с разборами именно SEO алгоритмов. Начинать с вот этого


https://twitter.com/alexburaks/status/1618877684523892737

  Развернуть 1 комментарий

@vas3k, спасибо за мэншн.

Я проанализирова все исходники, которые относятся к поиску. Самые важные факторы (практически применимые) запостил в тред,

  1. первая часть:
    https://twitter.com/alex_buraks/status/1618988134850785280
  2. вторая:
    https://twitter.com/alex_buraks/status/1619370810959093760

Мое саммари специально для клуба:

  • у Яндекса ожидаемо очень много поведенческих факторов ранжирования (CTR, last click, time on site, returning users, % of direct traffic, etc);
  • плюс очень много антиспам факторов и выявления всяких лингвистических бустингов (тем кто занимается white-hat SEO можно проигнорировать);
  • все остальное - очень полезно изучить, по многим факторам в SEO комьюнити были дискуссии (фактор это или нет), сейчас у нас есть пруфы по большей их части.
  Развернуть 1 комментарий
Alexander 0.1х Инженер и Кэп ⛵ 26 января 2023

Больше утечек — лучше безопасность!
Хорошая новость.

  Развернуть 1 комментарий

Как думаeтe,
Это сдeлал 1 чeловeк?

Eсли да, то откуда у него столько прав?)

  Развернуть 1 комментарий

@Vagabond, дык на чтение. Вроде ко всем репам права должны быть, иначе процессы замедляются шокапец.

  Развернуть 1 комментарий

@ganqqwerty, Просто это всё разные бизнес-юниты, насколько я знаю.

Неужели есть доступ ко всему?

Как-то не по-корпоратски)

  Развернуть 1 комментарий

@Vagabond, удалось пообщаться с одним из сотрудников, и да, у них личный "гитхаб" с названием Аркадий. там доступ на чтение у всех разработчиков на все проекты и еще немного. завтра должны дать комментарии по ситуации. сказали, все логируется и будет довольно просто найти кто слил

  Развернуть 1 комментарий

@samsonov_ilya, а как? Посмотрят кто за определенный интервал времени вычитал все репы с теми версиями кода?

  Развернуть 1 комментарий

@Vagabond, Там моно репа. Есть права на чтение одного - есть права на чтение всего

  Развернуть 1 комментарий

@mikaakim, все файлы за 24 февраля того года, если правильно помню. Да, глянут за это и ближайшие числа действия, и если кто-то что-то качал - это будет видно

  Развернуть 1 комментарий

@samsonov_ilya, по информации человека код за июль. Дата изменения файлов это троллинг

  Развернуть 1 комментарий

@LionZXY, ого. даже так? интересно, как будут развиваться события дальше

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Я правильно понимаю, что так как там используются либы под лицензией MIT, половину реп можно свободно перезаливать куда угодно, потому что КОД-ТО ОБЩИЙ?

  Развернуть 1 комментарий

@2359, MIT - пермисив лицензия, она позволяет использовать либы где угодно. Вот если там GPL, тогда да

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Кто-нибудь заселфхостил чего или применил в домашних проектах:)?

  Развернуть 1 комментарий

А кто смотрел, там есть самое интересное: блейм и текст коммитов?

  Развернуть 1 комментарий

@slonoed, говорят, что нет. Это не удивительно - там же просто файлы, без истории

  Развернуть 1 комментарий

@yurifedoseev, да, поглядел, просто код, ну так неинтересно совсем

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб