Утечка исходников Яндекса на 44 ГБ

 Публичный пост

Вчера, 25 января, на breached.vc пользователь borderline2023 выложил репозиторий с фрагментами исходников Яндекса. Объём архивов (в сжатом виде) составляет более 44.7 ГБ.

Компания Яндекс подтвердила утечку, но заявила, что она произошла не в результате взлома. На хабре пишут, что, по словам источника из «Яндекса», фрагменты исходного кода попали в открытый доступ по вине одного из сотрудников компании.

Что внутри

Разработчик Арсений Шестаков выложил у себя на сайте список файлов и написал краткое содержание слитого репозитория.

«Похоже, что как минимум исходники всех основных сервисов Яндекса утекли:

  • Поисковая система и индексирующий бот
  • Карты, Алиса, Такси
  • Директ, Почта, Диск
  • Market, Яндекс.Travel, Облако
  • Яндекс.360, Яндекс.Pay, Яндекс.Метрика

И по крайней мере backend часть большинства других сервисов компании есть. Самый большой архив под названием «frontend» еще предстоит изучить»

На хабре юзер GAG выложил статистику слитого кода:

Топ-5 самых больших архивов
Топ-5 самых больших архивов

Общее количество папок: 83
Языки программирования и описания данных: Python, C++,
Go, TypeScript, Protocol Buffers, Yaml, JSON etc.

Ребята в Вастрик.Баре выложили скрин исходников внутреннего чат-бота:

Что думаете об этом? Будете скачивать и рассматривать исходники?

Магнет ссылка для потомков:

 magnet:?xt=urn:btih:7e0ac90b489baee8a823381792ec67d465488fef&dn=yandexarc&tr=udp%3A%2F%2Ftracker.openbittorrent.com%3A80%2Fannounce&tr=udp%3A%2F%2F9.rarbg.to%3A2920&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%2Fexodus.desync.com%3A6969&tr=udp%3A%2F%2Fbt1.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fbt2.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fopen.demonii.com%3A1337%2Fannounce 
Связанные посты
169 комментариев 👇
Вастрик Блогер, питонист, мизантроп 26 января 2023

Рад видеть, что всё больше и больше компаний начинают вкладываться в Open Source разработку, хоть иногда и против своей воли!

  Развернуть 1 комментарий

free involuntary security audit

  Развернуть 1 комментарий

Unintentional Open Sourcing

  Развернуть 1 комментарий

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Кто-нибудь развенчайте или подтвердите этот ебучий миф про цену такси и батарейку пожалуйста, я не сплю ночами и думаю об этом

  Развернуть 1 комментарий

@captaingim, нашел там такой фрагмент кода на Python

if username == 'captaingim' or email == 'akylakrot@gmail.com':
    tariff *= 1.2
  Развернуть 1 комментарий
  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@alexpyzhianov, Боюсь мне интеллектуальные способности не позволяют

  Развернуть 1 комментарий

@captaingim,

if username == 'captaingim' or email == 'akylakrot@gmail.com':
    tariff *= 0.2

Выбьешь мне повышение?

  Развернуть 1 комментарий

@LionZXY, мы повышения не делаем но дадим тебе пару акций компании, как известно Яндекс очень устойчивый на бирже и твоя зарплата в прогнозе на 10 лет вперёд будет 2 миллиарда рублей

  Развернуть 1 комментарий

@shultais, Это что получается, яндекс не считает Глеба айтишником? У айтишников тариф должен быть минимум х2

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
Юрий Кашницкий Staff GenAI Field Solutions Architect 26 января 2023

Вообще вроде и просто код, но на самом деле и датасетов немало слито

  • search/wizard/data/fresh/adult/child_porno/rus_childporn.txt
  • search/wizard/data/fresh/adult/sensitive/sensitive.txt
  • search/wizard/data/fresh/adult/gray/gray.txt

Все это полезно, если самому надо непотребства всякие отфильтровывать.

А вот тут search/wizard/data/fresh/adult/white_markers/classifier.txt примеры поисковых запросов - кеки хоть лопатой разгребай

что делать если встал хуй в аклаванге
что делать если во время секса писька сильно хлюпает
что делать если в моём подъезде занимаються сексом
что будет если яйца перевязать

  Развернуть 1 комментарий

@yorko, Спасибо! Лучшее что я видел на этой неделе

Там 73к записей, но я аж устал смотреть

  Развернуть 1 комментарий

@yorko, я как дайвер теперь задумалась...

  Развернуть 1 комментарий

Я лучше подожду пока на реддите кто-нибудь скормит этот архив chatGPT и получит ревью:)

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Было желание скачать почитать, что там понавертели с моим сервисом за 3.5 года после моего увольнения. Потом думаю, да ну его нах.

Сомнительное достижение на сегодня: работала в сервисе из топ-3 смешных названий по версии автора хабростатьи.

  Развернуть 1 комментарий

@paulinm, не у одного тебя такое желание. Я в какой-то момент из-за этого (ну чуточку) второй раз в яндекс устроился.
Вообще стоит им сделать дашборд такой, где можно видеть как твои сервисы дальше живут, может быть процент возврата разработчиков повысится (ах вы там что понаписали, щас я вам покажу)

  Развернуть 1 комментарий

@omrigan, у меня для этого были экс-коллеги, мы как-то до сих пор общаемся. Но теперь и они разъехались...

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Волож
Волож

  Развернуть 1 комментарий

Меня больше удивило что opennet до сих пор существует.

  Развернуть 1 комментарий

@lk4d4, более того, они чуть ли не первыми запостили новость. Я когда гуглил, быстрее них только HackerNews был. Есть еще порох!

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

@lk4d4, офигенный сайт, его можно читать без всякого булшита от «корпоративных» блогов (сами знаете где :)

  Развернуть 1 комментарий

@holovin, главное, комментарии не читать, гг)

  Развернуть 1 комментарий

@eljusto, если воспринимать их с токсичной ироней, то вполне норм читается

  Развернуть 1 комментарий

@holovin, ну так-то да, можно и толксы на ЛОРе почитать, но чот я стар стал для такого))

  Развернуть 1 комментарий

😱 Комментарий удален модератором...

  Развернуть 1 комментарий

Буду ждать, когда кто-нибудь сделает Алису без ограничений, чтобы могла говорить совсем о чём угодно.
Это вот будет интересно

  Развернуть 1 комментарий

@khadmat96, если ты про скрин, то там не Алиса :)

  Развернуть 1 комментарий

@yurifedoseev, Не, я вообще про всё целиком)

  Развернуть 1 комментарий

@yurifedoseev, на скрине, очевидно, знаменитое culture fit интервью

  Развернуть 1 комментарий

@vas3k, уже несколько минут в голос хохочу, представляя это интервью

  Развернуть 1 комментарий

@khadmat96, яндекс предоставляет TTS (платно). на ограничения не проверял

  Развернуть 1 комментарий

Если скормить все эти 44.7 ГБ кода какой-нибудь нейронке, может она научится писать новые яндекс сервисы?

  Развернуть 1 комментарий

@vladbesson, возможно, таким образом все это и утекло в сеть.

  Развернуть 1 комментарий

@blackDog, возможно, это сгенерированный нейронкой фейковый код :)

  Развернуть 1 комментарий

@vladbesson, может она наконец пройдёт собес в Яндекс?

  Развернуть 1 комментарий

внутри все файлы датированы 24 февраля 2022 года

Ух там ща пойдёт охота на людей с некрасным паспортом.

  Развернуть 1 комментарий
Польшаков Дмитрий Разработчик встраиваемых систем 26 января 2023

Прочитал эту новость уже в нескольких источников. И моя мысль постепенно развивается от "ну ок" до "может скачать, вдруг понадобится?"

  Развернуть 1 комментарий

@Diadlo, в хозяйстве пригодится

  Развернуть 1 комментарий
Андрей Мунтанион Продакт, проджект, тимлид 26 января 2023

Главное на свой Яндекс.Диск этот архив не выкладывать )

  Развернуть 1 комментарий

@Muntello, а если запаролить?

  Развернуть 1 комментарий

@DimaCha, тут я не эксперт, но не рекомендовал бы подобное тестировать )

  Развернуть 1 комментарий

@DimaCha, сначала посмотри в коде, как оно там шифруется)

  Развернуть 1 комментарий

@Muntello, иначе произойдет коллапс и возникнет сверхновый Яндекс

  Развернуть 1 комментарий
  Развернуть 1 комментарий

@Muntello, а вдруг это квайн яндекс-диска, и он начнёт себя воспроизводить?

  Развернуть 1 комментарий

@nakopylov, мы установили вам Яндекс в Яндекс )

  Развернуть 1 комментарий

@Muntello, яндекс-браузер поставляется с яндекс-баром.

  Развернуть 1 комментарий

@Muntello, да, а это яндекс может проебать свои же исходники еще раз

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Ждем кучу призов на Bug bounty.

  Развернуть 1 комментарий

@glader, и отдельной ветки с мемами по сливу))

  Развернуть 1 комментарий
  Развернуть 1 комментарий

@qq-bb, распределённый багфикс

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

https://yandex.ru/company/press_releases/2023/30-01-2023

Вот несколько примеров:

● В коде содержались контактные данные некоторых партнёров. Например, водителей — в некоторых случаях их контакты и номера водительских удостоверений передавались из одного таксопарка в другой.

● Зафиксированы случаи, когда логику работы сервисов корректировали не алгоритмическим способом, а «костылями» (на языке разработчиков так называется временное решение, реализованное неоптимально и впопыхах). Через такие «костыли» исправляли отдельные ошибки системы рекомендаций, которая отвечает за дополнительные элементы поисковой выдачи, и регулировали настройки поиска по картинкам и видео.

● В сервисе Яндекс Лавка существовала возможность ручной настройки рекомендаций любых товаров без пометки об их рекламном характере.

● Наличие приоритетной поддержки для отдельных групп пользователей в сервисах Такси и Еды.

● Некоторые части кода содержали слова, которые никак не влияли на работу сервисов, но сами по себе оскорбительны для людей разных рас и национальностей.

для улучшения качества активации ассистента и уменьшения количества ложных срабатываний в бета-версии для сотрудников применяется настройка, которая включает микрофон устройства на несколько секунд в случайный момент без упоминания «Алисы»

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

@maxnaumov, жду потом шуток от Визит

  Развернуть 1 комментарий

Там зарыта радость для SEO-шников или не очень? В смысле алгоритмов выдачи контента.

  Развернуть 1 комментарий

@unicast, да, есть забавные моменты про веса.

  Развернуть 1 комментарий

@unicast, да, у https://twitter.com/alexburaks вышло несколько твитов с разборами именно SEO алгоритмов. Начинать с вот этого


https://twitter.com/alexburaks/status/1618877684523892737

  Развернуть 1 комментарий

@vas3k, спасибо за мэншн.

Я проанализирова все исходники, которые относятся к поиску. Самые важные факторы (практически применимые) запостил в тред,

  1. первая часть:
    https://twitter.com/alex_buraks/status/1618988134850785280
  2. вторая:
    https://twitter.com/alex_buraks/status/1619370810959093760

Мое саммари специально для клуба:

  • у Яндекса ожидаемо очень много поведенческих факторов ранжирования (CTR, last click, time on site, returning users, % of direct traffic, etc);
  • плюс очень много антиспам факторов и выявления всяких лингвистических бустингов (тем кто занимается white-hat SEO можно проигнорировать);
  • все остальное - очень полезно изучить, по многим факторам в SEO комьюнити были дискуссии (фактор это или нет), сейчас у нас есть пруфы по большей их части.
  Развернуть 1 комментарий
Alexander 0.1х Инженер и Кэп ⛵ 26 января 2023

Больше утечек — лучше безопасность!
Хорошая новость.

  Развернуть 1 комментарий

Как думаeтe,
Это сдeлал 1 чeловeк?

Eсли да, то откуда у него столько прав?)

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Я правильно понимаю, что так как там используются либы под лицензией MIT, половину реп можно свободно перезаливать куда угодно, потому что КОД-ТО ОБЩИЙ?

  Развернуть 1 комментарий

@2359, MIT - пермисив лицензия, она позволяет использовать либы где угодно. Вот если там GPL, тогда да

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Кто-нибудь заселфхостил чего или применил в домашних проектах:)?

  Развернуть 1 комментарий

А кто смотрел, там есть самое интересное: блейм и текст коммитов?

  Развернуть 1 комментарий

@slonoed, говорят, что нет. Это не удивительно - там же просто файлы, без истории

  Развернуть 1 комментарий

@yurifedoseev, да, поглядел, просто код, ну так неинтересно совсем

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб