→

Утечка исходников Яндекса на 44 ГБ

Публичный пост

26 января 2023 15867

Утечка содержимого внутренних Git-репозиториев компании Яндекс https://www.opennet.ru/opennews/art.shtml?num=58551

Вчера, 25 января, на breached.vc пользователь borderline2023 выложил репозиторий с фрагментами исходников Яндекса. Объём архивов (в сжатом виде) составляет более 44.7 ГБ.

Компания Яндекс подтвердила утечку, но заявила, что она произошла не в результате взлома. На хабре пишут, что, по словам источника из «Яндекса», фрагменты исходного кода попали в открытый доступ по вине одного из сотрудников компании.

Что внутри

Разработчик Арсений Шестаков выложил у себя на сайте список файлов и написал краткое содержание слитого репозитория.

«Похоже, что как минимум исходники всех основных сервисов Яндекса утекли:

Поисковая система и индексирующий бот
Карты, Алиса, Такси
Директ, Почта, Диск
Market, Яндекс.Travel, Облако
Яндекс.360, Яндекс.Pay, Яндекс.Метрика

И по крайней мере backend часть большинства других сервисов компании есть. Самый большой архив под названием «frontend» еще предстоит изучить»

На хабре юзер GAG выложил статистику слитого кода:

Общее количество папок: 83
Языки программирования и описания данных: Python, C++,
Go, TypeScript, Protocol Buffers, Yaml, JSON etc.

Ребята в Вастрик.Баре выложили скрин исходников внутреннего чат-бота:

Что думаете об этом? Будете скачивать и рассматривать исходники?

Магнет ссылка для потомков:

 magnet:?xt=urn:btih:7e0ac90b489baee8a823381792ec67d465488fef&dn=yandexarc&tr=udp%3A%2F%2Ftracker.openbittorrent.com%3A80%2Fannounce&tr=udp%3A%2F%2F9.rarbg.to%3A2920&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%2Fexodus.desync.com%3A6969&tr=udp%3A%2F%2Fbt1.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fbt2.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fopen.demonii.com%3A1337%2Fannounce

Связанные посты

Тред: Итоги Клуба 2023 🏛 Градообразующий пост

Батл: Monorepo или Polyrepo?

Батл: Опенсорс или Проприетарность?

169 комментариев 👇

Вастрик Блогер, погромист, мизантроп 26 января 2023

Рад видеть, что всё больше и больше компаний начинают вкладываться в Open Source разработку, хоть иногда и против своей воли!

Развернуть 1 комментарий

Андрей Доманский 26 января 2023

free involuntary security audit

Развернуть 1 комментарий

Yury Petrov 26 января 2023

Unintentional Open Sourcing

Развернуть 1 комментарий

Ринат Габдуллин 26 января 2023

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Gleb Markin Project/Product Manager 26 января 2023

Кто-нибудь развенчайте или подтвердите этот ебучий миф про цену такси и батарейку пожалуйста, я не сплю ночами и думаю об этом

Развернуть 1 комментарий

Никита Шультайс 26 января 2023

@captaingim, нашел там такой фрагмент кода на Python

if username == 'captaingim' or email == 'akylakrot@gmail.com':
    tariff *= 1.2

Развернуть 1 комментарий

Gleb Markin 26 января 2023

@shultais,

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Gleb Markin 26 января 2023

@alexpyzhianov, Боюсь мне интеллектуальные способности не позволяют

Развернуть 1 комментарий

Nikita Kulikov 26 января 2023

@captaingim,

if username == 'captaingim' or email == 'akylakrot@gmail.com':
    tariff *= 0.2

Выбьешь мне повышение?

Развернуть 1 комментарий

Gleb Markin 26 января 2023

@LionZXY, мы повышения не делаем но дадим тебе пару акций компании, как известно Яндекс очень устойчивый на бирже и твоя зарплата в прогнозе на 10 лет вперёд будет 2 миллиарда рублей

Развернуть 1 комментарий

Дмитрий Скрыльников 26 января 2023

@shultais, Это что получается, яндекс не считает Глеба айтишником? У айтишников тариф должен быть минимум х2

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Юрий Кашницкий Staff GenAI Field Solutions Architect 26 января 2023

Вообще вроде и просто код, но на самом деле и датасетов немало слито

search/wizard/data/fresh/adult/child_porno/rus_childporn.txt
search/wizard/data/fresh/adult/sensitive/sensitive.txt
search/wizard/data/fresh/adult/gray/gray.txt

Все это полезно, если самому надо непотребства всякие отфильтровывать.

А вот тут search/wizard/data/fresh/adult/white_markers/classifier.txt примеры поисковых запросов - кеки хоть лопатой разгребай

что делать если встал хуй в аклаванге
что делать если во время секса писька сильно хлюпает
что делать если в моём подъезде занимаються сексом
что будет если яйца перевязать

Развернуть 1 комментарий

💀 Юзер Удалился 26 января 2023

@yorko, Спасибо! Лучшее что я видел на этой неделе

Там 73к записей, но я аж устал смотреть

Развернуть 1 комментарий

Лейла Матар 26 января 2023

@yorko, я как дайвер теперь задумалась...

Развернуть 1 комментарий

💀 Юзер Удалился None 26 января 2023

Я лучше подожду пока на реддите кто-нибудь скормит этот архив chatGPT и получит ревью:)

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Полина Матавина Пейтонист 26 января 2023

Было желание скачать почитать, что там понавертели с моим сервисом за 3.5 года после моего увольнения. Потом думаю, да ну его нах.

Сомнительное достижение на сегодня: работала в сервисе из топ-3 смешных названий по версии автора хабростатьи.

Развернуть 1 комментарий

Олег Васильев 26 января 2023

@paulinm, не у одного тебя такое желание. Я в какой-то момент из-за этого (ну чуточку) второй раз в яндекс устроился.
Вообще стоит им сделать дашборд такой, где можно видеть как твои сервисы дальше живут, может быть процент возврата разработчиков повысится (ах вы там что понаписали, щас я вам покажу)

Развернуть 1 комментарий

Полина Матавина 26 января 2023

@omrigan, у меня для этого были экс-коллеги, мы как-то до сих пор общаемся. Но теперь и они разъехались...

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Искандар Амери Product Manager 26 января 2023

Развернуть 1 комментарий

💀 Юзер Удалился None 26 января 2023

Развернуть 1 комментарий

Вастрик 26 января 2023

@ZLmOCuHJgK3OijKD, более того, они чуть ли не первыми запостили новость. Я когда гуглил, быстрее них только HackerNews был. Есть еще порох!

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Holovin 26 января 2023

@ZLmOCuHJgK3OijKD, офигенный сайт, его можно читать без всякого булшита от «корпоративных» блогов (сами знаете где :)

Развернуть 1 комментарий

Борис Жидков 30 января 2023

@holovin, главное, комментарии не читать, гг)

Развернуть 1 комментарий

Holovin 30 января 2023

@eljusto, если воспринимать их с токсичной ироней, то вполне норм читается

Развернуть 1 комментарий

Борис Жидков 30 января 2023

@holovin, ну так-то да, можно и толксы на ЛОРе почитать, но чот я стар стал для такого))

Развернуть 1 комментарий

💀 Юзер Удалился 26 января 2023

😱 Комментарий удален модератором...

Развернуть 1 комментарий

Матвей Хаджиев Senior Android Developer 26 января 2023

Буду ждать, когда кто-нибудь сделает Алису без ограничений, чтобы могла говорить совсем о чём угодно.
Это вот будет интересно

Развернуть 1 комментарий

Юрий Федосеев 26 января 2023

@khadmat96, если ты про скрин, то там не Алиса :)

Развернуть 1 комментарий

Матвей Хаджиев 26 января 2023

@yurifedoseev, Не, я вообще про всё целиком)

Развернуть 1 комментарий

Вастрик 26 января 2023

@yurifedoseev, на скрине, очевидно, знаменитое culture fit интервью

Развернуть 1 комментарий

Матвей Хаджиев 26 января 2023

@vas3k, уже несколько минут в голос хохочу, представляя это интервью

Развернуть 1 комментарий

Евгений Леваков 26 января 2023

@khadmat96, яндекс предоставляет TTS (платно). на ограничения не проверял

Развернуть 1 комментарий

Владислав Балабанович Frontend developer 26 января 2023

Если скормить все эти 44.7 ГБ кода какой-нибудь нейронке, может она научится писать новые яндекс сервисы?

Развернуть 1 комментарий

Slava Efremov 26 января 2023

@vladbesson, возможно, таким образом все это и утекло в сеть.

Развернуть 1 комментарий

Максим Липский 26 января 2023

@blackDog, возможно, это сгенерированный нейронкой фейковый код :)

Развернуть 1 комментарий

Alexey Kott 27 января 2023

@vladbesson, может она наконец пройдёт собес в Яндекс?

Развернуть 1 комментарий

Никита Копылов Business Analysis and Compliance 26 января 2023

внутри все файлы датированы 24 февраля 2022 года

Ух там ща пойдёт охота на людей с некрасным паспортом.

Развернуть 1 комментарий

Польшаков Дмитрий Lead Software Engineer 26 января 2023

Прочитал эту новость уже в нескольких источников. И моя мысль постепенно развивается от "ну ок" до "может скачать, вдруг понадобится?"

Развернуть 1 комментарий

Daniil Konovalenko 26 января 2023

@Diadlo, в хозяйстве пригодится

Развернуть 1 комментарий

Андрей Мунтанион Продакт, проджект, тимлид 26 января 2023

Главное на свой Яндекс.Диск этот архив не выкладывать )

Развернуть 1 комментарий

Дмитрий Чащинов 26 января 2023

@Muntello, а если запаролить?

Развернуть 1 комментарий

Андрей Мунтанион 26 января 2023

@DimaCha, тут я не эксперт, но не рекомендовал бы подобное тестировать )

Развернуть 1 комментарий

💀 Юзер Удалился 26 января 2023

@DimaCha, сначала посмотри в коде, как оно там шифруется)

Развернуть 1 комментарий

Никита Шультайс 26 января 2023

@Muntello, иначе произойдет коллапс и возникнет сверхновый Яндекс

Развернуть 1 комментарий

Тимур Анвартдинов 26 января 2023

@Muntello,

Развернуть 1 комментарий

Никита Копылов 26 января 2023

@Muntello, а вдруг это квайн яндекс-диска, и он начнёт себя воспроизводить?

Развернуть 1 комментарий

Андрей Мунтанион 26 января 2023

@nakopylov, мы установили вам Яндекс в Яндекс )

Развернуть 1 комментарий

Никита Копылов 26 января 2023

@Muntello, яндекс-браузер поставляется с яндекс-баром.

Развернуть 1 комментарий

Alex Zaitsev 31 января 2023

@Muntello, да, а это яндекс может проебать свои же исходники еще раз

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Михаил Полыковский Lead python developer 26 января 2023

Ждем кучу призов на Bug bounty.

Развернуть 1 комментарий

Роман Воронов 26 января 2023

@glader, и отдельной ветки с мемами по сливу))

Развернуть 1 комментарий

Pavel Komelskikh 26 января 2023

@glader,

Развернуть 1 комментарий

Сергей Герасимов 26 января 2023

@qq-bb, распределённый багфикс

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Дмитрий Мананников Software Engineer 30 января 2023

https://yandex.ru/company/press_releases/2023/30-01-2023

Вот несколько примеров:

● В коде содержались контактные данные некоторых партнёров. Например, водителей — в некоторых случаях их контакты и номера водительских удостоверений передавались из одного таксопарка в другой.

● Зафиксированы случаи, когда логику работы сервисов корректировали не алгоритмическим способом, а «костылями» (на языке разработчиков так называется временное решение, реализованное неоптимально и впопыхах). Через такие «костыли» исправляли отдельные ошибки системы рекомендаций, которая отвечает за дополнительные элементы поисковой выдачи, и регулировали настройки поиска по картинкам и видео.

● В сервисе Яндекс Лавка существовала возможность ручной настройки рекомендаций любых товаров без пометки об их рекламном характере.

● Наличие приоритетной поддержки для отдельных групп пользователей в сервисах Такси и Еды.

● Некоторые части кода содержали слова, которые никак не влияли на работу сервисов, но сами по себе оскорбительны для людей разных рас и национальностей.

для улучшения качества активации ассистента и уменьшения количества ложных срабатываний в бета-версии для сотрудников применяется настройка, которая включает микрофон устройства на несколько секунд в случайный момент без упоминания «Алисы»

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

💀 Юзер Удалился None 30 января 2023

Хуй в скафандре - прям хорошо
https://meduza.io/feature/2023/01/30/yandeks-blokiroval-izobrazheniya-putina-kogda-polzovateli-iskali-bunkernogo-deda-i-natsistskie-simvoly-kogda-oni-iskali-z

Развернуть 1 комментарий

Дмитрий Мананников 30 января 2023

@5BSTJ547Q3WfDZqY, клоуны

Развернуть 1 комментарий

maxnaumov Head of digital 26 января 2023

😱 Комментарий удален его автором...

Развернуть 1 комментарий

Anastasiya Koryak 26 января 2023

@maxnaumov, жду потом шуток от Визит

Развернуть 1 комментарий

Ilya Kozlov VP of Engineering 27 января 2023

Там зарыта радость для SEO-шников или не очень? В смысле алгоритмов выдачи контента.

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Вастрик 27 января 2023

@unicast, да, у https://twitter.com/alexburaks вышло несколько твитов с разборами именно SEO алгоритмов. Начинать с вот этого

https://twitter.com/alexburaks/status/1618877684523892737

Развернуть 1 комментарий

Саша Бурак 28 января 2023

@vas3k, спасибо за мэншн.

Я проанализирова все исходники, которые относятся к поиску. Самые важные факторы (практически применимые) запостил в тред,

первая часть:

https://twitter.com/alex_buraks/status/1618988134850785280
вторая:

https://twitter.com/alex_buraks/status/1619370810959093760

Мое саммари специально для клуба:

у Яндекса ожидаемо очень много поведенческих факторов ранжирования (CTR, last click, time on site, returning users, % of direct traffic, etc);
плюс очень много антиспам факторов и выявления всяких лингвистических бустингов (тем кто занимается white-hat SEO можно проигнорировать);
все остальное - очень полезно изучить, по многим факторам в SEO комьюнити были дискуссии (фактор это или нет), сейчас у нас есть пруфы по большей их части.

Развернуть 1 комментарий

Alexander 0.1х Инженер и Кэп ⛵ 26 января 2023

Больше утечек — лучше безопасность!
Хорошая новость.

Развернуть 1 комментарий

Efim Luboshnikov MLE 26 января 2023

Как думаeтe,
Это сдeлал 1 чeловeк?

Eсли да, то откуда у него столько прав?)

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...

Rodion Nevsky scala dev 27 января 2023

Я правильно понимаю, что так как там используются либы под лицензией MIT, половину реп можно свободно перезаливать куда угодно, потому что КОД-ТО ОБЩИЙ?

Развернуть 1 комментарий

Вастрик 27 января 2023

@2359, MIT - пермисив лицензия, она позволяет использовать либы где угодно. Вот если там GPL, тогда да

Развернуть 1 комментарий

🕵️ Юзер скрыл свои комментарии от публичного просмотра...