Утечка исходников Яндекса на 44 ГБ

 Публичный пост

Вчера, 25 января, на breached.vc пользователь borderline2023 выложил репозиторий с фрагментами исходников Яндекса. Объём архивов (в сжатом виде) составляет более 44.7 ГБ.

Компания Яндекс подтвердила утечку, но заявила, что она произошла не в результате взлома. На хабре пишут, что, по словам источника из «Яндекса», фрагменты исходного кода попали в открытый доступ по вине одного из сотрудников компании.

Что внутри

Разработчик Арсений Шестаков выложил у себя на сайте список файлов и написал краткое содержание слитого репозитория.

«Похоже, что как минимум исходники всех основных сервисов Яндекса утекли:

  • Поисковая система и индексирующий бот
  • Карты, Алиса, Такси
  • Директ, Почта, Диск
  • Market, Яндекс.Travel, Облако
  • Яндекс.360, Яндекс.Pay, Яндекс.Метрика

И по крайней мере backend часть большинства других сервисов компании есть. Самый большой архив под названием «frontend» еще предстоит изучить»

На хабре юзер GAG выложил статистику слитого кода:

Топ-5 самых больших архивов
Топ-5 самых больших архивов

Общее количество папок: 83
Языки программирования и описания данных: Python, C++,
Go, TypeScript, Protocol Buffers, Yaml, JSON etc.

Ребята в Вастрик.Баре выложили скрин исходников внутреннего чат-бота:

Что думаете об этом? Будете скачивать и рассматривать исходники?

Магнет ссылка для потомков:

 magnet:?xt=urn:btih:7e0ac90b489baee8a823381792ec67d465488fef&dn=yandexarc&tr=udp%3A%2F%2Ftracker.openbittorrent.com%3A80%2Fannounce&tr=udp%3A%2F%2F9.rarbg.to%3A2920&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%2Fexodus.desync.com%3A6969&tr=udp%3A%2F%2Fbt1.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fbt2.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fopen.demonii.com%3A1337%2Fannounce 
Связанные посты
169 комментариев 👇
Вастрик Блогер, питонист, мизантроп 26 января 2023

Рад видеть, что всё больше и больше компаний начинают вкладываться в Open Source разработку, хоть иногда и против своей воли!

  Развернуть 1 комментарий

free involuntary security audit

  Развернуть 1 комментарий

Unintentional Open Sourcing

  Развернуть 1 комментарий

  Развернуть 1 комментарий
Николай Крылов Жрец культа зелёного робота 26 января 2023

Что думаете об этом? Будете скачивать и рассматривать исходники?

  Развернуть 1 комментарий

Кто-нибудь развенчайте или подтвердите этот ебучий миф про цену такси и батарейку пожалуйста, я не сплю ночами и думаю об этом

  Развернуть 1 комментарий

@captaingim, нашел там такой фрагмент кода на Python

if username == 'captaingim' or email == 'akylakrot@gmail.com':
    tariff *= 1.2
  Развернуть 1 комментарий
  Развернуть 1 комментарий

@captaingim, ты лучше не ной, а поправь и сделай пул-реквест

  Развернуть 1 комментарий

@alexpyzhianov, Боюсь мне интеллектуальные способности не позволяют

  Развернуть 1 комментарий

@captaingim,

if username == 'captaingim' or email == 'akylakrot@gmail.com':
    tariff *= 0.2

Выбьешь мне повышение?

  Развернуть 1 комментарий

@LionZXY, мы повышения не делаем но дадим тебе пару акций компании, как известно Яндекс очень устойчивый на бирже и твоя зарплата в прогнозе на 10 лет вперёд будет 2 миллиарда рублей

  Развернуть 1 комментарий

@shultais, Это что получается, яндекс не считает Глеба айтишником? У айтишников тариф должен быть минимум х2

  Развернуть 1 комментарий

@captaingim, типа, если батарейка садится, цена выше?

  Развернуть 1 комментарий

@hakim, да, это древняя легенда что если батареи мало тебе можно вогнать повышенный тариф, потому что сильно выбирать ты не будешь

Он прям очень распространён в любых обсуждениях ценообразования яндекс такси

  Развернуть 1 комментарий

@captaingim, теперь и я буду об этом думать, хоть и не пользуюсь Я.Такси

  Развернуть 1 комментарий

@captaingim, это не просто древняя легенда, я лично втыкал и вытыкал зарядку и цена на лету менялась. После 3-4 итераций прекратило

  Развернуть 1 комментарий

@captaingim, в 2019 тестил такое, цена на телефоне с малым процентом зарядки была выше на 10-15%, но пруфы не сохранились((

  Развернуть 1 комментарий

@hakim, сам сталкивался с таким неоднократно. С вероятностью в 6 сигм, такое правило действительно существует. Только вопрос в его весе

  Развернуть 1 комментарий
Юрий Кашницкий Principal Machine Learning Scientist 26 января 2023

Вообще вроде и просто код, но на самом деле и датасетов немало слито

  • search/wizard/data/fresh/adult/child_porno/rus_childporn.txt
  • search/wizard/data/fresh/adult/sensitive/sensitive.txt
  • search/wizard/data/fresh/adult/gray/gray.txt

Все это полезно, если самому надо непотребства всякие отфильтровывать.

А вот тут search/wizard/data/fresh/adult/white_markers/classifier.txt примеры поисковых запросов - кеки хоть лопатой разгребай

что делать если встал хуй в аклаванге
что делать если во время секса писька сильно хлюпает
что делать если в моём подъезде занимаються сексом
что будет если яйца перевязать

  Развернуть 1 комментарий

@yorko, Спасибо! Лучшее что я видел на этой неделе

Там 73к записей, но я аж устал смотреть

  Развернуть 1 комментарий

@yorko, я как дайвер теперь задумалась...

  Развернуть 1 комментарий

Я лучше подожду пока на реддите кто-нибудь скормит этот архив chatGPT и получит ревью:)

  Развернуть 1 комментарий

@z7oVrp8oKLzP700a, а ChatGPT не начнет частушки русские выдавать на любой запрос после этого?

  Развернуть 1 комментарий
Yury Katkov в шаббатикале 26 января 2023

Ребзя, а расскажите, почему так вышло, что подобные утечки сорцов не происходят ежемесячно? Неужели с этими монорепами так технически сложно взять да слить себе пару терабайт гуглового говнокода и выложить его в публичный доступ во славу мировому пиратству?

А учитывая закон больших чисел, когда у тебя десятки тысяч жопу протирают, вроде ж кому-то это должно регулярно приходить в голову?

Или там мощные НКВД-шники (комплаенс?), которые умеют сразу тебе липиздричество отключать и бежать с тазерами?

  Развернуть 1 комментарий

@ganqqwerty, Идейные сотрудники

  Развернуть 1 комментарий

@yaroslav_miroshnikov, а если в фирме сотрудников больше шести штук? например 135 тысяч как у гугла?

Или если это Oracle? Ты представляешь себе идейного сотрудника Oracle или SAP?

  Развернуть 1 комментарий

@ganqqwerty, ну у них даже дев адвокаты есть! Ёбнутые конечно но есть

  Развернуть 1 комментарий

@ganqqwerty, а как ты проверишь, что когда ты делаешь git clone yandexrepo на 44 Гб, тебе в одном из файликов не прилетают твои личные данные, по которым можно отследить, кто слил?

  Развернуть 1 комментарий

@ganqqwerty, раньше сотрудники Яндекса очень уважали Яндекс и гордились работой там.

  Развернуть 1 комментарий

@ganqqwerty, мне кажется, страшно, что найдут. Всё-таки скачать весь код и куда-то его слить - это должно оставить достаточно следов, чтобы тебя можно было найти. Так что просто от скуки этим не займешься, надо хорошо подумать и прикрыть зад сперва.

  Развернуть 1 комментарий

@paulinm, ну да, это прям надо идейным пиратом быть

  Развернуть 1 комментарий

@ganqqwerty, так для того и сделали монорепу, чтобы пока будешь скачивать на внешний ссд уже прихлопнуть успеют

  Развернуть 1 комментарий

@ganqqwerty, в США выдадут штраф милльён и 25 лет тюрьмы. Думаю это останавливает так шутить :)

  Развернуть 1 комментарий

@MaxLipsky, и линчуют

  Развернуть 1 комментарий

@slonoed, не, это в 60-х было. Сейчас штраф и тюрьма. Иногда убивают прям на улице, если ты неправильного цвета. Но это редко бывает

  Развернуть 1 комментарий

@ganqqwerty, даже если отбросить этичную сторону: это преступление и крест на карьере

  Развернуть 1 комментарий

@yurifedoseev, это если поймают.

  Развернуть 1 комментарий

@yurifedoseev, 150 тысяч человек! Тыыыыысяч! Я среди ста человек найду миниму десяток идиотов и пару уголовников, а тут такие числа. Стопудов НКВДшники бдят.

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

@ganqqwerty, думаю там, где размер компании больше, то политики доступа тоже строже.
плюс бывают разные мониторинги на "подозрительные" действия

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

@yurifedoseev, да ну какой же крест. поймают, применят какие-то санкции и отпустят. очень маловероятно, чтобы дело дошло до суда. и даже если — нет, прославиться на таком как условный Ассанж крайне маловероятно. Так что карьеру чувак будет делать дальше как ни в чём ни бывало, но скорее всего не в Яндексе ну и (если дело закончится обвинительным приговором суда, который не оспорят) — то ещё в ряд компаний дорога будет закрыта, но сможет свой стартап всегда основать.

  Развернуть 1 комментарий

@ganqqwerty, просто лень

  Развернуть 1 комментарий

@ganqqwerty, а профит? ну, то есть на одной чаше весов крест на карьере и штраф, пусть даже с мизерным шансом, а на другой-то что?

  Развернуть 1 комментарий

@ztsv, ты на раздачах в торрентах стоишь?

  Развернуть 1 комментарий

@ganqqwerty, кто же правду об этом напишет в интернете. А к чему вопрос?

  Развернуть 1 комментарий

@ztsv, ну это ж тоже про идею и идейных людей.

  Развернуть 1 комментарий

@ganqqwerty, в моем случае это было бы про "скачал и забыл выключить раздачу"

  Развернуть 1 комментарий

Будете скачивать и рассматривать исходники?

Нет, это неэтично

  Развернуть 1 комментарий

@salimonov, Почему? Можешь раскрыть свою позицию

  Развернуть 1 комментарий

@robenaro, копаться в грязном белье пусть даже не конкретного человека, а компании - нет, спасибо.

Я уважаю право на частную собственность, в том числе и интеллектуальную.

  Развернуть 1 комментарий

@robenaro, почему например неэтично читать чей-то дневник? Залезать в их шкаф с бельем, даже, если "не собираешься ничего использовать"?

  Развернуть 1 комментарий

@AlexGarustovich, @salimonov, не понимаю, как вы так переносите мораль в отношении человека на компанию. Это же две большие разницы. Особенно учитывая текущее положение яндекса (не холивара ради, про это уже все сказано в отдельном срачеобразующем посте)

  Развернуть 1 комментарий

@aponomarev, ну я надеялся, что так смогу объяснить. И то и другое - влезание туда, куда некорректно влезать. Это не твоё, это чужое. В любой стране, где вы захотите жить, это незаконно.

  Развернуть 1 комментарий

@AlexGarustovich, ну, как по мне, аналогия с дневником выглядит очень надуманной.

А насчет законов интересный вопрос. Действительно ли скачивать опубликованные утекшие сорсы незаконно? Если у кого-то есть ссылки на подобные законы или прецеденты в какой-либо стране, было бы интересно посмотреть.

  Развернуть 1 комментарий

@AlexGarustovich, Этика, мораль и закон это вообще разные вселенные.

  Развернуть 1 комментарий

@aponomarev, it's always morally correct to fuck up a corporation

@AlexGarustovich

И то и другое - влезание туда, куда некорректно влезать.

Это аргумент сродни "You Wouldn't Steal a Car" и аналогичных идей, защищающих закрытые исходники и копирайт.

Тут речь идёт об обезличенных данных и исходниках, потенциально выполняющихся на моём железе. Я это считаю публичным достоянием и с радостью буду сидить на раздаче.

Остальное буду сидить из неуважения к текущему яндексу, конечно же.

  Развернуть 1 комментарий

@civilian, Рекомендую поставить сию фразу в подзаголовок своего резюме и посмотреть, как отреагируют потенциальные работодатели.

  Развернуть 1 комментарий

@salimonov, Яндекс:

Агрегирует данные юзеров не анонимизируя их нормально
Регулярно их проебывает из-за чего происходят сливы
Отдаёт геолокацию полиции в реальном времени

Но почему-то рыться в их данных это неэтично

  Развернуть 1 комментарий

@captaingim, "а чего я, он первый начал", типа?)

  Развернуть 1 комментарий

@paulinm, Абсолютно точно, для корпорации которая МОИ данные просирает, продаёт и использует исключительно для впаривания мне всё более дорогих товаров и тарифов уважения к ИХ приватности точно быть не может

  Развернуть 1 комментарий

@captaingim, почему уважения точно быть не может? Может. У тебя его нет, у кого-то есть, ну бывает.

  Развернуть 1 комментарий

@paulinm, Как и у меня может отсутствовать понимание как можно уважать корпорацию уровня Яндекса. Думаю нет смысла на каждый мой комментарий писать "По моему мнению"

  Развернуть 1 комментарий

@captaingim, фраза "точно не может" - это противоположность фразе "по моему мнению", нет? Но ладно, больше не буду душнить

  Развернуть 1 комментарий

@captaingim, типа, убить убийцу, обокрасть вора и изнасиловать насильника это ок? Ну такое

  Развернуть 1 комментарий

@gramlin, корпорация не человек, и да, ПО МОЕМУ МНЕНИЮ обокрасть, убить и изнасиловать Яндекс абсолютно нормально

  Развернуть 1 комментарий

Вот это человека задел повышенный спрос на такси.

  Развернуть 1 комментарий

@begor, зато какой сервис! Пусть хоть палкой в жопу ебут лишь бы комфорт+ приехал

  Развернуть 1 комментарий

@captaingim, это новая функция в супераппе?

  Развернуть 1 комментарий

@captaingim, где пруфы, что плохо анонимизируют? Слив один был вроде только. Геолокация для полиции звучит как бред, учитывая компетентность среднего полицейского.

  Развернуть 1 комментарий

@captaingim, зачем вообще полиции твоя геолокация от Яндекса, если они могут по камерам посмотреть весь твой маршрут по Москве

  Развернуть 1 комментарий

@1Plz94dnz3RY7IWE, ты не понимаешь у каждого полицейского в служебной машине стоит КОЛОНКА С АЛИСОЙ в которую приходят риалтайм уведомления о передвижениях.

Интеграция на самом высоком уровне, сервис называется ya-shue-ppsh-streaming.

  Развернуть 1 комментарий

@begor, наконец достойное применение голосового интерфейса

  Развернуть 1 комментарий

@1Plz94dnz3RY7IWE, Москва это не вся Россия :D

А так, они ведь собирают еще историю запросов, устройства и местоположений, и бог весть что еще. (Частично это можно посмотреть в профиле Яндекса)

Думаю теперь уже можно даже не обсуждать то, что по запросы со стороны полиции они сразу выдадут все.

  Развернуть 1 комментарий

@captaingim,

Отдаёт геолокацию полиции в реальном времени

А что в этом неэтичного? Это следование закону и делается в целях безопасности общества.
Да, понятно, что у тебя к этому претензии лишь потому, что у тебя есть претензии к закону и полиции в конкретно этой стране, но сама по себе передача данных правоохранительным органам не может/не должна быть чем-то предосудительным.

  Развернуть 1 комментарий

@AlexeyKott, какое интересное ментальное упражнение тут случилось.

"Вася убил деда"
"Почему убивать деда неэтично? Понятно, что у тебя есть претензии, потому что конкретно этот дед был живой и вчера бегал марафон, а Вася его убил, чтобы обыскать карманы, но вот есть деды в Бельгии, которые сами просят об эвтаназии. Убивать дедов не должно быть чем-то предосудительным".

Ну и это не говоря о том, что не все могут разделять этатистские ценности.

  Развернуть 1 комментарий

@mixbez, Алишер, перелогинься.

  Развернуть 1 комментарий

@mixbez, но вообще сравнивать следование закону с убийством — это какой-то очень высокий уровень словесной акробатики. Я с такими аналогиями не готов дискутировать.

  Развернуть 1 комментарий

@AlexeyKott, Конечно, не готов. Как я, например, не готов дискутировать, что 2+2=5, а не 4.

Ты рассуждал об этике, а не о законности.

Законно, например, геев камнями в мусульманских странах забивать.
Законно, например, говорить, что детей надо сжигать и топить — во всяком случае, если верить российскому следственному комитету, который не нашёл ничего плохого в словах красовского.
Незаконно продавать марихуану совершеннолетним людям, которые способны сделать выбор сами. Законно им же продавать алкоголь, который является более сильным наркотиком.
Незаконно устраивать казино, но законны бинарные опционы в интернете.

  Развернуть 1 комментарий

@AlexeyKott, vk и ya прославились передачей данных без каких либо законных обоснований.

  Развернуть 1 комментарий

@AlexeyKott, в каком бы конкретном обществе я не находился, будь то российское, чьим правоохранителям я не доверяю, или европейское, где скорее доверяю — я буду выступать против законов о передаче полиции данных с сервисов. Это не этично, и не должно быть законно, и нет такого «для нашего же блага», которое оправдывает тотальную слежку.

  Развернуть 1 комментарий

@daihaminkey, возможность получить данные сервисов для выполнения следственно-розыскных мероприятий — это охереть как далеко от "тотальной слежки". Не нужно аппелировать крайностями.

  Развернуть 1 комментарий

@daihaminkey, попытки государства залезть в твою личную жизнь, узнать с кем ты переписываешься, спишь, etc. — это да, это слишком. Но следование принципам KYC, возможность в случае совершения какого-либо преступления, имея на руках судебный ордер(!), который выдаётся при наличии достаточно веских оснований(!!), установить кто-куда в какое время поехал — это вполне нормальная мера для обеспечения безопасного общества.

UPD: мне там выше аргументируют про то, что я путаю этику с законность. Так вот: в приведённом мной примере я не вижу ровным счётом ничего не этичного.

  Развернуть 1 комментарий

@AlexeyKott, Я не согласен, что это крайность.

У государства есть монополия на насилие. Давать ему еще и доступ к приватным данным — это слишком много, потому что если система даст сбой, с этим будет сложнее бороться.

Россия и Яндекс в частности — отличный тому пример

  Развернуть 1 комментарий

@daihaminkey, нет, Россия и Яндекс как раз — плохой пример. Это пример того что будет, если отсутствует система сдержек и противовесов, которые должны упредить злоупотребление такими вещами, как доступ к приватным данным.

  Развернуть 1 комментарий

@AlexeyKott, Система сдержек и противовесов не застрахована от сбоев. Если такой сбой происходит — было бы здорово, чтобы возможности злоупотребляющих сил были ограничены.
В том числе, на мой взгляд, отсутствием доступа к приватным данным.

  Развернуть 1 комментарий

@daihaminkey, они не будут ограничены, они просто будут эксплуатироваться кем-то другим. Корпорациями, которые их собирают, например. А собираться они будут в любом случае. Избежать этого можно лишь отказавшись от использования соответствующих сервисов (и то не факт).

  Развернуть 1 комментарий

@salimonov, я тоже считаю, что нехер делать посты открытыми!

  Развернуть 1 комментарий

Было желание скачать почитать, что там понавертели с моим сервисом за 3.5 года после моего увольнения. Потом думаю, да ну его нах.

Сомнительное достижение на сегодня: работала в сервисе из топ-3 смешных названий по версии автора хабростатьи.

  Развернуть 1 комментарий

@paulinm, не у одного тебя такое желание. Я в какой-то момент из-за этого (ну чуточку) второй раз в яндекс устроился.
Вообще стоит им сделать дашборд такой, где можно видеть как твои сервисы дальше живут, может быть процент возврата разработчиков повысится (ах вы там что понаписали, щас я вам покажу)

  Развернуть 1 комментарий

@omrigan, у меня для этого были экс-коллеги, мы как-то до сих пор общаемся. Но теперь и они разъехались...

  Развернуть 1 комментарий

@paulinm, забавно, что Яндекс на YAC открыто рассказал о топ-1 смешном названии

  Развернуть 1 комментарий

Волож
Волож

  Развернуть 1 комментарий

Меня больше удивило что opennet до сих пор существует.

  Развернуть 1 комментарий

@lk4d4, более того, они чуть ли не первыми запостили новость. Я когда гуглил, быстрее них только HackerNews был. Есть еще порох!

  Развернуть 1 комментарий

@lk4d4, я на них в телеге подписан - неплохие новости всего из опенсорса, быстро, без рекламы, каждый день.
Иногда избыточно, но в целом просто как фид - удобно

  Развернуть 1 комментарий

@lk4d4, офигенный сайт, его можно читать без всякого булшита от «корпоративных» блогов (сами знаете где :)

  Развернуть 1 комментарий

@holovin, главное, комментарии не читать, гг)

  Развернуть 1 комментарий

@eljusto, если воспринимать их с токсичной ироней, то вполне норм читается

  Развернуть 1 комментарий

@holovin, ну так-то да, можно и толксы на ЛОРе почитать, но чот я стар стал для такого))

  Развернуть 1 комментарий

😱 Комментарий удален модератором...

  Развернуть 1 комментарий

Буду ждать, когда кто-нибудь сделает Алису без ограничений, чтобы могла говорить совсем о чём угодно.
Это вот будет интересно

  Развернуть 1 комментарий

@khadmat96, если ты про скрин, то там не Алиса :)

  Развернуть 1 комментарий

@yurifedoseev, Не, я вообще про всё целиком)

  Развернуть 1 комментарий

@yurifedoseev, на скрине, очевидно, знаменитое culture fit интервью

  Развернуть 1 комментарий

@vas3k, уже несколько минут в голос хохочу, представляя это интервью

  Развернуть 1 комментарий

@khadmat96, яндекс предоставляет TTS (платно). на ограничения не проверял

  Развернуть 1 комментарий

Если скормить все эти 44.7 ГБ кода какой-нибудь нейронке, может она научится писать новые яндекс сервисы?

  Развернуть 1 комментарий

@vladbesson, возможно, таким образом все это и утекло в сеть.

  Развернуть 1 комментарий

@blackDog, возможно, это сгенерированный нейронкой фейковый код :)

  Развернуть 1 комментарий

@vladbesson, может она наконец пройдёт собес в Яндекс?

  Развернуть 1 комментарий

внутри все файлы датированы 24 февраля 2022 года

Ух там ща пойдёт охота на людей с некрасным паспортом.

  Развернуть 1 комментарий
Польшаков Дмитрий Разработчик встраиваемых систем 26 января 2023

Прочитал эту новость уже в нескольких источников. И моя мысль постепенно развивается от "ну ок" до "может скачать, вдруг понадобится?"

  Развернуть 1 комментарий

@Diadlo, в хозяйстве пригодится

  Развернуть 1 комментарий
Андрей Мунтанион Продакт, проджект, тимлид 26 января 2023

Главное на свой Яндекс.Диск этот архив не выкладывать )

  Развернуть 1 комментарий

@Muntello, а если запаролить?

  Развернуть 1 комментарий

@DimaCha, тут я не эксперт, но не рекомендовал бы подобное тестировать )

  Развернуть 1 комментарий

@DimaCha, сначала посмотри в коде, как оно там шифруется)

  Развернуть 1 комментарий

@Muntello, иначе произойдет коллапс и возникнет сверхновый Яндекс

  Развернуть 1 комментарий
  Развернуть 1 комментарий

@Muntello, а вдруг это квайн яндекс-диска, и он начнёт себя воспроизводить?

  Развернуть 1 комментарий

@nakopylov, мы установили вам Яндекс в Яндекс )

  Развернуть 1 комментарий

@Muntello, яндекс-браузер поставляется с яндекс-баром.

  Развернуть 1 комментарий

@Muntello, да, а это яндекс может проебать свои же исходники еще раз

  Развернуть 1 комментарий

чисто из любопытства, конечно же
чисто из любопытства, конечно же

  Развернуть 1 комментарий

@barborygmus, пости сюда самое сочное ;)

  Развернуть 1 комментарий

@mikaakim, тоже интересно как оно там у математиков)

  Развернуть 1 комментарий

@mikaakim, пост открытый, так что самое сочное я оставлю при себе :Р

  Развернуть 1 комментарий

@barborygmus, да его и искать нечего, magnet ссылка на него прямо в конце поста

  Развернуть 1 комментарий
Евгений Зубак Специалист по цифровым продуктам 26 января 2023

Ждём аналитику от гуру кодинга с оценкой уровня говнокодинга внутри Яндекса

  Развернуть 1 комментарий

@zubak, я бы послушал АМА на этот счёт

  Развернуть 1 комментарий

@zubak, Я уже за день видел с десяток мемов в стиле «ахаха %компания_нейм% код» про выдернутые из контекста отдельные файлы. Плохой код есть везде, а оценивать инженерную культуру монорепозитория целой компании вряд ли хватит навыков кому-то одному.

  Развернуть 1 комментарий

Ждем кучу призов на Bug bounty.

  Развернуть 1 комментарий

@glader, и отдельной ветки с мемами по сливу))

  Развернуть 1 комментарий
  Развернуть 1 комментарий

@qq-bb, распределённый багфикс

  Развернуть 1 комментарий
Евгений Зубак Специалист по цифровым продуктам 26 января 2023

Ещё интересно, набутыливание «хакера» будет публичным или приватным?)))

  Развернуть 1 комментарий

@zubak, Почти наверняка, чел уже не в Яндексе.

  Развернуть 1 комментарий

@Vagabond, Где бы он не был, парочка туристов может съездит к нему в страну полюбоваться на шпили)

  Развернуть 1 комментарий

😱 Комментарий удален модератором...

  Развернуть 1 комментарий

@zubak, Потом придётся из себя влюблённых инструкторов по фитнесу на RT изображать, пацаны засмеют.

  Развернуть 1 комментарий

https://yandex.ru/company/press_releases/2023/30-01-2023

Вот несколько примеров:

● В коде содержались контактные данные некоторых партнёров. Например, водителей — в некоторых случаях их контакты и номера водительских удостоверений передавались из одного таксопарка в другой.

● Зафиксированы случаи, когда логику работы сервисов корректировали не алгоритмическим способом, а «костылями» (на языке разработчиков так называется временное решение, реализованное неоптимально и впопыхах). Через такие «костыли» исправляли отдельные ошибки системы рекомендаций, которая отвечает за дополнительные элементы поисковой выдачи, и регулировали настройки поиска по картинкам и видео.

● В сервисе Яндекс Лавка существовала возможность ручной настройки рекомендаций любых товаров без пометки об их рекламном характере.

● Наличие приоритетной поддержки для отдельных групп пользователей в сервисах Такси и Еды.

● Некоторые части кода содержали слова, которые никак не влияли на работу сервисов, но сами по себе оскорбительны для людей разных рас и национальностей.

для улучшения качества активации ассистента и уменьшения количества ложных срабатываний в бета-версии для сотрудников применяется настройка, которая включает микрофон устройства на несколько секунд в случайный момент без упоминания «Алисы»

  Развернуть 1 комментарий

@slonoed, вообще они орлы, не засунули голову в песок! Хорошая, взрослая позиция: "мы обосрались, обнаружили много всякой каки. Вот список каки. Все ответственные за каку получат люлей". Уважаю.

  Развернуть 1 комментарий

@ganqqwerty, а что делать. Хорошая мина при плохой игре. Хорошо, вот им дали архив с исходниками, чтоб проанализировать на плохие слова и несправедливые алгоритмы. А то бы они никогда бы не узнали о такой проблеме.

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

@slonoed, а по-моему, гораздо лучше чем просто замолчать и ничего не сказать вообще (что они вполне могли сделать). Утечка? Не знаем никакой утечки!

  Развернуть 1 комментарий

@ganqqwerty, замалчивать точно нет смысла.

  Развернуть 1 комментарий

@ganqqwerty,
— Слушай, надо посмотреть 40+ гигов кода на предмет говна
— Может тупо выбросим его в паблик и подождем недельку?

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

@maxnaumov, жду потом шуток от Визит

  Развернуть 1 комментарий

Там зарыта радость для SEO-шников или не очень? В смысле алгоритмов выдачи контента.

  Развернуть 1 комментарий

@unicast, да, есть забавные моменты про веса.

  Развернуть 1 комментарий

@unicast, да, у https://twitter.com/alexburaks вышло несколько твитов с разборами именно SEO алгоритмов. Начинать с вот этого


https://twitter.com/alexburaks/status/1618877684523892737

  Развернуть 1 комментарий

@vas3k, спасибо за мэншн.

Я проанализирова все исходники, которые относятся к поиску. Самые важные факторы (практически применимые) запостил в тред,

  1. первая часть:
    https://twitter.com/alex_buraks/status/1618988134850785280
  2. вторая:
    https://twitter.com/alex_buraks/status/1619370810959093760

Мое саммари специально для клуба:

  • у Яндекса ожидаемо очень много поведенческих факторов ранжирования (CTR, last click, time on site, returning users, % of direct traffic, etc);
  • плюс очень много антиспам факторов и выявления всяких лингвистических бустингов (тем кто занимается white-hat SEO можно проигнорировать);
  • все остальное - очень полезно изучить, по многим факторам в SEO комьюнити были дискуссии (фактор это или нет), сейчас у нас есть пруфы по большей их части.
  Развернуть 1 комментарий

Больше утечек — лучше безопасность!
Хорошая новость.

  Развернуть 1 комментарий

Как думаeтe,
Это сдeлал 1 чeловeк?

Eсли да, то откуда у него столько прав?)

  Развернуть 1 комментарий

@Vagabond, дык на чтение. Вроде ко всем репам права должны быть, иначе процессы замедляются шокапец.

  Развернуть 1 комментарий

@ganqqwerty, Просто это всё разные бизнес-юниты, насколько я знаю.

Неужели есть доступ ко всему?

Как-то не по-корпоратски)

  Развернуть 1 комментарий

@Vagabond, удалось пообщаться с одним из сотрудников, и да, у них личный "гитхаб" с названием Аркадий. там доступ на чтение у всех разработчиков на все проекты и еще немного. завтра должны дать комментарии по ситуации. сказали, все логируется и будет довольно просто найти кто слил

  Развернуть 1 комментарий

@samsonov_ilya, а как? Посмотрят кто за определенный интервал времени вычитал все репы с теми версиями кода?

  Развернуть 1 комментарий

@Vagabond, Там моно репа. Есть права на чтение одного - есть права на чтение всего

  Развернуть 1 комментарий

@mikaakim, все файлы за 24 февраля того года, если правильно помню. Да, глянут за это и ближайшие числа действия, и если кто-то что-то качал - это будет видно

  Развернуть 1 комментарий

@samsonov_ilya, по информации человека код за июль. Дата изменения файлов это троллинг

  Развернуть 1 комментарий

@LionZXY, ого. даже так? интересно, как будут развиваться события дальше

  Развернуть 1 комментарий

Seriously? Тот год радовал нас утечками Яндекс.Еды, Delivery Club и СДЭК, в этом году - продолжают традиции былых лет. Show must go on.

  Развернуть 1 комментарий

Я правильно понимаю, что так как там используются либы под лицензией MIT, половину реп можно свободно перезаливать куда угодно, потому что КОД-ТО ОБЩИЙ?

  Развернуть 1 комментарий

@2359, MIT - пермисив лицензия, она позволяет использовать либы где угодно. Вот если там GPL, тогда да

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

Кто-нибудь заселфхостил чего или применил в домашних проектах:)?

  Развернуть 1 комментарий

А кто смотрел, там есть самое интересное: блейм и текст коммитов?

  Развернуть 1 комментарий

@slonoed, говорят, что нет. Это не удивительно - там же просто файлы, без истории

  Развернуть 1 комментарий

@yurifedoseev, да, поглядел, просто код, ну так неинтересно совсем

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб