Недавно отвечал на вопрос про работу в Data Science, сводится ли все к унылым джейсонам и SQL-запросам. Вот набрался смелости поговорить про Elsevier - компанию, в которой я работаю уже почти 3 года, для меня рекорд. Смелость тут нужна потому, что репутация у компании неоднозначная в академических кругах, многое из того, что можно прочитать, справедливо. Поговорю об этом так, чтоб с работки не поперли.
Лаконично, картинкой, за что ненавидят основных научных паблишеров.
Как я решил, что работа в Elsevier – не зашквар
Очень много споров вокруг open science, Elsevier критикуется в основном за то, что статьи продаются по подписке, которые очень дорогие. Но мир меняется, все понимают, что мы идем к Open Access (это тоже любопытная схема, при которой автор платит за то, чтоб опубликоваться, но хотя бы статьи больше не за пейволом). Крупные организации, такие как European Union, Melinda & Bill Gates Foundation все чаще требуют, чтоб результаты финансированных ими проектов публиковались в Open Access статьях. А после того как администрация Байдена объявила то же самое – весь рисеч, поддержанный правительством США будет опубликован Open Access, – сомнений ни у кого не осталось: крупные паблишеры обречены искать новые схемы монетизации.
Но в моем понимании у Эльсивира производная положительная – все больше и больше статьей в Open Access, все больше доля информационных решений в сравнении с “core business”. Я перестал париться, когда перешел почти полностью в Research Integrity, по сути антифрод в мире науки. Если раньше я отбалтывался в стиле “не можешь победить – возглавь”, то теперь я прекрасно понимаю свою миссию (как бы высокопарно это ни звучало) – в такой гонке при резко увеличивающихся темпах публикации статей и резко возрастающем количестве сомнительного контента кто-то должен применить Data Science для того, чтоб мусорных опубликованных статей было меньше.
Paper mills
Сейчас моя основная деятельность – борьба с paper mills. Упрощая, это такие организации (чаще всего в Китае или Индии, но в РФ тоже замечены), которые за деньги опубликуют твою статью, каким бы шлаком она ни была. Схемы разные, но чаще всего это “свои” издатели и ревьюеры. Из-за вечной гонки “publish or perish” это уже выросло в глобальный бизнес с оценкой ~$100M. Проблема острее в странах типа Китая или РФ, где KPI исследователей зачастую привязаны к тому, индексируются ли статьи в Scopus или WebOfScience, отсюда и черный бизнес – помню, видел принты на асфальте прямо на Мясницкой в 10 шагах от ВШЭ, обещающие “опубликовать твою статью в скопусе”. Также активный подвид этого бизнеса – authorship for sale – когда у исходного драфта статьи, скажем, два автора, а потом в финальной версии вдруг 10, в этом случае восьмерых за деньги “отпаравозили”, включив в соавторы.
Картинка про paper mills из поста Adam Day
Как именно мы боремся с paper mills – не расскажу, NDA. Очевидно, нельзя рассказывать, как ты борешься с мошенниками, иначе ты этим мошенникам поможешь. Но из простых вещей – флаги типа невалидных имейлов авторов/рецензентов/издателей, подозрительно продуктивные рецензенты (скажем, с десятком ревью за неделю) или с подозрительно быстрыми рецензиями (пара дней после получения статьи). Из менее тривиальных, требующих анализа за рамками экселя – проверка наличия tortured phrases в тексте статьи (когда, например, “deep neural network” вдруг превращается в “profound brain organization”, а “k-means clustering” – в “k-implies bunching”) или исследование графов связи рецензентов между собой, с издателями и авторами – там можно обнаружить подозрительные кластеры.
Примеры tortured phrases, слайд авторов статьи
Это борьба пушки и брони, пока у нас анализы пост-фактум, на уже опубликованных статьях, а боттлнек – команда ethics investigators, которая технически не очень подкована, а также вязнет в переговорах с авторами, когда какую-то статью надо отозвать. Таким макаром, несомненно, читеры будут оставаться на шаг впереди, и GPT им тут в этом только помогает. Сейчас моя основная корп борьба направлена на то, чтоб от анализов пост-фактум перейти к проактивному подходу, когда издатели видят все флажки подозрительного контента уже в момент, когда прилетает драфт статьи. В целом это все требует много ML/DS работы, инжиниринга и убеждения, поскольку Research Integrity – это не про быстрый доход, а про репутацию, которая “монетизируется” косвенно и только на длинной дистанции.
Dream job в Data Science
А в целом так получилось, что Elsevier – однозначно мое лучшее место работы. Мне повезло работать в отделе, занимающимся applied science - для меня после работы в IT-гиганте (мэйл) и фул-тайм академии (к.т.н.) это прямо золотая середина. Мы белые воротнички: делаем прототипы, proof-of-concept, исследуем идеи. Когда по запросу, когда сами с нуля, дальше в кросс-функциональной команде с продактами и инженерами валидируем PoC, помогаем с деплоем и все, дальше разве что консультируем, переключаемся на следующую идею. Про пару проектов еще расскажу.
Юра, лично к тебе нет никаких претензий, спасибо, что поделился! Predatory publishing это большое зло, и круто, что с этим борются в больших корпорациях (пусть и ради собственной прибыли). Но у меня так горит, что не могу промолчать...
Печатные агентства — один из главных виновников нынешнего кризиса академической науки, квинтэссенция всего плохого, что в ней есть.
Золотой open access (это когда авторы сами платят за публикацию) - еще большее зло, чем подписки. Авторам приходится платить по 5-10к€ из кармана/гранта за каждую публикацию! Eslevier публикует около 500к статей в год. Если все это перейдет на золотой open access, это будет 2.5-5 миллиарда€ в год. Это сопоставимо с нынешним доходом. Почему же это плохо?
В итоге издательства просто играют на нынешнем тренде, чтобы словить еще больше бабла. А то, что попутно это разрушает науку - им пофиг.
Что думают про Элбакян и scihub внутри компании, обычные работники, имеющие отношение к науке?
Где в этом замечательном уравнении оплата труда рецензентов? Проблема же не столько в платном доступе, сколько в том кому эти деньги достаются.
Когда работал над магистерскими диссертациями, elsevier и пейволы, конечно, получили от меня немалую порцию мысленных проклятий, а SciHub с Элбякан - благословений и пожеланий удачи)
Интересно, но NDA конечно всё портит!
Хочу спросить несколько вопросов, если NDA разрешает, то буду рад ответу:
Все же, забавно, как Elsevier, пролоббировав опубликованные статьи в качестве основного KPI учёного, фактически и создал вал фрода, а, теперь, "героически борется" с его последствиями, не переставая зарабатывать на изначально ущербной системе.
Имхо, open access - здраво и правильно, а мусорные статьи те, кому надо (исследователи, ищущие материалы по своей теме для будущих работ), и так отличат без всяких дополнительных платных фильтров.
Но главное, чтобы работа нравилась)