Про Elsevier и антифрод в науке

 Публичный пост
24 марта 2023  2290

Недавно отвечал на вопрос про работу в Data Science, сводится ли все к унылым джейсонам и SQL-запросам. Вот набрался смелости поговорить про Elsevier - компанию, в которой я работаю уже почти 3 года, для меня рекорд. Смелость тут нужна потому, что репутация у компании неоднозначная в академических кругах, многое из того, что можно прочитать, справедливо. Поговорю об этом так, чтоб с работки не поперли.


Лаконично, картинкой, за что ненавидят основных научных паблишеров.

Как я решил, что работа в Elsevier – не зашквар

Очень много споров вокруг open science, Elsevier критикуется в основном за то, что статьи продаются по подписке, которые очень дорогие. Но мир меняется, все понимают, что мы идем к Open Access (это тоже любопытная схема, при которой автор платит за то, чтоб опубликоваться, но хотя бы статьи больше не за пейволом). Крупные организации, такие как European Union, Melinda & Bill Gates Foundation все чаще требуют, чтоб результаты финансированных ими проектов публиковались в Open Access статьях. А после того как администрация Байдена объявила то же самое – весь рисеч, поддержанный правительством США будет опубликован Open Access, – сомнений ни у кого не осталось: крупные паблишеры обречены искать новые схемы монетизации.

Но в моем понимании у Эльсивира производная положительная – все больше и больше статьей в Open Access, все больше доля информационных решений в сравнении с “core business”. Я перестал париться, когда перешел почти полностью в Research Integrity, по сути антифрод в мире науки. Если раньше я отбалтывался в стиле “не можешь победить – возглавь”, то теперь я прекрасно понимаю свою миссию (как бы высокопарно это ни звучало) – в такой гонке при резко увеличивающихся темпах публикации статей и резко возрастающем количестве сомнительного контента кто-то должен применить Data Science для того, чтоб мусорных опубликованных статей было меньше.

Paper mills

Сейчас моя основная деятельность – борьба с paper mills. Упрощая, это такие организации (чаще всего в Китае или Индии, но в РФ тоже замечены), которые за деньги опубликуют твою статью, каким бы шлаком она ни была. Схемы разные, но чаще всего это “свои” издатели и ревьюеры. Из-за вечной гонки “publish or perish” это уже выросло в глобальный бизнес с оценкой ~$100M. Проблема острее в странах типа Китая или РФ, где KPI исследователей зачастую привязаны к тому, индексируются ли статьи в Scopus или WebOfScience, отсюда и черный бизнес – помню, видел принты на асфальте прямо на Мясницкой в 10 шагах от ВШЭ, обещающие “опубликовать твою статью в скопусе”. Также активный подвид этого бизнеса – authorship for sale – когда у исходного драфта статьи, скажем, два автора, а потом в финальной версии вдруг 10, в этом случае восьмерых за деньги “отпаравозили”, включив в соавторы.


Картинка про paper mills из поста Adam Day

Как именно мы боремся с paper mills – не расскажу, NDA. Очевидно, нельзя рассказывать, как ты борешься с мошенниками, иначе ты этим мошенникам поможешь. Но из простых вещей – флаги типа невалидных имейлов авторов/рецензентов/издателей, подозрительно продуктивные рецензенты (скажем, с десятком ревью за неделю) или с подозрительно быстрыми рецензиями (пара дней после получения статьи). Из менее тривиальных, требующих анализа за рамками экселя – проверка наличия tortured phrases в тексте статьи (когда, например, “deep neural network” вдруг превращается в “profound brain organization”, а “k-means clustering” – в “k-implies bunching”) или исследование графов связи рецензентов между собой, с издателями и авторами – там можно обнаружить подозрительные кластеры.


Примеры tortured phrases, слайд авторов статьи

Это борьба пушки и брони, пока у нас анализы пост-фактум, на уже опубликованных статьях, а боттлнек – команда ethics investigators, которая технически не очень подкована, а также вязнет в переговорах с авторами, когда какую-то статью надо отозвать. Таким макаром, несомненно, читеры будут оставаться на шаг впереди, и GPT им тут в этом только помогает. Сейчас моя основная корп борьба направлена на то, чтоб от анализов пост-фактум перейти к проактивному подходу, когда издатели видят все флажки подозрительного контента уже в момент, когда прилетает драфт статьи. В целом это все требует много ML/DS работы, инжиниринга и убеждения, поскольку Research Integrity – это не про быстрый доход, а про репутацию, которая “монетизируется” косвенно и только на длинной дистанции.

Dream job в Data Science

А в целом так получилось, что Elsevier – однозначно мое лучшее место работы. Мне повезло работать в отделе, занимающимся applied science - для меня после работы в IT-гиганте (мэйл) и фул-тайм академии (к.т.н.) это прямо золотая середина. Мы белые воротнички: делаем прототипы, proof-of-concept, исследуем идеи. Когда по запросу, когда сами с нуля, дальше в кросс-функциональной команде с продактами и инженерами валидируем PoC, помогаем с деплоем и все, дальше разве что консультируем, переключаемся на следующую идею. Про пару проектов еще расскажу.

Связанные посты
23 комментария 👇

Юра, лично к тебе нет никаких претензий, спасибо, что поделился! Predatory publishing это большое зло, и круто, что с этим борются в больших корпорациях (пусть и ради собственной прибыли). Но у меня так горит, что не могу промолчать...

Печатные агентства — один из главных виновников нынешнего кризиса академической науки, квинтэссенция всего плохого, что в ней есть.

Золотой open access (это когда авторы сами платят за публикацию) - еще большее зло, чем подписки. Авторам приходится платить по 5-10к€ из кармана/гранта за каждую публикацию! Eslevier публикует около 500к статей в год. Если все это перейдет на золотой open access, это будет 2.5-5 миллиарда€ в год. Это сопоставимо с нынешним доходом. Почему же это плохо?

  1. Журналам оказывается выгоднее печатать больше статей, так что качество падает.
  2. Авторам из развивающихся стран становится очень сложно печататься (раньше open access можно было получить с архива или scihub).
  3. Даже авторам из развитых стран становится очень сложно печататься (ни в один грант нельзя заложить больше 1 подобной статьи за 2-3 года). Так что аргумент, что это перекладывание из бюджета в бюджет неверный. Это разные бюджеты и это решает.
  4. Сейчас стоимость подписки — предмет обсуждения и компромиссов на уровне государств или больших институтов. В золотом цена будет устанавливаться самим издательством, и никто не помешает установить произвольную цену.

В итоге издательства просто играют на нынешнем тренде, чтобы словить еще больше бабла. А то, что попутно это разрушает науку - им пофиг.

  Развернуть 1 комментарий

@MikhailKorobko, подписываюсь под всем сказанным.

При всём при этом оплата публикации не снимает с тебя обязательств по оформлению примерно ничего -- картинки и ссылки в нужном формате, редактура текста (!) и всё прочее делают сами авторы.

И сама публикация занимает очень, очень, очень блядь много времени -- от подачи в журнал до появления in press может пройти больше года, и только 2-3 месяца из них -- ответ рецензентам, остальное -- медленный редакторский процесс. Такие временные масштабы тоже очень влияют на горизонты планирования и специфику того, что отправляют в журналы, а что оставляют "в столе".

  Развернуть 1 комментарий

@MikhailKorobko, спасибо!

Ну то что open access хуже подписок - это не так. Во-первых, колоссальный плюс: статьи доступны простым смертным. Тебе не надо больше за каждую статью из 30 платить 40 евро, чтоб литобзор сделать (чего и так никто не делал, конечно). В принципе на этом можно было бы закончить, это огромный плюс, который перевешивает все остальное.

Не знаю, откуда ценник в 5-10к евро (может, по инерции это про подписочную модель), цены все можно найти - в среднем около 2500 выходит. А я слышал про цифру, что с одной статьи open access статьи Elsevier имеет 4x меньше дохода, отсюда и весь кипиш с увеличением объема. Так что не знаю, откуда убеждение, что паблишерам выгоден такой переход.

По пунктам:

  1. Абсолютно согласен. Это моя главная мотивация заниматься research integrity
  2. Для авторов из развивающихся стран скидки от 50% до 100%. Не знаю, насколько это реально проблема. Возможно, раздуто по паре твитов.
  3. Почему им сложно публиковаться? В сравнении с подписками цена упала в 2 раза. По мне все о том же - в конечном счете финансирует это дело налогоплательщики (через гранты).
  4. Про ценообразование я тут мало знаю, но опять же, паблишеры устанавливают APC на open access статьи примерно в 2 раза ниже, чем по классике. Так что не понимаю аргумента про «творят что хотят»
  Развернуть 1 комментарий

@yorko,

Во-первых, колоссальный плюс: статьи доступны простым смертным.

Статьи и так доступны простым смертным, спасибо архиву и сайхаб. Более того, для ревью всегда можно попросить статью в личке у автора, это легально. Так что это плюс совершенно надуманный.

Не знаю, откуда ценник в 5-10к евро

Насчет цен — я привел пример Nature (там и ссылочка есть). Паблишерам абсолютно точно выгоден такой переход (а если еще нет - то будет). Просто сейчас в переходный период золотой OA в основном у журналов второго тира и ниже, поэтому и дохода с них меньше. Как только на это перейдут все журналы — начнется навар.

  1. А что такое развивающаяся страна? А в развитых странах, если нет большого количества грантов, то как? Вот у меня в гранте типа 5к на 3 года на публикации. Это значит я могу опубликовать 1-2 статьи. А по плану должно быть типа 4-5.

  2. Подписки платят институты, а за статьи платят сами авторы из своих грантов. Это разные бюджеты, в них заложены разные траты.

паблишеры устанавливают APC на open access статьи примерно в 2 раза ниже, чем по классике

Чем по контракту с институтом или то, что стоит купить статью на сайте?

Ну давай посчитаем вместе. Допустим, авторы заплатили 2500 за статью. Сколько раз ее должны скачать за оплату в классической модели? 100 раз. Кто так будет делать? Никто, когда есть архив и scihub. Вот она такая экономика. Лучше стабильно получать с каждой статьи навар, чем ждать, купят или нет подписку.

  Развернуть 1 комментарий

@MikhailKorobko, мне теперь хочется пост прочитать про все минусы в печатных агентствах от лица ученого
Меня бесило, когда мне нужна была одна статья по философии или книга, а она стоила 60 баксов! Это что за чорт?

А они ещё и редкие часто были, найти в открытом доступе не удавалось

В общем, очень хочется побугуртить на эту тему)

  Развернуть 1 комментарий

@robenaro, да там не наберется на целый пост, если честно. Я уже пытался написать, даже черновик где-то лежит, но так и не придумал, как это растянуть на больше, чем пару абзацев)) Либо надо писать прям про все устройство науки целиком, но я пока не решился)

  Развернуть 1 комментарий

@yorko, Про завышенный APC у Elsevier есть очень конкретный и недавний пример (от 17 апреля 2023г). Все редaктoра журнала NeuroImage IF=7.4 одновременно подали в отставку в знак протеста о завышенных APC и открывают собственный журнал у MIT-Press. Вот открытое письмо: https://imaging-neuroscience.org/Announcement.pdf

  Развернуть 1 комментарий

@vfonov, да, видел. Если скажу все что думаю по этому поводу, рискую потерять работу :)

  Развернуть 1 комментарий

@yorko, ну я знаю лично парочку редакторов которые в этом поучаствовали, и несколько других в аналогичных журналах собираются последовать из-за примеру. Люди считают, что можно сделать журнал not for profit , который будет делать всё тоже самое что Elsevier и брать не больше 1000$ за APC.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
Стас Якушкин научный сотрудник 25 марта 2023

Где в этом замечательном уравнении оплата труда рецензентов? Проблема же не столько в платном доступе, сколько в том кому эти деньги достаются.

  Развернуть 1 комментарий

@stasyk, согласен. Пытались платить ревьюерам, сработало плохо. Ревью из-за этого лучше не становились, а фрода очень много, и никто с этим пока ничего не может сделать. Но фактор потери части дохода и соотв. уровень мотивации паблишеров, конечно, не отрицаю.

  Развернуть 1 комментарий
Alexey Buravov Backend-разработчик 25 марта 2023

Когда работал над магистерскими диссертациями, elsevier и пейволы, конечно, получили от меня немалую порцию мысленных проклятий, а SciHub с Элбякан - благословений и пожеланий удачи)

  Развернуть 1 комментарий

Интересно, но NDA конечно всё портит!

Хочу спросить несколько вопросов, если NDA разрешает, то буду рад ответу:

  1. А есть ли какие-то данные о том, сколько paper mills приходится на страны, возможно не точные числа, а что-то на уровне порядков чтобы понять значимость проблемы?
  2. Так вышло что знаком с людьми, кто продвигал свой журнал целенаправлено в список Scopus чтобы получать публикации с индексированием в нём. Интересно, что работа ревьюеров там была выше чем в аналогичном журнале, но без прицеливания к paper mills. Было бы интересно послушать, а может быть где-то почитать, как обходят эти системы такие «издатели»
  Развернуть 1 комментарий

@Yaanton,

  1. Сколько paper mills – в смысле по числу таких организаций? Цифр не знаю, но с большим отрывом впереди Китай и Индия
  2. Не очень понял, если честно. Как фейковые издатели обходят проверки на paper mills?
  Развернуть 1 комментарий

@yorko, @yorko, сорян что задал вопросы не очень понятно.

  1. Да, понял. Интересные были цифры чтобы оценить размер проблемы в этих странах.
  2. Ага, но я блин понял что по факту это тоже самое что рассказать о том как вы ищите, а это сделать ты не можешь.

Спасибо за статью :))

  Развернуть 1 комментарий

@yorko, нужны ссылки. Все что нашёл я содержит только громкие утверждения, что платить ревьюверам это коммунизм и так делать нельзя.

  Развернуть 1 комментарий

Все же, забавно, как Elsevier, пролоббировав опубликованные статьи в качестве основного KPI учёного, фактически и создал вал фрода, а, теперь, "героически борется" с его последствиями, не переставая зарабатывать на изначально ущербной системе.

  Развернуть 1 комментарий
Alexey Buravov Backend-разработчик 24 марта 2023

Имхо, open access - здраво и правильно, а мусорные статьи те, кому надо (исследователи, ищущие материалы по своей теме для будущих работ), и так отличат без всяких дополнительных платных фильтров.

Но главное, чтобы работа нравилась)

  Развернуть 1 комментарий

@nightlord189,
ОА — это перекладывание расходов с библиотеки на автора, то есть с бюджета на бюджет:

Elsevier’s APCs are set on a per journal basis, fees range between approximately $150 and $9,900 US Dollars, excluding tax, with prices clearly displayed on our APC price list and on journal homepages.

  Развернуть 1 комментарий

@nakopylov, главное в щекотливом вопросе доступа к статьям - чтобы любые научные достижения были доступны как можно большему количеству исследователей (и некоторые из них могут вообще даже не быть приписаны ни к какой библиотеке) без заморочек и оплат. Т.е. оптимизировать надо read, а не write, т.к. чтений и скачиваний больше.

При Open Access авторы (научные сотрудники, докторанты в вузах и т.д.) могут прямо требовать оплату публикаций в платных журналах от бюджета ВУЗа, на мой взгляд, это логично. И журнал получает деньги один раз - за публикацию.
А не как сейчас - статью отревьюили и залили один раз, журнал опубликовал ее и потом получает деньги за каждое скачивание, фактически ни за что (работа по публикации уже проделана, а хранение файлика и предоставление ссылочки download - это копейки).

  Развернуть 1 комментарий

@nightlord189, С этим замечательно справляется Архив и его кузены. И пиратство.

Сейчас основная прибыль журналов идёт с подписок, за которые платят универские библиотеки, а не скачиваний.

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб