В продолжение поста про Elsevier и антифрод в науке расскажу чуть подробнее про paper mills (но не слишком подробно ибо NDA). Также о том, где тут GAI (Generative AI). Это расширенная версия первой трети моего доклада на DataFest 2023 (слайды, видео еще не дали).
Paper Mills и избы-писальни
Paper Mills – довольно организованный бизнес, удовлетворяющий потребность исследователей регулярно публиковаться, даже когда ничего стоящего под рукой нет. Оверфит на индекс Хирша и парадигма “publish or perish” этому всячески помогают.
Одна из схем Paper Mill. Источник
Схем много, классическая: есть организация с широкой сетью издателей (editors) и рецензентов (reviewers), которые с этой организацией в сговоре. Далее идут манипуляции на этапе рецензии статьи: издатель принимает статью, несмотря на негативные рецензии, либо находит рецензентов из своего “кружка” – так или иначе, некачественную статью принимают. Попутно видно много всякого другого фрода: издатели форсят ссылки на самих себя, проталкивают цитирование нерелевантных статей и т.д. Есть публичный ресурс PubPeer, где кто угодно может выразить сомнения по поводу легитимности любой научной статьи. Вот очень показательный пример – в статье куча нерелевантных ссылок на Guest Editors, а также вдруг автор Di Wu выбрала имейл eryueh12@163.com. Хм…
Международный издатель 123mi.ru заседает в Москве-Сити
Пример такой Paper Mill (Алексей Натёкин, лидер OpenDataScience, внезапно пришел послушать мой доклад на фесте и предложил неплохой аналог термина на русском: изба-писальня): 123mi.ru. Полюбуйтесь на красавцев: продают авторство, обещают опубликоваться в любом из топовых журналов. На вкладке “Наши рецензенты” – список из >1k универов, в том числе весьма уважаемых. Иронично, что есть вкладка про мошенников (остерегайтесь!). Про эту избу-писальню уже в 2019-ом было разоблачение. Ничего, выжили, оперируют, сидят в Москве-Сити.
Как издатели пытаются бороться с Paper Mills
Классически с Paper Mills борются вручную: у паблишеров есть команды Research Integrity / Publication Ethics, и там аналитики вручную исследуют стремные случаи. Хорошо если Excel, чаще просто тычут в кнопки имеющихся инструментов типа Editorial Manager. Понятно, что это вообще не масштабируется. Крупные научные паблишеры начали применять Data Science, чтоб масштабированно находить фрод в статьях/процессах рецензирования и т.д. Вот я как раз тащу эту инициативу в Elsevier. Паблишеров активно критикуют за profit margins и то, какое говно они публикуют, кто-то должен с этим что-то делать. Так что как я занялся Research Integrity, то и успокоился насчет собственной миссии при работе на паблишера.
Мы написали небольшую либу, которая считает разные признаки статей, пришедших из paper mills. Вот тут как раз NDA, нельзя помогать читерам, рассказывая, как ты с ними борешься. Но из общеизвестного и интуитивно понятного: можно ловить подозрительно продуктивных авторов и рецензентов, посмотреть на авторов, возникающих “ниоткуда” уже после того, как статья принята (это индикатор authorship for sale – многомиллионного бизнеса, статья в Nature) и т.д. Мы плодим отчеты, подсвечивающие тысячи подозрительных статей и (пока) около пары десятков признаков. Собственно, боттлнек теперь – кожаные мешки, анализирующие такие случаи. Благо, мы осветили проблему на уровне CEO, теперь нанимаем кучу аналитиков в команду Research Integrity. Тут непаханое поле, и data engineering, и аналитиков организовать, и просто процессы оптимизировать. Также бэклог исследований огромный, штук 40, от простых вещей до мини-проектов – фантазия читеров очень богата.
Как Generative AI помогает читерам
Самой собой, LLM-ки начинают выводить проблему на новый уровень.
Исследователь, публиковавший по статье каждый 37 часов. Источник
Недавно была громкая история с испанцем Rafael Luque, который не долго думая плодил статьи с chatGPT и продавал соавторство в них. Видать, неплохо заработал. Он “всего лишь” потерял должность в университете Кордобы, при этом его аффилиация с РУДН остается, а также появляются новые. Полагаю, персонаж продолжит заниматься доходным бизнесом. Кстати, поймали Рафу не детектором chatGPT-контента (такие детекторы обсудим в третьей части), а проще: среди признаков – нерелевантные ссылки на другие работы, а также “tortured phrases” (не буду раздувать пост, про tortured phrases отдельно расскажу) – когда вместо “image recognition” вдруг “image acknowledgement”, а вместо “quantum gates”, по заветам нашего лучшего друга Сиража Раваля – ”quantum doors”.
Манипуляции с western blotting в микробиологии. Источник: твиттер Elizabeth Bik.
Пожалуй, самые громкие истории вокруг research Integrity связаны с манипуляциями изображений – подтасовками western blots (молекулярные биологи так определяют в образце белки). Есть “сыщики” типа Elizabeth Bik с орлиным взглядом, умеющим находить пересекающиеся куски изображений и, в целом, визуальный плагиат. Элизабет лично обнаружила манипуляции в более 10к статей. Любители computer vision, тут есть где разгуляться, это еще в целом не решенная проблема. Некоторые инструменты есть (Proofig, ImageTwin), но они далеки от идеала. И понятно, что Stable Diffusion выводит на новый уровень и манипуляции, и борьбу с ними. Гонка вооружений.
Всяческих манипуляций, конечно же, еще несчетное множество. Во второй части расскажу про наш опыт детекции ML-генерированного контента (на основе этого поста). В третьей поговорим про chatGPT-детекторы в духе этого поста в моем канале про внезапную скромность OpenAI про 26% полноты, когда охапка стартапов обещает "99% accuracy".
спасибо за пост, очень интересно было прочитать! надеюсь ты продолжишь делиться инсайдами и саентифик паблишинг кулстори
Понимаю, что вопрос не к тебе, но в чем проблема просто выгонять на мороз редактора, которого уличили в недобросовестности? То есть если магазин продает некачественный товар его закрывают, а почему так нельзя с журналом?
@yorko Спасибо большое за серию постов про Research Integrity, я с опозданием на год, но с очень большим удовольствием прочитал. У меня возник вопрос, касательно одного способа определения LLM-сгенерированного текста. Любопытно твое мнение/опыт на этот счет.
Для контекста, я часто рецензирую научные статьи по теме наук о Земле и являюсь Managing Editor в одном молодом журнале (считай, отв. секретарь). Мы, естественно, озабочены большим количеством LLM-сгенерированного контента, который приходит на рассмотрение. Но пока отсеивание происходит исключительно на экспертизе команды. А на рецензию из других журналов, к сожалению, присылается очень часто манускрипт с LLM текстом. В этом году пока все статьи, что я рассматривал скорее всего были написаны с помощью ChatGPT.
Вообще, ChatGPT модели очень плотно интегрированы в мою повседневную жизнь, я их использую для проверки грамматики, спеллинга и, может быть, смены тона повествования своих писем. Поэтому глаз постепенно привык к тому, что ChatGPT генерирует по умолчанию, и похожие на это тексты от других авторов я часто подмечаю. С Claude, LLama, Gemini и прочими я работал мало (что важно, так как они могут генерить в другом стиле).
В работе с журналами иногда статьи, которые мне присылаются на рецензию/ревью, обладают не столько похожим стилем повествования на ChatGPT, сколько использованием слов, которые не характерны для нашего домена. Например, "utilize"/"leverage" вместо "use", или "journey" ни с того ни с сего. Я поизучал вопрос, и, естественно, не я первый, кто это заметил. Например, есть интересный инструмент помечания слов-паразитов в тексте на основании экспертизы автора и вроде каггл-датасета абстрактов статей по STEM тематике (инстурмент интересный по задумке, но набор слов паразитов создан непонятно как и похоже чисто на опыте разработчика).
Так как мы знаем точную дату запуска той или иной LLM в общее пользование, то мы можем посмотреть на изменение динамики использования тех или иных слов в публикациях до и после запуска. Может быть, ты видел завирусившийся пост про слово "delve", частота использования которого после релиза Chat-GPT 3.5 выросла на 200%.
Мне кажется, что некоторые слова действительно могут являться маркерами сгенерированного текста, но этот набор слов специфичен для домена. Например, в FareedKhan-dev словом-паразитом пометил слово "Dynamics", которое абсолютно стандартное для категории наук о Земле.
У меня зародилась идея взять базу данных абстрактов Web of Science за последние годы (например, с 2010). Разбить по тематикам (категориям WoS) и посчитать ежемесячное использование каждого слова (относительно общего числа публикаций в месяц) за 2010-2024 внутри категории (т.е. домена). В полученных рядах данных найти тренд, точку перелома линии тренда (если имеется). И, соответственно, если точка перелома тренда находится после релиза LLM X, и она статистически значима, то это, скорее всего, слово-паразит LLM X. Если это будет просто возрастающий тренд, например, как в случае "covid", то это просто смена мировых интересов. Именно LLM X, так как мне кажется, что у каждой модели свои слова-паразиты. Не факт, конечно, что можно выловить отдельные модели в таких рядах, так как они будут довольно короткие.
Что ты думаешь об этой гипотезе? Проверяли ли вы что то похожее в Elsevier?
P.S. Я понимаю, что это не серебряная пуля, и с каждой новой моделью набор слов-паразитов может меняться. Более того, миллионы пользователей, чей английский не родной, постепенно начинают писать/говорить так же, как ChatGPT, используя слова-паразиты. Однако такой относительно простой анализ позволит автоматизировать маркировку потенциально сгенерированного контента, который мы можем попросить авторов потом переписать.
Вопрос такой:
А что там комиссии и ревьюеры?
Где можно получить подтверждение того, что он реально сел, внимательно прочитал и понял суть проблемы?
Где можно получить уверенность того, что чувак просто не запихнул это в ГПТ, и не попросил его проверить и дать выводы по этому поводу.