Generative AI & Research Integrity

 Публичный пост
16 июня 2023  1497

В продолжение поста про Elsevier и антифрод в науке расскажу чуть подробнее про paper mills (но не слишком подробно ибо NDA). Также о том, где тут GAI (Generative AI). Это расширенная версия первой трети моего доклада на DataFest 2023 (слайды, видео еще не дали).

Paper Mills и избы-писальни

Paper Mills – довольно организованный бизнес, удовлетворяющий потребность исследователей регулярно публиковаться, даже когда ничего стоящего под рукой нет. Оверфит на индекс Хирша и парадигма “publish or perish” этому всячески помогают.


Одна из схем Paper Mill. Источник

Схем много, классическая: есть организация с широкой сетью издателей (editors) и рецензентов (reviewers), которые с этой организацией в сговоре. Далее идут манипуляции на этапе рецензии статьи: издатель принимает статью, несмотря на негативные рецензии, либо находит рецензентов из своего “кружка” – так или иначе, некачественную статью принимают. Попутно видно много всякого другого фрода: издатели форсят ссылки на самих себя, проталкивают цитирование нерелевантных статей и т.д. Есть публичный ресурс PubPeer, где кто угодно может выразить сомнения по поводу легитимности любой научной статьи. Вот очень показательный пример – в статье куча нерелевантных ссылок на Guest Editors, а также вдруг автор Di Wu выбрала имейл eryueh12@163.com. Хм…


Международный издатель 123mi.ru заседает в Москве-Сити

Пример такой Paper Mill (Алексей Натёкин, лидер OpenDataScience, внезапно пришел послушать мой доклад на фесте и предложил неплохой аналог термина на русском: изба-писальня): 123mi.ru. Полюбуйтесь на красавцев: продают авторство, обещают опубликоваться в любом из топовых журналов. На вкладке “Наши рецензенты” – список из >1k универов, в том числе весьма уважаемых. Иронично, что есть вкладка про мошенников (остерегайтесь!). Про эту избу-писальню уже в 2019-ом было разоблачение. Ничего, выжили, оперируют, сидят в Москве-Сити.

Как издатели пытаются бороться с Paper Mills

Классически с Paper Mills борются вручную: у паблишеров есть команды Research Integrity / Publication Ethics, и там аналитики вручную исследуют стремные случаи. Хорошо если Excel, чаще просто тычут в кнопки имеющихся инструментов типа Editorial Manager. Понятно, что это вообще не масштабируется. Крупные научные паблишеры начали применять Data Science, чтоб масштабированно находить фрод в статьях/процессах рецензирования и т.д. Вот я как раз тащу эту инициативу в Elsevier. Паблишеров активно критикуют за profit margins и то, какое говно они публикуют, кто-то должен с этим что-то делать. Так что как я занялся Research Integrity, то и успокоился насчет собственной миссии при работе на паблишера.

Мы написали небольшую либу, которая считает разные признаки статей, пришедших из paper mills. Вот тут как раз NDA, нельзя помогать читерам, рассказывая, как ты с ними борешься. Но из общеизвестного и интуитивно понятного: можно ловить подозрительно продуктивных авторов и рецензентов, посмотреть на авторов, возникающих “ниоткуда” уже после того, как статья принята (это индикатор authorship for sale – многомиллионного бизнеса, статья в Nature) и т.д. Мы плодим отчеты, подсвечивающие тысячи подозрительных статей и (пока) около пары десятков признаков. Собственно, боттлнек теперь – кожаные мешки, анализирующие такие случаи. Благо, мы осветили проблему на уровне CEO, теперь нанимаем кучу аналитиков в команду Research Integrity. Тут непаханое поле, и data engineering, и аналитиков организовать, и просто процессы оптимизировать. Также бэклог исследований огромный, штук 40, от простых вещей до мини-проектов – фантазия читеров очень богата.

Как Generative AI помогает читерам

Самой собой, LLM-ки начинают выводить проблему на новый уровень.


Исследователь, публиковавший по статье каждый 37 часов. Источник

Недавно была громкая история с испанцем Rafael Luque, который не долго думая плодил статьи с chatGPT и продавал соавторство в них. Видать, неплохо заработал. Он “всего лишь” потерял должность в университете Кордобы, при этом его аффилиация с РУДН остается, а также появляются новые. Полагаю, персонаж продолжит заниматься доходным бизнесом. Кстати, поймали Рафу не детектором chatGPT-контента (такие детекторы обсудим в третьей части), а проще: среди признаков – нерелевантные ссылки на другие работы, а также “tortured phrases” (не буду раздувать пост, про tortured phrases отдельно расскажу) – когда вместо “image recognition” вдруг “image acknowledgement”, а вместо “quantum gates”, по заветам нашего лучшего друга Сиража Раваля – ”quantum doors”.


Манипуляции с western blotting в микробиологии. Источник: твиттер Elizabeth Bik.

Пожалуй, самые громкие истории вокруг research Integrity связаны с манипуляциями изображений – подтасовками western blots (молекулярные биологи так определяют в образце белки). Есть “сыщики” типа Elizabeth Bik с орлиным взглядом, умеющим находить пересекающиеся куски изображений и, в целом, визуальный плагиат. Элизабет лично обнаружила манипуляции в более 10к статей. Любители computer vision, тут есть где разгуляться, это еще в целом не решенная проблема. Некоторые инструменты есть (Proofig, ImageTwin), но они далеки от идеала. И понятно, что Stable Diffusion выводит на новый уровень и манипуляции, и борьбу с ними. Гонка вооружений.

Всяческих манипуляций, конечно же, еще несчетное множество. Во второй части расскажу про наш опыт детекции ML-генерированного контента (на основе этого поста). В третьей поговорим про chatGPT-детекторы в духе этого поста в моем канале про внезапную скромность OpenAI про 26% полноты, когда охапка стартапов обещает "99% accuracy".

Связанные посты
14 комментариев 👇
Стас Якушкин научный сотрудник 26 июня 2023

Понимаю, что вопрос не к тебе, но в чем проблема просто выгонять на мороз редактора, которого уличили в недобросовестности? То есть если магазин продает некачественный товар его закрывают, а почему так нельзя с журналом?

  Развернуть 1 комментарий

@stasyk, знаю, что закрывают special issues, в которых слишком много фрода, про черные списки редакторов/ревьюеров тоже слышал, но не слышал, чтоб это где-то было реализовано.

  Развернуть 1 комментарий
Aleksandra Sviridova считает, что кое-что знает о промышленном дизайне 26 июня 2023

спасибо за пост, очень интересно было прочитать! надеюсь ты продолжишь делиться инсайдами и саентифик паблишинг кулстори

  Развернуть 1 комментарий

@Cave, спасибо! Да, чем можно – буду делиться

  Развернуть 1 комментарий

@yorko Спасибо большое за серию постов про Research Integrity, я с опозданием на год, но с очень большим удовольствием прочитал. У меня возник вопрос, касательно одного способа определения LLM-сгенерированного текста. Любопытно твое мнение/опыт на этот счет.

Для контекста, я часто рецензирую научные статьи по теме наук о Земле и являюсь Managing Editor в одном молодом журнале (считай, отв. секретарь). Мы, естественно, озабочены большим количеством LLM-сгенерированного контента, который приходит на рассмотрение. Но пока отсеивание происходит исключительно на экспертизе команды. А на рецензию из других журналов, к сожалению, присылается очень часто манускрипт с LLM текстом. В этом году пока все статьи, что я рассматривал скорее всего были написаны с помощью ChatGPT.

Вообще, ChatGPT модели очень плотно интегрированы в мою повседневную жизнь, я их использую для проверки грамматики, спеллинга и, может быть, смены тона повествования своих писем. Поэтому глаз постепенно привык к тому, что ChatGPT генерирует по умолчанию, и похожие на это тексты от других авторов я часто подмечаю. С Claude, LLama, Gemini и прочими я работал мало (что важно, так как они могут генерить в другом стиле).

В работе с журналами иногда статьи, которые мне присылаются на рецензию/ревью, обладают не столько похожим стилем повествования на ChatGPT, сколько использованием слов, которые не характерны для нашего домена. Например, "utilize"/"leverage" вместо "use", или "journey" ни с того ни с сего. Я поизучал вопрос, и, естественно, не я первый, кто это заметил. Например, есть интересный инструмент помечания слов-паразитов в тексте на основании экспертизы автора и вроде каггл-датасета абстрактов статей по STEM тематике (инстурмент интересный по задумке, но набор слов паразитов создан непонятно как и похоже чисто на опыте разработчика).

Так как мы знаем точную дату запуска той или иной LLM в общее пользование, то мы можем посмотреть на изменение динамики использования тех или иных слов в публикациях до и после запуска. Может быть, ты видел завирусившийся пост про слово "delve", частота использования которого после релиза Chat-GPT 3.5 выросла на 200%.

Изменение использования частоты слова "delve" в корпусе NOW (News on the Web) — источник https://github.com/FareedKhan-dev/Detect-AI-text-Easily
Изменение использования частоты слова "delve" в корпусе NOW (News on the Web) — источник https://github.com/FareedKhan-dev/Detect-AI-text-Easily

Мне кажется, что некоторые слова действительно могут являться маркерами сгенерированного текста, но этот набор слов специфичен для домена. Например, в FareedKhan-dev словом-паразитом пометил слово "Dynamics", которое абсолютно стандартное для категории наук о Земле.

У меня зародилась идея взять базу данных абстрактов Web of Science за последние годы (например, с 2010). Разбить по тематикам (категориям WoS) и посчитать ежемесячное использование каждого слова (относительно общего числа публикаций в месяц) за 2010-2024 внутри категории (т.е. домена). В полученных рядах данных найти тренд, точку перелома линии тренда (если имеется). И, соответственно, если точка перелома тренда находится после релиза LLM X, и она статистически значима, то это, скорее всего, слово-паразит LLM X. Если это будет просто возрастающий тренд, например, как в случае "covid", то это просто смена мировых интересов. Именно LLM X, так как мне кажется, что у каждой модели свои слова-паразиты. Не факт, конечно, что можно выловить отдельные модели в таких рядах, так как они будут довольно короткие.

Что ты думаешь об этой гипотезе? Проверяли ли вы что то похожее в Elsevier?

P.S. Я понимаю, что это не серебряная пуля, и с каждой новой моделью набор слов-паразитов может меняться. Более того, миллионы пользователей, чей английский не родной, постепенно начинают писать/говорить так же, как ChatGPT, используя слова-паразиты. Однако такой относительно простой анализ позволит автоматизировать маркировку потенциально сгенерированного контента, который мы можем попросить авторов потом переписать.

  Развернуть 1 комментарий

@atsyplenkov, Подход интересный. Идея с частотой слов мне кажется, удачная.

Но тут, как мне кажется, нужно использовать клещи, или смотреть за этим внимателно. Если что-то детектит на уровне статьи - то надо идти с разборняком к автору. Как-бы, самый простой варинат детектирования статья - попросить её пересказать.

Мне - очень часто прилетает за то, что я "генерю свой контент" на ЛЛМке. В основном потому, что если я пишу, то пишу много. https://vas3k.club/question/2585645/#comment-fcaa275a-5eb1-4305-b9ee-89396998db77 Вот такой-вот коммент - это не редкость. Я это делаю либо из-за озорства, либо потому что у меня есть что сказать.

То же самое - у меня в телеге. Я уже пробил максимальную длинну сообщения в телегоблоге. Поэтому, мне не верят, что я писал сам. (На канале есть несколько забаненых, которые просто пришли и начали орать про ЛЛМки).

Да, я проверяю, и до некоторой степени вычитваю статьи через ЛЛМку.

Вот - пример моего стандартного запроса к ГПТшке
Вот - пример моего стандартного запроса к ГПТшке

Но:

  1. У меня есть стиль. Немного pushy и offencive. Более того, я зачастую неправильно перевожу/использую идиомы и устоявщиеся выражения, потому что давно уже учусь и разговариваю по-английски.
  2. Я могу сесть, и переписать этот коммент от начала до конца. Дайте только основную мысль. Он останется таким же, но будет по-другому написан. ГПТ, что интересно, с такой задачей не справится. (Если только ты ему не изложишь все мысли, которые должны быть в твоём комменте)

Последнее, кстати, хорошо заметно на выступлениях политиков и комиков (особенно в США). Если взять, например Вивека Рамасвари или Робина Уильямса и начать подряд слушать их выступления по разным годам, то ты без вопросов узнаешь шутки и речь. Вивек с 2016 года вообще пихал только одну речь до 2020го.

Это - основной момент того, что может делать человек, чего ЛЛМка делать не может. Человек сможет повторить свой текст два месяца спустя (если он действительно вложил душу в этот текст). ЛЛМка может повтороить его только в одном контексте, и при одних командах.

Чем меньше человек умеет писать, тем больше он зависит от ЛЛМки. Мы с тобой используем её для редактуры. Уровень чуть пониже - просит ЛЛМку сменить стиль. Уровень ещё ниже - просит подобрать нужные слова. Ещё ниже - запросы дополнить абзацы и развить мысли. Дальше - выдача ЛЛМке основной идеи с запросом "Напиши 3 страницы текста на эту тему", ну а для совсем скатившихся "Напиши хорошую статью на Хабр, чтобы мне в телегу нагнать контактиков".

Уменее упорствовать и продолжать развивать тему, не меняя основной мысли - это человеческое. Уменее просто балаболить без остановки - это ЛЛМное.

Итог? Как в старые добрые времена, в 2004 году Сева в МЭСИ у нас проводил опросы по коду, который мы ему сдавали. Он сажал новоиспечённого студента, и спрашивал, а что вот эта функция делает? А что вот эта функция производит? А почему здесь - одна звёздочка, а здесь - две. Правильные ответы на эти вопросы показывают понимание темы.

Человек, который написал статью или коммент, и действительно приложил к этому усилия, будет в состоянии показать понимание того, что он пишет.

  Развернуть 1 комментарий

@newarked, согласен с тобой) я считаю, что корректура текста на LLM это блажь, которой надо пользоваться и разгружать корректоров и редакторов. Особенно что касается правильного использования пунктуации да и тех же идиом (но не в научных статьях). Да и автоматизация с LLM каких то рутинных задач — тоже хорошо!

Но когда идет тупая шаблонная генерация текста в публикации для создания объема или создания контента — это красный флаг. Например, ниже кусок текста из статьи, которую мне вчера на рецензию прислали из Environmental Modelling & Software, и он собственно и стриггерил мой интерес к этой теме.

The ShaLPA GIS tool is implemented based on two principles: utilising common and free software; ensuring user-friendliness throughout the process, suitable for operators without highly specialized training. The current version of ShaLPA GIS tool runs on QGIS version 3.32 and later, compatible with any operating system. QGIS offers numerous advantages, including the ability to install plugins that extend functionality and interface with other analysis software such as SAGA, GRASS, Orfeo Toolbox, among others. QGIS is programmable in Python language (PyQGIS) and feature a powerful Graphical Modeler that allows for the creation of comprehensive GIS applications integrating the algorithms into a seamless flowchart. ShaLPA GIS tool provides a regional-scale assessment of shallow landslides runout, estimating the length of each potential event and integrating these measurement into the spatial model (DTM). In addition to delineating paths from source areas along slopes to arrest points in valley areas, the tool provides an estimate of the kinetic energy distribution along the paths associated with the mobilized material.

Текст больше похож на выкопировку из википедии, и использовался только как филлер в разделе Методы. Как по мне, если авторы позволяют настолько неприкрытое использование ЛЛМ контента подавать в журнал, то это значит, что статью надо отклонять или просить переподать заново. А задача журнала не допускать такие статьи до рецензирования чтобы рецензенты с радостью ревьюили статьи. И вот тут может помочь фильтр, который я сейчас и ищу!

С учетом количества статей, которое выходит ежедневно, надо стремиться к публикации оригинального и уникального контента. Просить ученых пересказать свои статьи — идея хорошая, в принципе на конференциях так и происходит.

  Развернуть 1 комментарий

@atsyplenkov,как только такой список терминов будет собран, его сразу вставят во все промпты для рерайтинга статей.

даже сейчас простое "use simple english" или "write it like in 7 grade" работает очень хорошо

  Развернуть 1 комментарий

@gramlin, конечно, я понимаю. Но его не обязательно опенсурсить

  Развернуть 1 комментарий

@atsyplenkov, да, это разумная идея и конечно, похожее уже реализовали :)

  • тут утверждают, что у целого 1% статей многовато слов, типичных для gpt.

  • тут проводили как раз такой же анализ частот слов во времени и обнаружили всплеск «meticulous», «commendable» и тп.

  • вот еще похоже.

Мы тогда год назад прогнали схожий анализ на данных эльсивира - ничего подозрительного не обнаружили.

Но в целом идея поддерживания списка «ai-слов” - так себе, все равно нужна проверка человеком. Да и это не панацея, у разных llm свои особенности, распределения «любимых» слов. В итоге в прод не пошло ничего из этого.

Писал про пару из упомянутых статей тут.

  Развернуть 1 комментарий

@yorko, Спасибо за ссылки! Очень интересно. За работами Дмитрия Кобака слежу давно, даже обидно, что упустил его статью про избыточное использование слов.

Как ты думаешь, почему на данных Эльсивир не удалось найти ничего подозрительного? Из-за хорошего уровня рецензентов и редакторов?

Ожидаемо ругают ид MDPI и Frontiers в статьях, что ты скинул. Они славятся своими наплевательским отношением к ревью процессу

  Развернуть 1 комментарий

@atsyplenkov,

да, во-первых, ревью в эльсивире качественнее, чем в MDPI/Hindawi/etc. Во-вторых, даже когда какие-то паттерны видны, все равно нужно еще немало человеческого времени, чтоб эти паттерны перепроверить. То есть чего-то прям столь же яркого, как в ревью ICLR, мы не видели.

Но это был один из последних исследований перед моим уходом, возможно, после этого ребята уже продвинулись дальше.

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

Вопрос такой:

А что там комиссии и ревьюеры?

Где можно получить подтверждение того, что он реально сел, внимательно прочитал и понял суть проблемы?

Где можно получить уверенность того, что чувак просто не запихнул это в ГПТ, и не попросил его проверить и дать выводы по этому поводу.

  Развернуть 1 комментарий

@newarked, пока нельзя получить подтверждения. Есть только определенные гайдлайны, которые только рекомендовано соблюдать (например, от Elsevier).

Но обычно видно по рецензии, насколько дотошно рецензент прочел статью. Уж пусть лучше он использует LLM для помощи, чем будет отписка в стиле отзывов на кандидатские диссертации.

Мне пока публикация рецензий в открытый доступ (как это делают некоторые журналы Copernicus), добавляет уверенности, что рецензия настоящая. Я верю, что честный ученый или эксперт, который парится о своей репутации, не захочет что-то искусственное от своего имени публиковать.

Собственно, мы в нашем журнале ту же схему начали применять, но с тройным слепым рецензированием, с последующей публикацией рецензий.

Процесс рецензирования в журнале Geomorphica https://journals.psu.edu/geomorphica/reviewprocess
Процесс рецензирования в журнале Geomorphica https://journals.psu.edu/geomorphica/reviewprocess

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб