А как читать пейпер

Публичный пост

7 июля 2020 2458

Viktor Tiulpin

«Пейпер» — научная статья.
Далее пойдёт речь о рекомендациях по прочтению статей из сферы Computer Science (то есть тут может быть и ML). Ходят легенды, что физики, к примеру, смотрят только на картинки.

S. Keshav из 🇨🇦 University of Waterloo (School of CS) рекомендует читать статьи в три прохода.

Первый проход

Внимательно прочитайте

название,
abstract,
вступление,
заголовки разделов,
формулы (чтобы увидеть, какая математика используется),
заключение,
список источников (чтобы найти статьи, которые уже читали).

В итоге после первого прохода вы должны понять 5 вещей о статье:

категория,
контекст,
корректность,
вклад в область,
качество работы.

После первого прохода решайте, читать ли статью дальше.

Второй проход

Прочитайте всю статью, но игнорируйте такие детали, как доказательства. Записывайте ваши вопросы, которые вы бы задали автору.

В итоге после второго прохода вы осознаете суть всей работы так, что сможете рассказать о ней кратко. Вы точно знаете, стоит ли вам читать статью дальше.
Может получиться, что вы совсем не поняли статью, и это нормально: область работы новая для вас / были использованы совсем новые подходы / вы устали и вам стоит отдохнуть / статья может быть плохо написана. Можно попробовать перечитать в третьем проходе.

Третий проход

Читаем всю статью. Суть третьего прохода — мысленно «воссоздать» работу: делать те же предположения, что и автор, постараться понять ход его мысли. Финальный проход по статье потребует много внимания, каждое выдвинутое утверждение в статье нужно доказать самому себе.

В итоге после третьего прохода статья хорошо отложится в памяти, вы увидите ее слабые и сильные стороны, у вас появятся идеи по дальнейшей работе в области. У новичков (меня) это может занять несколько часов.

В полной версии статьи (два А4-листа с двумя столбцами) можно ознакомиться с краткими рекомендациями рецензентам и будущим авторам обзоров литературы.

Связанные посты

Вопрос: Какие инструменты использовать для хранения и дальнейшего использования научных статей?

15 комментариев 👇

Александр Таран Software Engineer 7 июля 2020

Вброшу ложку дёгтя в ML/DS область.

Читал пейперы, когда писал магистерский диплом (NLP), остался очень неприятный осадок. Такое ощущение, что пейперы пишутся не для того, чтобы человек со стороны (даже имеющий необходимый бэкграунд) мог что-то понять, а своей локальной тусовки в узкоспециализированной отрасли.

Очень много ссылок на предыдущие пейперы, т.е. нужно разобраться во всей серии пейперов. 3-4 университета, все ссылаются друг на друга, одни и те же авторы, и т.п.

Много нужных деталей упускаются, результат сложно воспроизвести.
"Мы тут применили логистическую регрессию с L2 регуляризацией" - а коэффициенты, Карл? Исходный код - вообще что-то заоблачное. Подготовка факторов и явное их указание - ха, зачем? Можно просто примерно описать, что там было - кому это может быть интересно?

С датасетами тоже большая беда. Ладно, бывает, когда используются какие-то пользовательские данные или какая-то компания их даёт для научной работы без права публикации. Хрен бы с ним.

Кажется, чтобы хотя бы примерно воспроизвести то, о чём говорится в пейпере, нужно затратить усилия, схожие с написанием такого пейпера.

Зато публикуют таблички с результатами, это дааа, попробуй получи те же циферки. ML/DS-пейпер нужен больше для рапортования результатов, чем для воспроизводимости ("мы копали примерно вот в ту сторону, у нас получилось!").

У самого после этого в ML/DS не сложилось, стал просто погромистом.

Когда людям, оставшимся в науке рассказывал эту историю, встречал сочувствие - да, ML/DS отрасль по большей части именно так и устроена.

Развернуть 1 комментарий

Viktor Tiulpin 7 июля 2020 автор

Все так, в Medical ML та же беда. Для диплома тоже пришлось много чего почитывать и пытаться воспроизвести. Сейчас ещё хоть есть https://paperswithcode.com, и то не очень много действительно хороших репозиториев, результаты в которых воспроизводятся.

Развернуть 1 комментарий

Andrey Rakhubovsky 7 июля 2020

Обилие ссылок часто бывает чисто политическим жестом. Когда пишешь статью, приходится брать в расчет, что она потом кому-то попадет на рецензию. Некоторые рецензенты всегда уверены, что они уже публиковали что-то очень релевантное и обижаются, когда не находят себя в списке цитируемой литературы. Есть широко известное в научных кругах высказывание, что для любого нового научного результата найдется советский инженер, который его опубликовал в каком-то малоизвестном советском журнале в семидесятые. Одно из возможных объяснений - в сверхчеловеческой способности советских инженеров находить связи между несвязанными вещами.

Вообще статьи являются, наверно, главным каналом чтобы делиться результатами научной работы. При этом они же являются главным критерием оценки эффективности научной деятельности, что заставляет публиковаться много. С третьей стороны есть интересы издательства, которое хочет публиковать только то, что будут активно цитировать, и чтобы оно соответствовало принятому в журнале формату (где-то есть лимит страниц, например). Между этими факторами приходится как-то лавировать, и на выходе образовательная часть иногда страдает.

пс. мой личный опыт из физики, но судя по твитору, везде оно работает одинаково.

Развернуть 1 комментарий

💀 Юзер Удалился 30 июля 2020

@tiulpin, на paperswithcode смотрю первым делом.
самое классное, что мб:
берешь топовый результат, находишь его реализацию на paperswithcode, засовываешь в свою задачу

Развернуть 1 комментарий

Mikhail Korobko Физик 7 июля 2020

Ходят легенды, что физики, к примеру, смотрят только на картинки.

Неправда, мы еще читаем абстракт и заключение x)

А вообще хорошие советы, еще можно добавить, что в идеале между 2 и 3 подходом лучше сделать паузу в день-два, чтобы успеть обдумать статью и подготовиться к полному погружению. Я еще предпочитаю не делать пометок на первом-втором прочтении, чтобы не отвлекаться (и не тратить время, если окажется, что статья в итоге не стоит погружения).

Развернуть 1 комментарий

Viktor Tiulpin 7 июля 2020 автор

Спасибо, про паузу — дельный совет.
А пометки в первом проходе и не подразумеваются)

Развернуть 1 комментарий

Tatiana Kartashova 7 июля 2020

По-моему, во многих областях картинки по читаемости заслуженно после абстракта идут: в Computer graphics они результат, например, а в психологии схема эксперимента - лучше один раз увидеть.

Развернуть 1 комментарий

Andrey Rakhubovsky 7 июля 2020

@TatianaKartashovaa, существует цепь с обратной связью - действительно существуют люди, которые смотрят только на картинки. Как следствие, приходится адаптировать статью и пытаться передать содержание картинками. Как следствие, появляется большее число статей, котрые можно прочитать, просмотрев картинки, и число людей, которые так будут делать, увеличивается.

Развернуть 1 комментарий

Mikhail Korobko 7 июля 2020

@omnster, да ужас, на самом деле, время, которое уходит на создание красивый картинок, чтобы редакции зашло, уходит порой больше, чем время на сам текст статьи. Я серьезно думаю о том, чтобы пойти где-то прокачать скиллы в 2/3d редакторах (или нанимать дизайнера).

Развернуть 1 комментарий

Andrey Rakhubovsky 7 июля 2020

@MikhailKorobko, с одной стороны, у меня есть товарищ из конденсированного состояния, они свои классные статьи отдают корректору перед отправкой в солидные журналы (physical review letters). С другой - будешь потом объяснять дизайнеру, который так видит, что низкоэнергетический красный фотон принципиально не может распасться на два синих (я щас ничо не напутал же?).

Развернуть 1 комментарий

Mikhail Korobko 7 июля 2020

@omnster, да, и ценники у них конские...предложили нам тут статью на обложку журнала. Так хрен ее сам нарисуешь так, чтобы она подходила на обложку. Пошел узнавать, сколько будет стоить дизайнер, который вкуривает научный стиль, и офигел. Запись за несколько месяцев, и денег просят совершенно неприлично (уж точно ни в какой бюджет на статьи не влезет).

Развернуть 1 комментарий

💀 Юзер Удалился None 30 июля 2020

Меня всегда напрягало, что многие статьи по сути невоспроизводимы. Отправил свой первый paper на AIST и понял, что его тоже не воспроизвести(
А код стрёмно выкладывать на git.

Стал понимать рисёрчеров)

Развернуть 1 комментарий

Alexey Nekrasov пхд 30 июля 2020

Не видел еще такого метода, у меня в институте мои научники читают примерно так:

абстракт
результаты
чекаешь картинки и формулы
детали имплементации
готово

Сейчас на том же CVPR публикуется несколько тысяч работ и просмотреть даже свою маленькую область - очень сложная задача. Мне понравилась высказывания на одном из воркшопов что ML/CV/NLP конференции превратились в выставки современного искусства. Надо научиться быстро (за пару минут) просматривать всю работу. И тут скорее главное получить правильное вдохновение, чтобы иметь идею которую можно будет использовать у себя.

У меня сейчас в ридлисте около свежих 60 работ пылиться, чтобы прочитать все как описано по этому методу мне надо будет потратить пару месяцев.

Развернуть 1 комментарий

Михаил Сидоренко Deep Learning Engineer 30 июля 2020

а вот тут своими секретами чтения ML статей делится всем известный Andrew Ng (советы годные, сам юзаю)

Развернуть 1 комментарий

Denis Shepelin PhD, Data Scientist 31 июля 2020

Вот свежий гайд от PLoS. https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1008032
Вообще это дело наживное, в работах по моему профилю я читаю только методы и заключение (Conclusions)

Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?

Войти или Вступить в Клуб