Проект: Comtext. Оцифровываем важные книги («Что делать?»)  Публичный пост
28 апреля 2023  572
Comtext. Оцифровываем важные книги («Что делать?»)
https://comtext.space

Привет! Хочу рассказать о проекте comtext.space, которым занимаюсь.

Сейчас довольно много энтузиастов оцифровывают старые книги. Под оцифровкой книг часто понимают просто их сканирование, потом сканы объединяют в PDF или DJVU, иногда с распознанным текстовым слоем. Сканирование, конечно, это основа, но этого недостаточно, чтобы получить «полноценную» оцифрованную книгу. Несколько примеров:

  • Скан нельзя преобразовать в другой формат, а мне нравится читать с читалки fb2.
  • Текстовый слой в PDF, обычно, с опечатками и цитаты из него надо редактировать. Сканы затруднительно использовать для переводов.

Так вот, полноценная оцифровка книг — это получение вычитанного (с исправлением ошибок) текста книги в Unicode с авторской разметкой, который дальше можно использовать как угодно. Причем и это ещё не всё. Для удобства переводов хорошо бы ещё текст книги загнать в БД, так, чтобы текст был разделён по абзацам.

<br>
Примеры опечаток при оцифровке

Примеры опечаток при оцифровке

Идея не нова, wikisource.org и проект Гутенберг придерживаются сходных целей. Однако эти и другие проекты останавливаются на полпути — в лучшем случае доходя только до воспроизведения авторского текста. Об удобстве текста для переводов даже речи не идёт.

Есть и другие проблемы, например, перегибы с визуальной разметкой, когда пытаются полностью воспроизвести бумажную книгу визуально, что идёт в ущерб смысловой разметке текста. Более детальное сравнение с этими проектами по этим ссылкам: Wikisource, Гутенберг и другие.

Может возникнуть мысль: «зачем вообще всё это нужно?». Если бы действительно всё заключалось именно в оцифровке книг то и заниматься этим было бы особо незачем, да и есть уже указанные выше крупные проекты. Можно сказать, что при желании и почитать можно в любом формате, а кому надо переводить - сам разберется, что делать. И вот здесь появляется ключевой момент.

Как появилась идея? Что вдохновило?

Оцифровка книг не является самоцелью. Цель этой деятельности — движение общества в русле мирового общественно-исторического развития. Если не разбираться, то может звучать как-то оторванно и непонятно. Попробую объяснить.

Со времён появления письменности, особенно книгопечатания, значительная часть идей распространялась через тексты. А распространение идей влияло на общество. Конечно, основой общественных изменений всегда были более приземлённые, материальные факторы, но идеи влияли на скорость и сложность этих изменений.

Распространение литературы, особенно переводов, способствует качественным изменениям устройства общества. И ключевой вопрос, не только в том как распространять литературу, но ещё в том какую литературу распространять.

За примерами влияния литературы на людей долго ходить не нужно. Роман Н. Чернышевского «Что делать?» оказал значительное влияние на В. Ленина, а уже его книга, с тем же названием, послужила основой глубоких изменений в обществе.

Мы считаем, что наиболее полезны книги способствующие выработке твердого материалистического взгляда на мир и диалектического мышления. Ведь только люди, перенявшие передовой способ мышления, развитый всей историей философии, способны проанализировать текущую ситуацию, а значит и повлиять на неё в нужную сторону. Среди русскоязычных авторов, мы выделяем, Н. Чернышевского, В. Ленина, Э. Ильенкова, В. Босенко и некоторое количество менее известных.

Авторы, работающие в этом направлении, есть и на языках соседних стран, как минимум на украинском, польском, болгарском, немецком, чешском. Однако, в виду особых исторических условий, подобного рода литературы особенно много на русском языке. Об этом не принято задумываться, но мало что из этой литературы доступно даже на английском или немецком, не говоря уже о национальных языках небольших стран. А ведь действительное коренное изменение общества может произойти только глобально, на всей планете, поэтому переводы играют ключевое значение в этой работе.

Не менее, важной вещью, чем сама литература, является взаимодействие людей в рамках работы над ней: в вычитке, оформлении, переводах. Такая деятельность создаёт устойчивые организационные структуры, которые имеют потенциал для дальнейшего развития.

Таким образом оцифровка книг и их переводы — это только средство для преобразования общественных отношений. Литература - не единственная, но одна из необходимых частей этого процесса. Тема действительно сложная и дискуссионная, в рамках этого поста о проекте её полностью не раскрыть. Поэтому далее сосредоточусь на технической части.

Техническая часть

Технически, все довольно примитивно: книги хранятся в репозитории на GitHub, при фиксации срабатывают экшены, небольшая предоботка файлов на JS и генерация сайта на VuePress. Дополнительно, больше как пример, приделана конвертация с fb2 через Pandoc.

Разметка для книг — формат comtext, по сути, это минимально доработанный Markdown, например, добавлена возможность указывать номера страниц из оригинала. С Markdown было удобнее всего начинать, так как с ним уже работает куча инструментов. Формат ещё далёк от завершения, есть необходимость в дополнительных элементах для подписей к изображениям, цитат и других.

Vuepress для парсинга Markdown использует js-библиотеку markdown-it. Она довольно просто расширяется и сейчас к ней написан один плагин, чтобы на сайте можно было скрывать и показывать номера страниц оригинала произведения.

Какие планы на будущее?

Долгосрочный проект, который сейчас в работе — оцифровка и вычитка 15-томного ПСС Н. Г. Чернышевского. Сейчас относительно готовы первые 2 тома. Но в целом участники занимаются теми книгами, которые им в данный момент интересны.

Сейчас более-менее регулярно занимаются оцифровкой до 10 человек и основная проблема для увеличения числа участников — техническая сложность работы с Git. Люди, добавляющие книги, часто далеки от IT и не все могут быстро этому научиться.

Для уменьшения сложности запланировано небольшое приложение на Python в котором можно будет исправлять опечатки в книгах в двухпанельном редакторе, как, например, в Wikisource. Но на данный момент нет разработчика, чтобы его доделать. Доделать это приложение - одна из ближайших задач.

Дальнейшее развитие уже будет заключаться в разработке базы данных и какого-то интерфейса к ней, чтобы можно было удобно делать переводы. Возможно, получится использовать подходящий готовый OpenSource продукт, но пока такого не видел.

Сколько потратили и заработали? Есть идеи как это можно монетизировать?

Затраты — только выделенный сервер для форума и домены. Основная часть сайта хранится на GitHub Pages.

На данный момент проект не подразумевает какой-либо монетизации.

Нужны ли какие-то советы или помощь Клуба?

В целом любые комментарии могут быть полезными. Если же есть желание присоединиться к вычитке книг или разработке средств для вычитки, то это будет ещё лучше. Очень хотелось бы довести программу для вычитки до рабочего состояния. Далее это средство можно будет расширить, чтобы оно было полезно не только для вычитки, но и для переводов.

6 комментариев 👇

Дигитализация недигитализованного — занятие благородное. Даже если никто не будет читать оцифрованную макулатуру для собственного удовольствия, то тексты можно использовать для машинного обучения, исторических экскурсов и архивного дела.

Скажите пожалуйста, а вы как-то заботитесь о том, чтобы при оцифровке не произошло вмешательства человека с целью фальсификации утверждений автора и подмены понятий?

В архивном деле есть проблема: когда доступ к архивным материалам ограничен, вклинившийся в процесс их обработки злоумышленник может подменить понятия, исказить смысл — убрав какие-то слова, а то и дописав в текст от себя. Найти и проверить такие вредительства чрезвычайно сложно: нужен параллельный, а главное — независимый — институт корректоров, имеющий доступ к тем же источникам, но никак не аффилированных с другими участниками производственной цепочки. Без них, увы, валидность информации, особенно чувствительной в историческом или политическом контексте, может оказаться весьма сомнительной.

Второй мой вопрос касается вашего тезиса о том, что

«только люди, перенявшие передовой способ мышления, развитый всей историей философии, способны проанализировать текущую ситуацию, а значит и повлиять на неё в нужную сторону. »

Что такое «нужная сторона» по-вашему и где она находится? О какой «текущей ситуации» вы говорите? В какую сторону вы ожидаете её поворота от людей, прочитавших марксистский взгляд на диалектику?

Почему вообще исторические документы, типа дневников Чернышевского (которым уже 150 лет), могут представлять какой-то ценный материал для становления образа мышления у людей, рождённых в 21-м веке — откуда такая гипотеза?

Вот на мой взгляд — все, кого мы знаем из 18-19 веков, включая Чернышевского, — это хорошо образованные (по тем временам) и достаточно состоятельные графоманы. Сегодня их назвали бы блогерами, инфоцыганами ну или на худой конец — независимыми журналистами. И если в те времена их мысли действительно могли иметь влияние на умы их современников (по понятным причинам — они философствовали про их настоящее и будущее), то для нас все их писульки — это не более, чем исторические анекдоты.

  Развернуть 1 комментарий
🕵️ Юзер скрыл свои комментарии от публичного просмотра...
🕵️ Юзер скрыл свои комментарии от публичного просмотра...

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб