Проект: Comtext. Оцифровываем важные книги («Что делать?»)  Публичный пост
28 апреля 2023  500
Comtext. Оцифровываем важные книги («Что делать?»)

Привет! Хочу рассказать о проекте comtext.space, которым занимаюсь.

Сейчас довольно много энтузиастов оцифровывают старые книги. Под оцифровкой книг часто понимают просто их сканирование, потом сканы объединяют в PDF или DJVU, иногда с распознанным текстовым слоем. Сканирование, конечно, это основа, но этого недостаточно, чтобы получить «полноценную» оцифрованную книгу. Несколько примеров:

  • Скан нельзя преобразовать в другой формат, а мне нравится читать с читалки fb2.
  • Текстовый слой в PDF, обычно, с опечатками и цитаты из него надо редактировать. Сканы затруднительно использовать для переводов.

Так вот, полноценная оцифровка книг — это получение вычитанного (с исправлением ошибок) текста книги в Unicode с авторской разметкой, который дальше можно использовать как угодно. Причем и это ещё не всё. Для удобства переводов хорошо бы ещё текст книги загнать в БД, так, чтобы текст был разделён по абзацам.

<br>
Примеры опечаток при оцифровке

Примеры опечаток при оцифровке

Идея не нова, wikisource.org и проект Гутенберг придерживаются сходных целей. Однако эти и другие проекты останавливаются на полпути — в лучшем случае доходя только до воспроизведения авторского текста. Об удобстве текста для переводов даже речи не идёт.

Есть и другие проблемы, например, перегибы с визуальной разметкой, когда пытаются полностью воспроизвести бумажную книгу визуально, что идёт в ущерб смысловой разметке текста. Более детальное сравнение с этими проектами по этим ссылкам: Wikisource, Гутенберг и другие.

Может возникнуть мысль: «зачем вообще всё это нужно?». Если бы действительно всё заключалось именно в оцифровке книг то и заниматься этим было бы особо незачем, да и есть уже указанные выше крупные проекты. Можно сказать, что при желании и почитать можно в любом формате, а кому надо переводить - сам разберется, что делать. И вот здесь появляется ключевой момент.

Как появилась идея? Что вдохновило?

Оцифровка книг не является самоцелью. Цель этой деятельности — движение общества в русле мирового общественно-исторического развития. Если не разбираться, то может звучать как-то оторванно и непонятно. Попробую объяснить.

Со времён появления письменности, особенно книгопечатания, значительная часть идей распространялась через тексты. А распространение идей влияло на общество. Конечно, основой общественных изменений всегда были более приземлённые, материальные факторы, но идеи влияли на скорость и сложность этих изменений.

Распространение литературы, особенно переводов, способствует качественным изменениям устройства общества. И ключевой вопрос, не только в том как распространять литературу, но ещё в том какую литературу распространять.

За примерами влияния литературы на людей долго ходить не нужно. Роман Н. Чернышевского «Что делать?» оказал значительное влияние на В. Ленина, а уже его книга, с тем же названием, послужила основой глубоких изменений в обществе.

Мы считаем, что наиболее полезны книги способствующие выработке твердого материалистического взгляда на мир и диалектического мышления. Ведь только люди, перенявшие передовой способ мышления, развитый всей историей философии, способны проанализировать текущую ситуацию, а значит и повлиять на неё в нужную сторону. Среди русскоязычных авторов, мы выделяем, Н. Чернышевского, В. Ленина, Э. Ильенкова, В. Босенко и некоторое количество менее известных.

Авторы, работающие в этом направлении, есть и на языках соседних стран, как минимум на украинском, польском, болгарском, немецком, чешском. Однако, в виду особых исторических условий, подобного рода литературы особенно много на русском языке. Об этом не принято задумываться, но мало что из этой литературы доступно даже на английском или немецком, не говоря уже о национальных языках небольших стран. А ведь действительное коренное изменение общества может произойти только глобально, на всей планете, поэтому переводы играют ключевое значение в этой работе.

Не менее, важной вещью, чем сама литература, является взаимодействие людей в рамках работы над ней: в вычитке, оформлении, переводах. Такая деятельность создаёт устойчивые организационные структуры, которые имеют потенциал для дальнейшего развития.

Таким образом оцифровка книг и их переводы — это только средство для преобразования общественных отношений. Литература - не единственная, но одна из необходимых частей этого процесса. Тема действительно сложная и дискуссионная, в рамках этого поста о проекте её полностью не раскрыть. Поэтому далее сосредоточусь на технической части.

Техническая часть

Технически, все довольно примитивно: книги хранятся в репозитории на GitHub, при фиксации срабатывают экшены, небольшая предоботка файлов на JS и генерация сайта на VuePress. Дополнительно, больше как пример, приделана конвертация с fb2 через Pandoc.

Разметка для книг — формат comtext, по сути, это минимально доработанный Markdown, например, добавлена возможность указывать номера страниц из оригинала. С Markdown было удобнее всего начинать, так как с ним уже работает куча инструментов. Формат ещё далёк от завершения, есть необходимость в дополнительных элементах для подписей к изображениям, цитат и других.

Vuepress для парсинга Markdown использует js-библиотеку markdown-it. Она довольно просто расширяется и сейчас к ней написан один плагин, чтобы на сайте можно было скрывать и показывать номера страниц оригинала произведения.

Какие планы на будущее?

Долгосрочный проект, который сейчас в работе — оцифровка и вычитка 15-томного ПСС Н. Г. Чернышевского. Сейчас относительно готовы первые 2 тома. Но в целом участники занимаются теми книгами, которые им в данный момент интересны.

Сейчас более-менее регулярно занимаются оцифровкой до 10 человек и основная проблема для увеличения числа участников — техническая сложность работы с Git. Люди, добавляющие книги, часто далеки от IT и не все могут быстро этому научиться.

Для уменьшения сложности запланировано небольшое приложение на Python в котором можно будет исправлять опечатки в книгах в двухпанельном редакторе, как, например, в Wikisource. Но на данный момент нет разработчика, чтобы его доделать. Доделать это приложение - одна из ближайших задач.

Дальнейшее развитие уже будет заключаться в разработке базы данных и какого-то интерфейса к ней, чтобы можно было удобно делать переводы. Возможно, получится использовать подходящий готовый OpenSource продукт, но пока такого не видел.

Сколько потратили и заработали? Есть идеи как это можно монетизировать?

Затраты — только выделенный сервер для форума и домены. Основная часть сайта хранится на GitHub Pages.

На данный момент проект не подразумевает какой-либо монетизации.

Нужны ли какие-то советы или помощь Клуба?

В целом любые комментарии могут быть полезными. Если же есть желание присоединиться к вычитке книг или разработке средств для вычитки, то это будет ещё лучше. Очень хотелось бы довести программу для вычитки до рабочего состояния. Далее это средство можно будет расширить, чтобы оно было полезно не только для вычитки, но и для переводов.

6 комментариев 👇

Дигитализация недигитализованного — занятие благородное. Даже если никто не будет читать оцифрованную макулатуру для собственного удовольствия, то тексты можно использовать для машинного обучения, исторических экскурсов и архивного дела.

Скажите пожалуйста, а вы как-то заботитесь о том, чтобы при оцифровке не произошло вмешательства человека с целью фальсификации утверждений автора и подмены понятий?

В архивном деле есть проблема: когда доступ к архивным материалам ограничен, вклинившийся в процесс их обработки злоумышленник может подменить понятия, исказить смысл — убрав какие-то слова, а то и дописав в текст от себя. Найти и проверить такие вредительства чрезвычайно сложно: нужен параллельный, а главное — независимый — институт корректоров, имеющий доступ к тем же источникам, но никак не аффилированных с другими участниками производственной цепочки. Без них, увы, валидность информации, особенно чувствительной в историческом или политическом контексте, может оказаться весьма сомнительной.

Второй мой вопрос касается вашего тезиса о том, что

«только люди, перенявшие передовой способ мышления, развитый всей историей философии, способны проанализировать текущую ситуацию, а значит и повлиять на неё в нужную сторону. »

Что такое «нужная сторона» по-вашему и где она находится? О какой «текущей ситуации» вы говорите? В какую сторону вы ожидаете её поворота от людей, прочитавших марксистский взгляд на диалектику?

Почему вообще исторические документы, типа дневников Чернышевского (которым уже 150 лет), могут представлять какой-то ценный материал для становления образа мышления у людей, рождённых в 21-м веке — откуда такая гипотеза?

Вот на мой взгляд — все, кого мы знаем из 18-19 веков, включая Чернышевского, — это хорошо образованные (по тем временам) и достаточно состоятельные графоманы. Сегодня их назвали бы блогерами, инфоцыганами ну или на худой конец — независимыми журналистами. И если в те времена их мысли действительно могли иметь влияние на умы их современников (по понятным причинам — они философствовали про их настоящее и будущее), то для нас все их писульки — это не более, чем исторические анекдоты.

  Развернуть 1 комментарий

@zahhar,

Скажите пожалуйста, а вы как-то заботитесь о том, чтобы при оцифровке не произошло вмешательства человека с целью фальсификации утверждений автора и подмены понятий?

Это действительно важная и сложная тема. То, что сейчас можно сделать в практической части — сохранить связь со сканом сквозь все этапы оцифровки. Например, при просмотре книги на сайте может быть возможность по клику на абзац увидеть фрагмент исходного скана книги, реализация этого есть на Wikisource.

Дальше конечно идёт вопрос подлинности скана. На эту тему у меня выработанных решений нет.

А после скана уже встает вопрос о подлинности текста в самой книге, например, в сравнении с авторской рукописью. Это уже чисто текстологический вопрос. Сейчас приходится полагаться ни издания СССР, так как тогда выверкой и сравнением с первоисточниками занимались организованные коллективы и было финансирование. Сейчас такой масштаб работы трудно представить.

В целом эта проблема очень далека от решения.

Что такое «нужная сторона» по-вашему и где она находится? О какой «текущей ситуации» вы говорите? В какую сторону вы ожидаете её поворота от людей, прочитавших марксистский взгляд на диалектику?

Под «текущей ситуацией» я имел в виду современное состояние общества. В сообщении я говорил именно об анализе текущей ситуации, если говорить в общем, то сюда входит разное: это и экономика, как отдельных стран, так и мировая, состояние классов и прослоек в обществе и много чего ещё.

«Нужная сторона» определена всей предшествующей историей людей. Если коротко то «переход к социализму, либо возврат к варварству», и при понимании этой альтернативы, а третьего нет, выбор сознательного человека очевиден.

И самое главное касается «прочитавших марксистский взгляд на диалектику»: тут конечно речь не идет только о чтении. Чтение, а особенно коллективное, с обсуждением, это способ выработки определенного способа мышления, такого который позволяет решать обсуждаемые здесь общественные вопросы. Можно привести ограниченную аналогию с тем как разработчик изучает язык программирования. Начинает он обычно с какого-то языка: Python, Java или любой другой, но при его изучении он обучается не просто языку, ключевым словам и остальному, а алгоритмическому мышлению, способам декомпозиции задачи, паттернам. С опытом язык становится уже не так важен, он используется только как выражение более высокоуровневых концепций, человек уже не мыслит на языке программирования, а выражает свои мысли через язык программирования. Так и изучение литературы, в частности, истории философии происходит не просто чтобы знать историю философии, а чтобы появилась способность решать определенный класс задач.

Вот здесь и соединяются вместе «нужная сторона» и «текущая ситуация». Есть скажем проблема, например, коррупция. Кто-то может предложить решение — надо всем сходить на прогулку. Или может быть требуется ужесточение законодательства. А может что-то ещё. Как выбрать, что требуется делать? Причем это пример относительно простой проблемы. Ещё можно назвать войны, экономическое неравенство и множество других. Если исследовать их причины, то обнаружится, что они связаны с одним корнем и для их устранения нужно изменение экономического базиса. И вот как раз для этой задачи — сознательного преобразования общественных отношений - и нужны люди которые «прочитали марксистский взгляд на диалектику».

Почему вообще исторические документы, типа дневников Чернышевского (которым уже 200 лет), могут представлять какой-то ценный материал для становления образа мышления у людей, рождённых в 21-м веке — откуда такая гипотеза?
...
И если в те времена их мысли действительно могли иметь влияние на умы их современников (по понятным причинам — они философствовали про их настоящее и будущее), то для нас все их писульки — это не более, чем исторические анекдоты.

Вот это очень хороший вопрос. Только отвечать на него нужно развернуто, я постараюсь в краткой форме, насколько это получается.

При рассмотрении истории развития техники, например, истории языков программирования, вряд ли, кто-то будет спорить, что современные языки являются результатом как практики, так и исследований разработчиков который работали больше 40 лет назад. И с того времени можно проследить корни современных решений. В качестве примера можно взять статью «Programming with abstract data types» (1974, Barbara Liskov). Когда была написана эта статья чего-то похожего на ООП в современных языках ещё не было и то как это описано в статье, на современный взгляд, кажется слишком расплывчатым и переусложненным. Хотя именно современные знания позволяют понять, какие прорывные мысли это было тогда и какие стороны тех идей в итоге были развиты в современную парадигму.

И тут конечно, возникает вопрос, а зачем эту старье изучать, современный учебник написан проще и точнее. И если задача действительно примитивная или сугубо прикладная, просто писать код, то да, изучения учебника часто может быть достаточно. Другой ответ на этот вопрос будет когда поставлена задача развития индустрии, выработки нового подхода, изменения парадигмы.

Чтобы что-то продвигать вперед недостаточно понимания только текущего положения этой вещи. Нужно знать какой вектор её движения. Без этого вообще непонятно какие усилия и в каком направлении оказывать.

Голый результат без пути, к нему ведущего, есть труп, мертвые кости, скелет истины, неспособный к самостоятельному движению

Говоря о языках программирования, мысль о том, что для того чтобы создать новый и более эффективный ЯП полезно хоть как-то разбираться в других языках и истории их развития не кажется слишком странной. А вот когда речь заходит о философии то многие думают по-другому.

На самом деле ситуация с историей философии мало отличается от описанного про языки программирования. Эта история содержит основную линию, есть современное её состояние и есть тупиковые ветки развития. В истории философии есть узловые точки, работы людей вроде Дейкстры или Лисков. История философии это не набор мнений которые никак не связаны или случайны, это не «исторические анекдоты», так же как «историческим анекдотом» не является «Go To Statement Considered Harmful».

В итоге, изучение философии, как и её истории так современной, наиболее развитой формы, и есть способ получения нужного для решения общественных задач инструмента — способа мышления о котором упоминал выше. И поэтому важны старые тексты которым может быть 200 или даже больше чем 2000 лет, конечно не все подряд, а именно те, значение которых становится понятным со стороны современного взгляда. Как и в примере с языками программирования изучение истории предмета необходимо для дальнейшего его продвижения вперед.

Если остаётся вопрос почему именно эти авторы выделены, а не какие-то другие то на него тоже могу попробовать ответить отдельно. Хочу только добавить что в сообщению указаны далеко не все, просто остальные менее известны и перечислять их просто так смысла нет. Например, я гораздо больше знаком с авторами из XX века, чем с Чернышевским.

  Развернуть 1 комментарий

@ksur, спасибо за ответ!

Относительно ценности преданий давно минувших дней для наших современников - понял твою точку зрения, но не считаю аргументы убедительными.

Если применить к политике: будь я кандидатом на какой нибудь высокий избираемый пост, я бы не отказался иметь в команде консультанта, знакомого с историей социализма. Но я бы не стал тратить свое время, как самый ограниченный ресурс, на изучение - если большинство избирателей не петрят в марксисткой диалектике, то вряд ли я преуспею в получении их голосов, если начну говорить с ними научным языком и философскими концептами.

То же применимо к другим сферам, на мой взгляд.

  Развернуть 1 комментарий
Михаил Гусаров Инженегр-погромист 29 апреля 2023

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

@dottedmag,

Мне непонятно, почему именно оцифровка и повышение удобства перевода были выявлены, как главная проблема, мешающая распространению идей вышеупомянутых авторов.

Главная проблема мешающая, распространению идей, конечно, не оцифровка, а причины по которым у людей появляются определенные идеи. Мысли, идеи, желания людей не произвольны и определяются их общественным бытием. А общественное бытие - это способ взаимодействия людей во время производства и распределения. Если распределение основано на частной собственности, то и в идеях людей, в представлениях людей о мире, по большей части, будут доминировать, например, такие: «люди по своей природе должны конкурировать друг с другом», «если ты не успешен, то значит плохо старался», «у каждого свое мнение и все мнения одинаково верны» и подобные.

В то же время, уже в рамках текущей организации людей по поводу производства появляются ростки будущих общественных производственных отношений. Именно они в первую очередь и способствуют распространению идей. А оцифровка и переводы — это та деятельность, которая ускоряет этот процесс.

И, конечно, ещё одну вещь нельзя не упомянуть. В классовом обществе доминирующие идеи всегда будут идеями класса, в руках которого материальные средства производства и распространения этих идей: СМИ, массовая литература, кино и другие.

До появления компьютеров книги тоже как-то переводили, и отсутствие удобной разметки не мешало.

Может дело не совсем в отсутствии книг в размеченном виде, а в, эээ, полезности содержания?

То, что ранее каких-то технологий не было, не повод отказываться и не использовать их. Раньше не было компьютеров и нельзя сказать, что это мешало людям. Речь про оцифровку и разметку идёт именно потому, что это наиболее удобный удобный способ организовать перевод книг.

Попробую переформулировать ваш тезис, как я его понял: «если бы содержание книг было полезно, то отсутствие оцифровки и разметки не помешало бы переводам». Переводы делались раньше и будут делаться в будущем с использованием соответствующих времени технических средств. И, в особенности, переводу упомянутых авторов, как самых ширококостных. Запрос на идеи научного социализма есть, это показывает, например, множество обсуждений в клубе на тему «почему всё так происходит?» и «как быть и что делать?». Оцифровка это не формирование запроса на эти идеи, запрос уже сформирован жизнью людей, оцифровка — это способ удовлетворения этого запроса.

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

@VBodrov, возможно, я действительно, выразил какую-то мысль так что её трудно понять. Подскажите, пожалуйста, что именно вам не понятно, и, возможно, я смогу сделать это лучше.

  Развернуть 1 комментарий

@VBodrov, вижу обновление комментария, поэтому могу пояснить.

Проект про оцифровку или "научный социализм"?

Есть некоторое различие между тем что делают и зачем делают люди. Проект касается оцифровки литературы, только сама по себе оцифровка это технический момент (что делают), а вот «научный социализм» это, если так можно сказать, зачем это всё делается.

Если взять аналогию, то например автомобиль он про то, чтобы на нём ездить или про то чтобы доставить человека из точки А в точку Б? Человек и перемешается из А в Б посредством того, что он едет на машине. Причем сам процесс езды, тоже может нравится и даже иногда быть самоцелью — поехать покататься. В данном случае движение автомобиля это техническая часть или оцифровка книг, а вот то куда человек едет — это уже общественные изменения.

Только подчеркну, что не надо изменение общества сводить к оцифровке литературы, очевидно, что первая задача гораздо шире и оцифровка это её небольшой момент.

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб