Почему выпускать научный журнал только в pdf — это очень плохо? (Часть 2)

В издании «The Atlantic» вышла статья с заголовком «Научная публикация устарела», проиллюстрированная изображением горящей рукописи. Подзаголовок ниже немного обнадёживает — «Вот что будет дальше».

Что же будет дальше? Куда мы движемся? Статья, написанная бывшим редактором «The Atlantic» Джеймсом Сомерсом, не констатирует смерть научной публикации, как можно быстро догадаться из названия. Она говорит о том, что представление исследований, основанное преимущественно на бумаге, становится устаревшим. Сомерс утверждает, что печать журналов и публикация статей в формате PDF на бумажных носителях в Интернете не позволяет проводить динамические презентации исследований, необходимые для авторов и читателей. Он задает вопрос: «Что бы вы получили, если бы сегодня создавали научную статью с нуля?». В статье рассматривается альтернативный вариант научной публикации, созданный при помощи так называемого формата computational notebook.

Станет ли computational notebook основным издательским форматом, еще предстоит определить. Как отмечает Сомерс, это потребует кардинальных изменений в академических исследованиях и издательской среде в целом. И действительно ли PDF так устарел? Мы обсуждали ограничения PDF-файлов в первой части этой статьи. Формат PDF не поддерживает мультимедийные файлы, и такие материалы очень сложно воспринимать с экрана мобильных устройств. Но PDF-файлы имеют свои преимущества. PDF-файлы — лучший формат для ученых, которые предпочитают читать физические копии статей, так как этот формат позволяет распечатать нужный материал, и быть уверенным, что копия будет идентична оригиналу. PDF-файлы также можно сохранять в формате e-book, что делает их легко транспортируемыми. Так что есть причины не списывать PDF со счетов.

Однако если оставить в стороне дискуссию о полезности PDF-файлов, становится очевидно, что использование онлайн-формата публикации на бумажной основе не позволяет обеспечить максимально возможный пользовательский опыт для читателей-людей или для растущего числа читателей-машин (поисковые системы, репозитории, агрегаторы и т. д.). Машины должны уметь обрабатывать информацию на языках компьютерной разметки, а ученым необходимо уметь добавлять динамические элементы в документы, анализировать данные и просто читать статьи на своих мобильных устройствах, не жалуясь на неудобства.

Изменения, внедряемые в журналы различных дисциплин, которые могут значительно расширить онлайновую доступность и полезность научных публикаций – это публикация статей в HTML и полнотекстовый XML. Создание этих дополнительных форматов статей не обязательно требует дополнительных этапов производства. Применяя процессы набора текста с использованием цифровых технологий, журналы могут одновременно создавать несколько файлов статей. Как система Гефест, разработанная РАЦС, позволяет осуществлять разметку научных статей для добавления в различные репозитории вы можете узнатьздесь.

Почему необходимы другие типы файлов в дополнение к PDF?

Поиск – краеугольный камень научных исследований

Давайте сначала проанализируем одну из самых больших проблем публикации в PDF – ограниченный поиск по содержанию исследования. В сфере цифровых публикаций поиск – это основа всего, краеугольный камень научного знания. В отчете 2018 года «Как читатели обнаруживают контент в научных публикациях», подготовленном Renew Publishing Consultants, говорится, что «академические исследователи (группа исключает студентов) оценивают поисковые системы как наиболее важный ресурс для поиска научных статей». Отчет включает наукометрические базы данных (например, PubMed Central), а также более распространенные научные поисковые системы, такие как Google Scholar.

Существуют две основные модели сбора и обработки информации репозиториями и поисковыми системами, чтобы узнать, что возвращать в результатах поиска: (1) метаданные и депозиты контента, и (2) поисковые роботы (crawlers). В обоих этих сценариях PDF не соответствует стандартам. В случае внесения метаданных и хранения содержимого, PDF-файлы не являются машиночитаемым вариантом. Большинство баз данных требуют, чтобы метаданные и депозиты контента передавались им в JATS-совместимом XML. Журналы, которые не создают машиночитаемых файлов статей XML, могут вручную вводить метаданные в некоторые индексы, но это утомительный процесс, который не позволяет ввести всю информацию, необходимую для эффективной обработки данных.

В случае поисковых систем, работа которых основана на поисковых роботах, PDF-файлы также представляют собой проблему. Хоть они и могут быть проиндексированы многими поисковыми системами, их содержание не оптимизировано для поиска по нескольким причинам. Во-первых, в статьях PDF часто отсутствуют адекватные метаданные HTML, потому что многие журналы не размещают их на страницах веб-сайта, а ссылаются непосредственно на сам PDF. Для эффективного индексирования веб-сайтов журналов, сканеры должны иметь возможность находить каждую статью журнала на отдельной веб-странице, с которой связаны метаданные статьи на уровне HTML. Файлы PDF сами по себе не предоставляют сканерам необходимые метаданные.

Чтобы оптимизировать статьи для поисковых систем, журналы должны размещать каждую из своих статей на указанной веб-странице статьи, которая включает библиографические метаданные на уровне HTML. На самом деле это основное требование к журналам, чтобы быть проиндексированными в Google Scholar. Журналы могут выполнить это требование, имея отдельные веб-страницы для PDF-версий каждой из статей, в идеале, с помощью встроенного в веб-страницу средства просмотра PDF, вместо того, чтобы страницы статей ссылались на файлы PDF. Отображение статей в формате PDF на веб-страницах помогает поисковым системам «понять», как они связаны с другим контентом на веб-сайте, и повышает вероятность сканирования дополнительных страниц.

Однако даже при размещении на отдельных веб-страницах PDF-файлы могут содержать ограничения по ссылкам. Бывает утомительно добавлять кликабельные ссылки в PDF-файлах, тогда как HTML более удобен для добавления интерактивных ссылок в текст. Статьи HTML также улучшают работу пользователей, когда дело доходит до ссылок. Они позволяют пользователям открывать ссылки на отдельных вкладках, сохраняя при этом их место чтения в статье. PDF-файлы часто открывают ссылки в одной вкладке, в результате чего читатель перебрасывается на другую страницу и теряет то место, которое он читал ранее.

Следующим, но не менее серьезным ограничением PDF-файлов в современном поиске является неадаптированность для мобильных устройств. Сегодня многие поисковые системы, в том числе Google, переходят на индексацию с мобильных устройств. Сканеры индексируют и ранжируют удобный для мобильных устройств контент перед контентом, который не оптимизирован для мобильных устройств. Поэтому оптимизация издания под чтение с мобильных устройств является залогом его конкурентоспособности.

Читатели становятся все более мобильными

Помимо поиска, существуют также очевидные преимущества для читателей при создании статей на удобном для мобильных устройств HTML. Поскольку мобильное использование растет среди широкой публики, оно также увеличивается в академических кругах. В отчете «Как читатели находят контент в научных публикациях» за 2015 год было установлено следующее: исследователи продолжают в основном использовать настольные компьютеры и ноутбуки для исследований и написания статей, но, не смотря на это, наблюдается явное увеличение использования мобильных устройств респондентами в разных дисциплинах. Это особенно актуально в странах с низким уровнем дохода, где количество пользователей мобильной связи почти удвоилось. Поскольку весь мир становится все более мобильным, ученые должны иметь возможность быстро и легко получать доступ к исследованиям. А для стран с низким уровнем дохода мобильные устройства зачастую более доступны, чем компьютеры.

Возможности для улучшения читательского опыта и использования

Публикация PDF-файлов сама по себе ограничивает использование новых возможностей чтения и использования статей в Интернете. Например, некоторые издатели и базы данных контента начинают вводить расширенные метаданные статьи. Расширенные метаданные включают в себя семантические элементы контента, которые могут помочь базам данных не только понять, что это за контент, но и о чем он. В недавнем интервью Джабин Уайт, вице-президент по управлению контентом JSTOR и Portico, сделал большой доклад о расширенных метаданных. Как он отметил, наличие полнотекстового XML является важной предпосылкой для того, чтобы издатели, репозитории и распространители контента, такие как JSTOR, могли эффективно создавать расширенные метаданные.

Помимо поддержки создания расширенных метаданных, полнотекстовые XML-файлы также более удобны для анализа текста и данных, где для получения информации о статье используются онлайновые сценарии или инструменты машинного обучения. Например, ученый может использовать анализ текста и данных для составления совокупности статей, которые ссылаются на конкретный предмет, или для анализа связанных наборов данных в разных статьях. Новые инструменты машинного обучения продемонстрировали, что хотя и есть возможность анализировать PDF-файлы, технически это очень сложно. Например, Scite анализирует цитирование статей, чтобы определить, подтверждают или противоречат исследования друг друг. Для Scite и других инструментов машинного обучения, переход всех статей в машиночитаемый формат станет важным шагом вперёд. В настоящее же время им приходится анализировать и PDF, так как PDF-файлы являются преобладающим форматом публикации.

Гибкий опыт чтения для различных потребностей

При рассмотрении плюсов и минусов PDF, а также других типов файлов, читаемых человеком и машиной, становится очевидным, что каждый тип файла отвечает различным потребностям. PDF-файл остается оптимальным вариантом для журналов, который может дать читателям возможность легко распечатывать копии статей. Но для эффективности процесса цитирования и обработки информации, выпуск журналов в HTML и XML имеет первостепенное значение.

Добавить комментарий Отменить ответ