Почему выпускать научный журнал только в pdf — это очень плохо

Почему издатели научных журналов должны перейти на машиночитаемые форматы, и как это повлияет на индексирование журналов в международных наукометрических репозиториях?

Наукометрические базы данных, такие как DOAJ, SCOPUS, WoS, Pub-Med, Google Scholar и пр. являются одними из главных средств, которые ученые используют для проведения исследований. Эти виртуальные сокровищницы информации, кажется, «понимают» контент, который они содержат, и могут отвечать на поисковые запросы в считанные секунды.

Конечно, репозитории не могут «читать» человеческий текст (по крайней мере, пока!). Они обрабатывают контент, используя информацию, доступную на машиночитаемых языках разметки или компьютерном коде. Издатели журналов, которые хотят, чтобы их статьи отображались в соответствующих базах, должны предоставить им информацию о статье в машиночитаемом формате.

Если вы публикуете журнальные статьи только в формате PDF, упускаете ценные возможности индексации. Давайте копнем глубже:

как репозитории обрабатывают информацию
способы создания машиночитаемых файлов статей и отправка их в базы
JATS-совместимый XML — стандартный формат индексации

Репозитории принимают информацию в машиночитаемых форматах
Индексы жаждут знаний! Но они могут принимать информацию только в машиночитаемых форматах.

Существует два способа подачи информации в наукометрические базы:

ввод метаданных статьи вручную в формы депозита данных
отправка машиночитаемых файлов статей в индексы (например, при помощи программы разметки и регистрации DOI Гефест)

Если вы не создаете машиночитаемые файлы статей, ввод данных вручную — единственный вариант. В этом случае форма выступает в качестве канала для преобразования введенных вами данных статьи в машиночитаемые метаданные, которые может понять репозиторий.

Исходя из этого, ручной подход ограничен. Не все наукометрические базы предлагают возможность ручного ввода данных. Многие репозитории, такие как PubMed, будут принимать только статьи, представленные в виде файлов XML. В тех случаях, когда данные можно вводить вручную, а это трудоемкий и затратный процесс для издателей, с большой долей вероятности можно совершить ошибки мануального ввода. Кроме того, наукометрические базы требуют расширенных метаданных для осмысленной обработки статей, ввести же все данные вручную корректно и без ошибок просто невозможно.

Второй вариант — отправить машиночитаемые файлы научных статей. Это намного быстрее для издателей, поскольку устраняет необходимость ручного ввода данных. Репозитории могут понимать машиночитаемые файлы статей как они есть. Машиночитаемые файлы статей также обеспечивают более высокое качество индексации, поскольку содержат богатые метаданные. Разработанная нами программа Гефест, позволяет подготовить XML для РИНЦ, DOI, AGRIS, DOAJ и для многих других репозиториев, а также автоматически отправляет все данные статей в BASE (отправить заявку на использование программы Гефест для регистрации DOI и подготовки xml).

Расширяемый язык разметки или XML — это стандартный язык разметки, используемый индексами академических журналов. Давайте рассмотрим варианты создания машиночитаемых файлов статей и внесения их в наукометрические базы.

Способы создания машиночитаемых файлов статей и отправки их в репозитории
Существуют два варианта создания машиночитаемых файлов XML научных статей для индексации в базах данных. Журналы могут отправлять файлы XML общего плана или полнотекстовые файлы XML. Общие XML-файлы содержат основные метаданные статьи, включая:

название журнала
издательство
название статьи
имена авторов
аннотация статьи
общие XML-файлы могут также включать другие расширенные метаданные, такие как ORCID авторов.

Как следует из названия, полнотекстовые файлы статей XML содержат полный текст статьи на машиночитаемом языке. Оба эти формата лучше ручного ввода данных. Полнотекстовый XML — самый надежный вариант, позволяющий извлекать текст и данные.

Когда издатели вносят в репозитории как исходные, так и полнотекстовые XML-файлы, они обычно могут делать это одним из двух способов: либо загружать файлы статей в индексы партиями (обычно через FTP-сервер), либо настраивать автоматические депозиты статей через API. API является каналом, который различные программные приложения могут использовать для связи друг с другом.

JATS DTD XML — стандартный формат индексации
В документациях, касающихся индексирования в наукометрических базах, вы, вероятно, сталкивались с термином «JATS DTD», и вам может быть интересно, что он означает. В то время как XML является языком, JATS DTD является типом синтаксиса. JATS DTD расшифровывается как «набор тегов журнальных статей» и «определение типа документа». Это особый способ форматирования файлов XML, разработанный Национальной организацией информационных стандартов (NISO). JATS DTD считается техническим стандартом для журнальных статей и является предпочтительным или обязательным для многих академических индексов, включая все индексы Национальной медицинской библиотеки (NLM) — PubMed, PubMed Central и MEDLINE.

Форматирование статей в JATS DTD XML является оптимальной практикой и позволит вам быстрее и проще добавлять статьи в журналы в индексы. РАЦС оказывает услугу по подбору и установке издательских платформ, которые помогут вашему изданию предоставить статьи в машиночитаемом формате.

2 ответа к “Почему выпускать научный журнал только в pdf — это очень плохо”

Добрый день. Осуществляете ли вы услуги по переводу текста в формат Book Interchange Tag Suite (BITS) DTD?

Мы предоставляем доступ к программному обеспечению, в котором клиент осуществляет разметку статей чтобы на выходе получить xml для загрузки в PubMed, согласно формату https://www.ncbi.nlm.nih.gov/books/NBK3828/#publisherhelp.Example_of_a_Standard_XML но это не стандарт Book Interchange Tag Suite (BITS) DTD.

2 ответа к “Почему выпускать научный журнал только в pdf — это очень плохо”

Добавить комментарий для Сергей Отменить ответ