Рубрики
Новости

Почему выпускать научный журнал только в pdf — это очень плохо? (Часть 2)

В издании «The Atlantic» вышла статья с заголовком «Научная публикация устарела», проиллюстрированная изображением горящей рукописи. Подзаголовок ниже немного обнадёживает — «Вот что будет дальше».

Что же будет дальше? Куда мы движемся? Статья, написанная бывшим редактором «The Atlantic» Джеймсом Сомерсом, не констатирует смерть научной публикации, как можно быстро догадаться из названия. Она говорит о том, что представление исследований, основанное преимущественно на бумаге, становится устаревшим. Сомерс утверждает, что печать журналов и публикация статей в формате PDF на бумажных носителях в Интернете не позволяет проводить динамические презентации исследований, необходимые для авторов и читателей. Он задает вопрос: «Что бы вы получили, если бы сегодня создавали научную статью с нуля?». В статье рассматривается альтернативный вариант научной публикации, созданный при помощи так называемого формата computational notebook.

Станет ли computational notebook основным издательским форматом, еще предстоит определить. Как отмечает Сомерс, это потребует кардинальных изменений в академических исследованиях и издательской среде в целом. И действительно ли PDF так устарел? Мы обсуждали ограничения PDF-файлов в первой части этой статьи. Формат PDF не поддерживает мультимедийные файлы, и такие материалы очень сложно воспринимать с экрана мобильных устройств. Но PDF-файлы имеют свои преимущества. PDF-файлы — лучший формат для ученых, которые предпочитают читать физические копии статей, так как этот формат позволяет распечатать нужный материал, и быть уверенным, что копия будет идентична оригиналу. PDF-файлы также можно сохранять в формате e-book, что делает их легко транспортируемыми. Так что есть причины не списывать PDF со счетов.

Однако если оставить в стороне дискуссию о полезности PDF-файлов, становится очевидно, что использование онлайн-формата публикации на бумажной основе не позволяет обеспечить максимально возможный пользовательский опыт для читателей-людей или для растущего числа читателей-машин (поисковые системы, репозитории, агрегаторы и т. д.). Машины должны уметь обрабатывать информацию на языках компьютерной разметки, а ученым необходимо уметь добавлять динамические элементы в документы, анализировать данные и просто читать статьи на своих мобильных устройствах, не жалуясь на неудобства.

Изменения, внедряемые в журналы различных дисциплин, которые могут значительно расширить онлайновую доступность и полезность научных публикаций – это публикация статей в HTML и полнотекстовый XML. Создание этих дополнительных форматов статей не обязательно требует дополнительных этапов производства. Применяя процессы набора текста с использованием цифровых технологий, журналы могут одновременно создавать несколько файлов статей. Как система Гефест, разработанная РАЦС, позволяет осуществлять разметку научных статей для добавления в различные репозитории вы можете узнатьздесь.

Почему необходимы другие типы файлов в дополнение к PDF?

Поиск – краеугольный камень научных исследований

Давайте сначала проанализируем одну из самых больших проблем публикации в PDF – ограниченный поиск по содержанию исследования. В сфере цифровых публикаций поиск – это основа всего, краеугольный камень научного знания. В отчете 2018 года «Как читатели обнаруживают контент в научных публикациях», подготовленном Renew Publishing Consultants, говорится, что «академические исследователи (группа исключает студентов) оценивают поисковые системы как наиболее важный ресурс для поиска научных статей». Отчет включает наукометрические базы данных (например, PubMed Central), а также более распространенные научные поисковые системы, такие как Google Scholar.

Существуют две основные модели сбора и обработки информации репозиториями и поисковыми системами, чтобы узнать, что возвращать в результатах поиска: (1) метаданные и депозиты контента, и (2) поисковые роботы (crawlers). В обоих этих сценариях PDF не соответствует стандартам. В случае внесения метаданных и хранения содержимого, PDF-файлы не являются машиночитаемым вариантом. Большинство баз данных требуют, чтобы метаданные и депозиты контента передавались им в JATS-совместимом XML. Журналы, которые не создают машиночитаемых файлов статей XML, могут вручную вводить метаданные в некоторые индексы, но это утомительный процесс, который не позволяет ввести всю информацию, необходимую для эффективной обработки данных.

В случае поисковых систем, работа которых основана на поисковых роботах, PDF-файлы также представляют собой проблему. Хоть они и могут быть проиндексированы многими поисковыми системами, их содержание не оптимизировано для поиска по нескольким причинам. Во-первых, в статьях PDF часто отсутствуют адекватные метаданные HTML, потому что многие журналы не размещают их на страницах веб-сайта, а ссылаются непосредственно на сам PDF. Для эффективного индексирования веб-сайтов журналов, сканеры должны иметь возможность находить каждую статью журнала на отдельной веб-странице, с которой связаны метаданные статьи на уровне HTML. Файлы PDF сами по себе не предоставляют сканерам необходимые метаданные.

Чтобы оптимизировать статьи для поисковых систем, журналы должны размещать каждую из своих статей на указанной веб-странице статьи, которая включает библиографические метаданные на уровне HTML. На самом деле это основное требование к журналам, чтобы быть проиндексированными в Google Scholar. Журналы могут выполнить это требование, имея отдельные веб-страницы для PDF-версий каждой из статей, в идеале, с помощью встроенного в веб-страницу средства просмотра PDF, вместо того, чтобы страницы статей ссылались на файлы PDF. Отображение статей в формате PDF на веб-страницах помогает поисковым системам «понять», как они связаны с другим контентом на веб-сайте, и повышает вероятность сканирования дополнительных страниц.

Однако даже при размещении на отдельных веб-страницах PDF-файлы могут содержать ограничения по ссылкам. Бывает утомительно добавлять кликабельные ссылки в PDF-файлах, тогда как HTML более удобен для добавления интерактивных ссылок в текст. Статьи HTML также улучшают работу пользователей, когда дело доходит до ссылок. Они позволяют пользователям открывать ссылки на отдельных вкладках, сохраняя при этом их место чтения в статье. PDF-файлы часто открывают ссылки в одной вкладке, в результате чего читатель перебрасывается на другую страницу и теряет то место, которое он читал ранее.

Следующим, но не менее серьезным ограничением PDF-файлов в современном поиске является неадаптированность для мобильных устройств. Сегодня многие поисковые системы, в том числе Google, переходят на индексацию с мобильных устройств. Сканеры индексируют и ранжируют удобный для мобильных устройств контент перед контентом, который не оптимизирован для мобильных устройств. Поэтому оптимизация издания под чтение с мобильных устройств является залогом его конкурентоспособности.

Читатели становятся все более мобильными

Помимо поиска, существуют также очевидные преимущества для читателей при создании статей на удобном для мобильных устройств HTML. Поскольку мобильное использование растет среди широкой публики, оно также увеличивается в академических кругах. В отчете «Как читатели находят контент в научных публикациях» за 2015 год было установлено следующее: исследователи продолжают в основном использовать настольные компьютеры и ноутбуки для исследований и написания статей, но, не смотря на это, наблюдается явное увеличение использования мобильных устройств респондентами в разных дисциплинах. Это особенно актуально в странах с низким уровнем дохода, где количество пользователей мобильной связи почти удвоилось. Поскольку весь мир становится все более мобильным, ученые должны иметь возможность быстро и легко получать доступ к исследованиям. А для стран с низким уровнем дохода мобильные устройства зачастую более доступны, чем компьютеры.

Возможности для улучшения читательского опыта и использования

Публикация PDF-файлов сама по себе ограничивает использование новых возможностей чтения и использования статей в Интернете. Например, некоторые издатели и базы данных контента начинают вводить расширенные метаданные статьи. Расширенные метаданные включают в себя семантические элементы контента, которые могут помочь базам данных не только понять, что это за контент, но и о чем он. В недавнем интервью Джабин Уайт, вице-президент по управлению контентом JSTOR и Portico, сделал большой доклад о расширенных метаданных. Как он отметил, наличие полнотекстового XML является важной предпосылкой для того, чтобы издатели, репозитории и распространители контента, такие как JSTOR, могли эффективно создавать расширенные метаданные.

Помимо поддержки создания расширенных метаданных, полнотекстовые XML-файлы также более удобны для анализа текста и данных, где для получения информации о статье используются онлайновые сценарии или инструменты машинного обучения. Например, ученый может использовать анализ текста и данных для составления совокупности статей, которые ссылаются на конкретный предмет, или для анализа связанных наборов данных в разных статьях. Новые инструменты машинного обучения продемонстрировали, что хотя и есть возможность анализировать PDF-файлы, технически это очень сложно. Например, Scite анализирует цитирование статей, чтобы определить, подтверждают или противоречат исследования друг друг. Для Scite и других инструментов машинного обучения, переход всех статей в машиночитаемый формат станет важным шагом вперёд. В настоящее же время им приходится анализировать и PDF, так как PDF-файлы являются преобладающим форматом публикации.

Гибкий опыт чтения для различных потребностей

При рассмотрении плюсов и минусов PDF, а также других типов файлов, читаемых человеком и машиной, становится очевидным, что каждый тип файла отвечает различным потребностям. PDF-файл остается оптимальным вариантом для журналов, который может дать читателям возможность легко распечатывать копии статей. Но для эффективности процесса цитирования и обработки информации, выпуск журналов в HTML и XML имеет первостепенное значение.

Рубрики
Новости

Проект Brickofknowledge.com

Предлагаем Вашему вниманию проект https://brickofknowledge.com/

Проект образовательной направленности. На сайте представлены профессиональные переводы с английского языка на русский довольно сложных  текстов разной специализации из Стэнфордской Философской Энциклопедии(SEP). Переводы и размещение текстов на сайте осуществляется на основании лицензионного соглашения между проектом и SEP, в соответствии с редакционной политикой SEP. 

В статьях проекта представлены обзоры и рассуждения, содержание которых интересно и значимо как для специалистов-философов, так и широкой аудитории, и имеет не только теоретическую, но и прикладную ценность. К примеру, статья «Воплощенное познание» посвящена одному из актуальных подходов в современной философии сознания. Согласно ему, наши познавательные процессы в большой степени зависят от особенностей нашего тела в целом, а не только от мозга, а потому являются буквально воплощенными. Статья позволяет читателю узнать в общих чертах, каким образом тело ограничивает содержание наших представлений, распределяет задачи между собственными ненейронными структурами и структурами мозга, регулирует наше познание в пространстве и времени, координируя наши представления с нашими действиями. «Донорство человеческих органов», в свою очередь, поднимает сложные и значимые вопросы из области медицинской этики, связанные с трансплантацией, которые могут коснуться каждого из нас. По большей части они связаны с проблемой получения согласия у доноров, будь то живых или мертвых, и их семей, но также они затрагивают и проблему непосредственного распределения полученных органов — кто из пациентов, ожидающих пересадку, должен оказаться в приоритете? Обе проблемы оказываются тесно связанными друг с другом в нашей нынешней ситуации, характеризуемой постоянной нехваткой органов для трансплантации. Прочитав эту статью, читатель узнает о сложностях, связанных с донорским согласием, и о проектах по реформированию правил его получения, которые позволили бы переломить сложившуюся ситуацию. 

Цель проекта – сделать более доступными и распространять гуманитарные знания в области философии ( см подробнее: https://brickofknowledge.com/about) в русскоговорящих странах, прежде всего в России и странах СНГ. Статьи с сайта имею полученные в установленном порядке DOI и могут свободно использоваться в учебной и научной деятельности.

Рубрики
Новости

Как журналу начать работу с DOI

Интернет находится в состоянии постоянного изменения: каждую минуту в сети появляются новые данные, а старые иногда изменяются или перемещаются. Хотя преимущество публикации научных результатов в Интернет заключается в том, что их можно обновлять в любой момент, перемещение или изменение таких данных, также может усложнить отслеживание различных версий научных статей. Вот где в игру вступают цифровые идентификаторы объектов, или DOI.

DOI — это постоянная ссылка на объект в Интернете, состоящая из префикса организации и уникального суффикса. Добавление DOI ко всем статьям вашего журнала гарантирует, что читатели смогут узнать официальную версию статьи по DOI, даже если вам придется изменить веб-адрес вашего журнала или в случае, когда есть авторы, распространяющие разные версии своих статей (pre-print), читатели смогут узнать официальную версию статьи по DOI. Каждый DOI заключает в себе библиографические и другие метаданные, среди которых — наиболее актуальный URL, или адрес или местоположение данного объекта в Интернет.

Как вы можете получить DOI для статей в вашем журнале? И какую пользу это принесет журналу? Что вам нужно знать, чтобы начать использовать DOI в своем журнале?

Регистрайия DOI с РАЦС

Ваш журнал может легко начать присваивать DOI для научных статей и других данных. Чтобы начать присваивать DOI для статей, организации нужно заключить договор с РАЦС. Вы можете заполнить заявку онлайн. После того, как вы заполните и отправите заявку, РАЦС рассмотрит ее и отправит вам подписанное соглашение.

После того, как издатель или редактор журнала подпишет соглашение и оплатит первоначальный годовой взнос, РАЦС присваивает издательству уникальный префикс — который является первой частью DOI, а также имя пользователя и пароль для системы разметки данных для регистрации DOI — Гефест.

Получив префикс, издатели могут создать собственные суффиксы для каждой статьи, используя рекомендации РАЦС, или могут сгенерировать их в системе Гефест. Это позволит присвоить каждой из статей уникальный DOI. Мы рекомендуем использовать короткие DOI, поскольку они будут видны и отображены на странице статьи. Затем необходимо создать файлы метаданных для каждой статьи, которые включают URL, DOI и другие ключевые метаданные, такие как идентификаторы ORCID авторов, источники литературы, полнотекстовые ссылки и информацию о лицензии. Система Гефест позволит вам осуществить разметку всех необходимых метаданных для регистрации DOI и сгенерировать файлы. Эти файлы затем должны быть отправлены в глобальный репозиторий DOI. Как только эта информация будет в репозитории — контент будет зарегистрирован, а ссылка DOI будет сразу же доступна и станет частью глобальной сети научных ссылок — сети, насчитывающей более 160 миллионов записей научных данных.

Для технически подкованных журналов, использующих издательские платформы, можно автоматизировать процесс регистрации DOI для новых статей.

В дополнение к назначению DOI для статьи, журналы могут получать DOI для журнала и данных статьи, таких как изображения, рисунки, таблицы и пр. Поскольку ученые, как правило, ищут отдельные статьи в Интернете, а не журналы, наличие DOI для статей остается ключевым.

Ссылка URL объекта, на который получен DOI, всегда должна быть действительной.

Один из самых важных моментов, который нужно помнить, когда речь идет о DOI, — это актуальность метаданных DOI. Издатели несут ответственность за ввод метаданных, для которых регистрируется DOI.

Вы не должны забывать о своих DOI после их регистрации. Если контент перемещается куда-то онлайн, а вы не обновите URL-адрес статьи в метаданных, DOI работать не будет, исследователи столкнутся с разочаровывающими мертвыми ссылками.

Необходимо обновить DOI вашего журнала, если вы перемещаете статьи на другой URL адрес. Кроме того, обновления всегда приветствуются: например, когда есть исправления или доступны дополнительные метаданные, такие как идентификаторы организации, предоставившей грант для исследования, ссылки или информация о лицензии (РАЦС позволяет добавлять такую информацию при регистрации DOI для статьи).

Возможен такой вариант событий, при которых журнал меняет издателя или издательскую платформу, в результате URL статей, для которых получены DOI, тоже изменится. Поэтому очень важно чтобы у журнала был свой собственный префикс DOI. Если несколько разных организаций будут использовать один и тот же префикс DOI для журналов, это приведет к правовому конфликту за права на префикс и зарегистрированные метаданные DOI. В связи с этим нужно очень тщательно относится к компании, с которой вы регистрируете DOI и следить за тем, что префикс DOI используется только вашей организацией.

Преимущества добавления DOI для научных статей

Главным преимуществом регистрации DOI для научных статей является повышение их видимости. В связи с тем, что современные библиотечные системы основываются на поиске по метаданным, чем больше метаданных издатель предоставляет при регистрации DOI статьи, тем выше ее видимость будет для других исследователей.

Для новых научных изданий, которые находятся в поиске своих читателей, авторов и которые формируют свою репутацию, регистрация DOI не только поможет сделать статьи издания видимыми для научного сообщества, но и продемонстрировать, что издание придерживается самых высоких международных стандартов. Это особенно важно для тех журналов, позволяющим авторам публиковать pre-print версии статей согласно политикам Sherpa-Romeo, так как DOI ясно покажет, какая версия статьи является официальной и может быть процитирована.

Регистрация DOI также тесно связана с идентификацией авторов, насущной проблемой наукометрии. Наша программа Гефест позволяет указывать ORCID при регистрации DOI. Это позволяет автору, зарегистрированному в ORCID, видеть когда была опубликована статья и формировать список всех своих статей в одном месте, что упрощает получение грантов и поиск работы.

Рубрики
Новости

Почему выпускать научный журнал только в pdf — это очень плохо

Почему издатели научных журналов должны перейти на машиночитаемые форматы, и как это повлияет на индексирование журналов в международных наукометрических репозиториях?

Наукометрические базы данных, такие как DOAJ, SCOPUS, WoS, Pub-Med, Google Scholar и пр. являются одними из главных средств, которые ученые используют для проведения исследований. Эти виртуальные сокровищницы информации, кажется, «понимают» контент, который они содержат, и могут отвечать на поисковые запросы в считанные секунды.

Конечно, репозитории не могут «читать» человеческий текст (по крайней мере, пока!). Они обрабатывают контент, используя информацию, доступную на машиночитаемых языках разметки или компьютерном коде. Издатели журналов, которые хотят, чтобы их статьи отображались в соответствующих базах, должны предоставить им информацию о статье в машиночитаемом формате.

Если вы публикуете журнальные статьи только в формате PDF, упускаете ценные возможности индексации. Давайте копнем глубже:

  • как репозитории обрабатывают информацию
  • способы создания машиночитаемых файлов статей и отправка их в базы
  • JATS-совместимый XML — стандартный формат индексации

Репозитории принимают информацию в машиночитаемых форматах
Индексы жаждут знаний! Но они могут принимать информацию только в машиночитаемых форматах.

Существует два способа подачи информации в наукометрические базы:

Если вы не создаете машиночитаемые файлы статей, ввод данных вручную — единственный вариант. В этом случае форма выступает в качестве канала для преобразования введенных вами данных статьи в машиночитаемые метаданные, которые может понять репозиторий.

Исходя из этого, ручной подход ограничен. Не все наукометрические базы предлагают возможность ручного ввода данных. Многие репозитории, такие как PubMed, будут принимать только статьи, представленные в виде файлов XML. В тех случаях, когда данные можно вводить вручную, а это трудоемкий и затратный процесс для издателей, с большой долей вероятности можно совершить ошибки мануального ввода. Кроме того, наукометрические базы требуют расширенных метаданных для осмысленной обработки статей, ввести же все данные вручную корректно и без ошибок просто невозможно.

Второй вариант — отправить машиночитаемые файлы научных статей. Это намного быстрее для издателей, поскольку устраняет необходимость ручного ввода данных. Репозитории могут понимать машиночитаемые файлы статей как они есть. Машиночитаемые файлы статей также обеспечивают более высокое качество индексации, поскольку содержат богатые метаданные. Разработанная нами программа Гефест, позволяет подготовить XML для РИНЦ, DOI, AGRIS, DOAJ и для многих других репозиториев, а также автоматически отправляет все данные статей в BASE (отправить заявку на использование программы Гефест для регистрации DOI и подготовки xml).

Расширяемый язык разметки или XML — это стандартный язык разметки, используемый индексами академических журналов. Давайте рассмотрим варианты создания машиночитаемых файлов статей и внесения их в наукометрические базы.

Способы создания машиночитаемых файлов статей и отправки их в репозитории
Существуют два варианта создания машиночитаемых файлов XML научных статей для индексации в базах данных. Журналы могут отправлять файлы XML общего плана или полнотекстовые файлы XML. Общие XML-файлы содержат основные метаданные статьи, включая:

  • название журнала
  • издательство
  • название статьи
  • имена авторов
  • аннотация статьи
  • общие XML-файлы могут также включать другие расширенные метаданные, такие как ORCID авторов.

Как следует из названия, полнотекстовые файлы статей XML содержат полный текст статьи на машиночитаемом языке. Оба эти формата лучше ручного ввода данных. Полнотекстовый XML — самый надежный вариант, позволяющий извлекать текст и данные.

Когда издатели вносят в репозитории как исходные, так и полнотекстовые XML-файлы, они обычно могут делать это одним из двух способов: либо загружать файлы статей в индексы партиями (обычно через FTP-сервер), либо настраивать автоматические депозиты статей через API. API является каналом, который различные программные приложения могут использовать для связи друг с другом.

JATS DTD XML — стандартный формат индексации
В документациях, касающихся индексирования в наукометрических базах, вы, вероятно, сталкивались с термином «JATS DTD», и вам может быть интересно, что он означает. В то время как XML является языком, JATS DTD является типом синтаксиса. JATS DTD расшифровывается как «набор тегов журнальных статей» и «определение типа документа». Это особый способ форматирования файлов XML, разработанный Национальной организацией информационных стандартов (NISO). JATS DTD считается техническим стандартом для журнальных статей и является предпочтительным или обязательным для многих академических индексов, включая все индексы Национальной медицинской библиотеки (NLM) — PubMed, PubMed Central и MEDLINE.

Форматирование статей в JATS DTD XML является оптимальной практикой и позволит вам быстрее и проще добавлять статьи в журналы в индексы. РАЦС оказывает услугу по подбору и установке издательских платформ, которые помогут вашему изданию предоставить статьи в машиночитаемом формате.

Рубрики
Новости

Видео-инструкция: регистрация DOI из РИНЦ

Разметка данных для регистрации DOI из xml файла РИНЦ (elibrary.ru). Инструкцию можно посмотреть здесь.