FacebookTwitter

Γιατί η δημοσίευση ενός επιστημονικού περιοδικού μόνο σε pdf είναι πολύ κακά

Γιατί πρέπει οι εκδότες επιστημονικών περιοδικών να στραφούν σε μορφές αναγνώσιμες από μηχανή και πώς αυτό θα επηρεάσει την ευρετηρίαση περιοδικών σε διεθνή επιστημονικά αποθετήρια;
Οι επιστημονικές βάσεις δεδομένων όπως το DOAJ, το SCOPUS, το WoS, το Pub-Med, το Google Scholar κ.λπ. είναι μερικά από τα κύρια εργαλεία που χρησιμοποιούν οι επιστήμονες για τη διεξαγωγή ερευνών. Αυτοί οι εικονικοί θησαυροί πληροφοριών φαίνεται να “κατανοούν” το περιεχόμενο που περιέχουν και μπορούν να απαντήσουν σε ερωτήματα αναζήτησης σε δευτερόλεπτα.
Φυσικά, τα αποθετήρια δεν μπορούν να «διαβάζουν» ένα ανθρώπινο κείμενο (τουλάχιστον όχι ακόμα!). Επεξεργάζονται το περιεχόμενο χρησιμοποιώντας πληροφορίες που είναι διαθέσιμες σε γλώσσες σήμανσης που διαβάζονται από μηχανή ή σε κώδικα υπολογιστή. Οι εκδότες περιοδικών που θέλουν τα άρθρα τους να εμφανίζονται στις κατάλληλες βάσεις δεδομένων πρέπει να τους παρέχουν πληροφορίες σχετικά με το άρθρο σε μηχαναγνώσιμη μορφή.
Εάν δημοσιεύετε τα άρθρα περιοδικών μόνο σε μορφή PDF, χάνετε πολύτιμες ευκαιρίες ευρετηρίου. Ας σκάψουμε βαθύτερα:
• πώς τα αποθετήρια επεξεργάζονται πληροφορίες
• οι τρόποι για να δημιουργήσετε μηχαναγνώσιμα αρχεία άρθρων και πως να τα στείλει κανείς σε βάσεις δεδομένων
• JATS Compliant XML – η τυπική μορφή ευρετηρίασης

Τα αποθετήρια δέχονται πληροφορίες σε μορφές αναγνώσιμες από μηχανή

Οι δείκτες είναι πεινασμένοι για γνώση! Ωστόσο, μπορούν να δεχτούν πληροφορίες μόνο σε μορφές αναγνώσιμες από μηχανή.

Υπάρχουν δύο τρόποι υποβολής πληροφοριών σε επιστημονικές βάσεις δεδομένων:

Εκτός αν δημιουργείτε αρχεία άρθρων με δυνατότητα ανάγνωσης από μηχανή, η μη αυτόματη καταχώριση είναι η μόνη επιλογή σας. Σε αυτήν την περίπτωση, η φόρμα λειτουργεί ως αγωγός για τη μετατροπή των δεδομένων του άρθρου που εισαγάγατε σε μεταδεδομένα αναγνώσιμα από υπολογιστή, τα οποία μπορεί να κατανοήσει το αποθετήριο.

Με βάση αυτό, η χειροκίνητη προσέγγιση είναι περιορισμένη. Δεν προσφέρουν όλες οι επιστημονικές βάσεις δεδομένων τη δυνατότητα μη αυτόματης εισαγωγής δεδομένων. Πολλά αποθετήρια, όπως το PubMed, θα δέχονται μόνο άρθρα που παρέχονται ως αρχεία XML. Σε περιπτώσεις όπου τα δεδομένα μπορούν να εισαχθούν χειροκίνητα και αυτή είναι μια επίπονη και δαπανηρή διαδικασία για τους εκδότες, είναι πολύ πιθανό να γίνουν χειροκίνητα σφάλματα εισαγωγής. Επιπλέον, οι επιστημονικές βάσεις δεδομένων απαιτούν εκτεταμένα μεταδεδομένα για ουσιαστική επεξεργασία των άρθρων, αλλά είναι απλώς αδύνατο να εισαχθούν χειροκίνητα όλα τα δεδομένα σωστά και χωρίς σφάλματα.

Με βάση αυτό, η χειροκίνητη προσέγγιση είναι περιορισμένη. Δεν προσφέρουν όλες οι επιστημονικές βάσεις δεδομένων τη δυνατότητα μη αυτόματης εισαγωγής δεδομένων. Πολλά αποθετήρια, όπως το PubMed, θα δέχονται μόνο άρθρα που παρέχονται ως αρχεία XML. Σε περιπτώσεις όπου τα δεδομένα μπορούν να εισαχθούν χειροκίνητα και αυτή είναι μια επίπονη και δαπανηρή διαδικασία για τους εκδότες, είναι πολύ πιθανό να γίνουν χειροκίνητα σφάλματα εισαγωγής. Επιπλέον, οι επιστημονικές βάσεις δεδομένων απαιτούν εκτεταμένα μεταδεδομένα για ουσιαστική επεξεργασία των άρθρων, αλλά είναι απλώς αδύνατο να εισαχθούν χειροκίνητα όλα τα δεδομένα σωστά και χωρίς σφάλματα.

Η δεύτερη επιλογή είναι να στείλετε αναγνώσιμα από μηχάνημα αρχεία επιστημονικών άρθρων. Αυτό είναι πολύ πιο γρήγορο για τους εκδότες καθώς εξαλείφει την ανάγκη για μη αυτόματη εισαγωγή δεδομένων. Τα αποθετήρια μπορούν να κατανοούν τα αρχεία άρθρου που είναι αναγνώσιμα από υπολογιστή ως έχουν. Τα αρχεία άρθρων με δυνατότητα ανάγνωσης από μηχανή παρέχουν επίσης καλύτερη ποιότητα ευρετηρίου επειδή περιέχουν πλούσια μεταδεδομένα. Το πρόγραμμα Hephaestus που αναπτύχθηκε από εμάς σας επιτρέπει να προετοιμάσετε ένα XML για το RSCI, το DOI, το AGRIS,το  DOAJ και για πολλά άλλα αποθετήρια, και επίσης στέλνει αυτόματα όλα τα δεδομένα του άρθρου στο BASE (να στείλω μια αίτηση για τη χρήση του προγράμματος Hephaestus για την εγγραφή DOI και την προετοιμασία xml).

Το eXtensible Markup Language, ή XML, είναι η τυπική γλώσσα σήμανσης που χρησιμοποιείται από ευρετήρια ακαδημαϊκών περιοδικών. Ας εξετάσουμε τις επιλογές για τη δημιουργία μηχαναγνώσιμων αρχείων άρθρων και την εισαγωγή τους σε επιστημονικές βάσεις δεδομένων.

Οι τρόποι δημιουργίας αρχείων άρθρου με δυνατότητα ανάγνωσης από μηχανή και υποβολή τους σε αποθετήρια

Υπάρχουν δύο επιλογές για τη δημιουργία μηχαναγνώσιμων επιστημονικών εγγράφων XML για ευρετηρίαση σε βάσεις δεδομένων. Τα αρχεία καταγραφής μπορούν να στέλνουν γενικά αρχεία XML ή αρχεία XML πλήρους κειμένου. Τα κοινά αρχεία XML περιέχουν βασικά μεταδεδομένα άρθρου, όπως:

Όπως υποδηλώνει το όνομα, τα αρχεία άρθρου XML πλήρους κειμένου περιέχουν το πλήρες κείμενο του άρθρου σε γλώσσα αναγνώσιμη από μηχανή. Και οι δύο αυτές μορφές είναι καλύτερες από τη μη αυτόματη εισαγωγή δεδομένων. Το πλήρες κείμενο XML είναι η πιο αξιόπιστη επιλογή για ανάκτηση κειμένου και δεδομένων.

Όταν οι εκδότες συνεισφέρουν τόσο αρχεία πηγής όσο και πλήρους κειμένου XML στα αποθετήρια, συνήθως μπορούν να το κάνουν με έναν από τους δύο τρόπους: είτε να ανεβάσετε αρχεία άρθρου σε ευρετήρια σε παρτίδες (συνήθως μέσω διακομιστή FTP) ή να ρυθμίσετε αυτόματες μεταφορτώσεις άρθρων μέσω του API. Το API είναι ένα κανάλι που μπορούν να χρησιμοποιήσουν διάφορες εφαρμογές λογισμικού για να επικοινωνούν μεταξύ τους.

Όπως υποδηλώνει το όνομα, τα αρχεία άρθρου XML πλήρους κειμένου περιέχουν το πλήρες κείμενο του άρθρου σε γλώσσα αναγνώσιμη από μηχανή. Και οι δύο αυτές μορφές είναι καλύτερες από τη μη αυτόματη εισαγωγή δεδομένων. Το πλήρες κείμενο XML είναι η πιο αξιόπιστη επιλογή για ανάκτηση κειμένου και δεδομένων.

Όταν οι εκδότες συνεισφέρουν τόσο αρχεία πηγής όσο και πλήρους κειμένου XML στα αποθετήρια, συνήθως μπορούν να το κάνουν με έναν από τους δύο τρόπους: είτε να ανεβάσετε αρχεία άρθρου σε ευρετήρια σε παρτίδες (συνήθως μέσω διακομιστή FTP) ή να ρυθμίσετε αυτόματες μεταφορτώσεις άρθρων μέσω του API. Το API είναι ένα κανάλι που μπορούν να χρησιμοποιήσουν διάφορες εφαρμογές λογισμικού για να επικοινωνούν μεταξύ τους.

Το JATS DTD XML είναι η τυπική μορφή ευρετηρίου

Στην τεκμηρίωση σχετικά με την ευρετηρίαση σε επιστημονικές βάσεις δεδομένων, πιθανότατα έχετε συναντήσει τον όρο “JATS DTD” και ίσως αναρωτιέστε τι σημαίνει αυτό. Ενώ το XML είναι μια γλώσσα, το JATS DTD είναι ένας τύπος σύνταξης. Το JATS DTD σημαίνει «Ορισμός ετικέτας άρθρου περιοδικού» και «ορισμός τύπου εγγράφου». Είναι ένας ειδικός τρόπος μορφοποίησης αρχείων XML που αναπτύχθηκε από το National Information Standards Organization (NISO). Το JATS DTD θεωρείται το τεχνικό πρότυπο για άρθρα περιοδικών και προτιμάται ή απαιτείται για πολλά ακαδημαϊκά ευρετήρια, συμπεριλαμβανομένων όλων των δεικτών του National Library of Medicine

(NLM) – PubMed, PubMed Central και MEDLINE.

Η μορφοποίηση άρθρων σε JATS DTD XML είναι η βέλτιστη πρακτική και θα σας επιτρέψει να προσθέσετε γρήγορα και εύκολα άρθρα περιοδικών σε ευρετήρια. Το RADS παρέχει μια υπηρεσία για την επιλογή και εγκατάσταση πλατφορμών δημοσίευσης που θα βοηθήσουν τη δημοσίευσή σας να παρέχει άρθρα σε μηχαναγνώσιμη μορφή.

Submit a Comment

Your email address will not be published. Required fields are marked *