Giter Club home page Giter Club logo

barometre_science_ouverte_uvsq's Introduction

Baromètre de la science ouverte de l'UVSQ

Le Baromètre de la science ouverte de l'UVSQ reprend celui de l'université de Lorraine (mars 2020) dont le code a été partagé sur gitlab. Deux modifications ont été apportées : la première permet d'intégrer les publications venant de HAL ne possédant pas de DOI, la seconde apporte des informations sur les frais de publication (Article Processing Charges : APC).



Intégrer les publications de HAL sans DOI

Afin de minimiser les lacunes, les publications sans DOI venant de HAL ont été intégrées. Cette quantité de publications supplémentaires modifie évidemment les résultats d'accès ouvert, et impacte aussi la méthodogie à plusieurs étapes : dédoublonnage, détection de l'accès ouvert et alignement des rétérentiels.

Résultats

L'intégration des publications de HAL sans DOI baisse le pourcentage de publication en accès ouvert. Voici la comparaison pour l'UVSQ

année DOI seuls DOI ou halId
2015 54.8 % 49.3%
2016 56.3% 52.1%
2017 60.2% 56.6%
2018 58.6% 55.1%
2019 58.6% 57.0%

Dédoublonnage

Les publications sans DOI ont été dédoublonnées à partir d'une normalisation des titres : retrait des espaces, accents et mise en minuscule. Les publications de HAL sans DOI ayant un titre identique à une autre publication ont été retirées.

Cette étape permet également d'identifier des publications HAL où le DOI pourrait être manquant (voir les tableaux HAL dans /data/out/).

Détection de l'accès ouvert

Une publication dans HAL est en accès ouvert si au moins une des conditions suivantes est remplie

  • la métadonnée submitType_s contient file
  • la métadonnée linkExtId_s contient arxiv ou pubmedcentral

Alignement des référentiels

Deux dictionnaires ont été réalisés afin d'aligner (i) les types de document de HAL avec ceux de Crossref et (ii) les domaines scientifiques de HAL avec ceux du baromètre français de la science ouverte. Voir /data/match_referentials.json

Pister les APC

Le but est de savoir si une publication a nécessité des frais de publication (Article Processing Charges : APC). En considérant les "accords transformants" (publish & read), les changements possibles de modèle économique des revues, et enfin les éventuelles exonérations (waivers) il reste difficile de savoir si des APC ont été payés. L'algorithme réalisé propose donc une estimation de la présence ou non d'APC. En décembre 2020 il s'est révélé efficace à plus de 85 %. Enfin, le pistage d'APC se fait au niveau de de l'article, et non des affiliations : l'algorithme reste indifférent à l'établissement ayant payé les APC.

Quatre étapes permettent de détecter la présence d'APC, réalisées par l'algorithme suivant :

  • Le DOI est-il dans OpenAPC ?
    • oui, renseigner doi_in_openapc et extraire le montant payé

    • non, la revue est-elle dans OpenAPC et des frais de publications ont-ils été payés la même année ?

      • oui, renseigner journal_in_openapc et extraire la moyenne des montants payés sur l'année

      • non, le document est-il en open access sur le site de l'éditeur dans une revue hybride ? (utilisation du champs oa_status de unpaywall)

        • oui, renseigner journal_is_hybrid
        • non, la revue est-elle une revue avec APC indéxée dans le DOAJ ?
          • oui, retourner apc_journals_in_doaj, le prix et la devise

Reproduire ce baromètre

  1. Installer Python et les libraries signalées dans le fichier requirement.txt
  2. Télécharger l'archive au format .zip
  3. Ajouter les fichiers bibliographiques de votre établissement
  4. Renommer si nécessaire les noms des fichiers importés dans le code a_consolider_sources.py
  5. Exécuter les codes a_consolider_sources.py puis b_enrichir_data.py, ce dernier doit tourner pendant plusieurs heures afin de récupérer les données de HAL et Unpaywall (env. 4h pour 16k publications). Enfin exécuter c_produire_graphique.py
  6. Retrouver les graphiques générés dans le dossier img

Schéma de données

column description (if needed) source
doi
halId Publication deposit id in HAL hal
hal_coverage Hal coverage (in or missing ) hal
title hal or unpaywall
genre Document type hal or unpaywall
author_count Curiosity : number of authors hal or unpaywall
published_date hal or unpaywall
published_year hal or unpaywall
journal_name hal or unpaywall
journal_issns hal or unpaywall
publisher hal or unpaywall
upw_coverage Unpaywall coverage (oa, missing, closed) unpaywall
oa_status Status/type of open access (green, gold, hybrid, bronze) unpaywall
upw_location Where OA is founded (repository and/or publisher) unpaywall
version Publication version available (submitted, accepted, published) unpaywall
licence licence finded in unpaywall unpaywall
journal_is_in_doaj Is this resource published in a DOAJ-indexed journal unpaywall
journal_is_oa Is this resource published in a completely OA journal unpaywall
is_paratext Is the item an ancillary part of a journal (column disappear if everything is False ) unpaywall
suspicious_journal Is the journal in "predatory" list Stop Predatory Journals
hal_submittedDate When the publication has been submitted in HAL hal
hal_location Where OA is founded (file, arxiv, pubmedcentral), notice if not OA hal
hal_licence Licence in HAL deposit hal
hal_serlArchiving Curiosity : is the deposit made by the author hal
hal_docType Type of document hal
hal_domain Domain, scientific field hal
apc_tracking APC information (doi_in_openapc, journal_in_openapc, journal_is_hybrid, apc_journals_in_doaj) openapc, doaj, unpaywall
apc_amount Rough approximation of APC cost openapc, doaj
apc_currency openapc, doaj
scientific_field Scientific field from barometre-science-ouverte and hal barometre-so, hal
is_oa Is there an OA copy of this ressource hal, unpaywall
oa_type Publisher and/or repository hal, unpaywall

Voir aussi

Remerciements

Eric Jeangirard et Laetitia Bracco. Les équipes et communautés derrière Unpaywall, DOAJ et OpenAPC.

barometre_science_ouverte_uvsq's People

Contributors

ml4rrieu avatar

Stargazers

 avatar  avatar  avatar  avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.