Giter Club home page Giter Club logo

usingtranskribusapi's Introduction

Un script pour interroger l'API de Transkribus et générer des fichiers XML-TEI et leur métadonnées.

  • Installation de l'environnement virtuel

  • requestingTranskribus.py permet de récupérer l'ensemble des transcriptions disponibles dans une ou plusieurs collections correspondant à un ou plusieurs statuts. Ces informations sont indiquées dans config.py. Les transcriptions sont disponibles au format PAGE. Attention, le script ne télécharge pas l'image utilisée comme facsimilé par un fichier XML-PAGE.

    • pour chaque collection, un dossier est créé pour contenir l'ensemble des dossiers de sous-collections.
    • pour chaque sous-collection, un dossier est créé contenant un fichier metadata.json, qui contient les métadonnées de la sous-collection.
    • pour chaque page de la sous-collection aux statuts recherchés, un fichier .xml est créé, nommé d'après le numéro de page auquel il correspond.
    • deux attributs sont ajoutés dans le fichier .xml créé, pour l'élément Page : @id dont la valeur correspond au numéro de page, et @url dont la valeur est l'url de récupération de l'image de la page.

A partir de cet export de fichiers XML-PAGE :

  • fromPAGEtoText.py permet de transformer les fichiers XML-PAGE d'une collection en des fichiers de texte brut. Chaque sous-collection est traitée à part et donne lieu à la création d'un fichier dans le dossier __TextExports__. Les sauts de zones de texte et de pages sont signalés par des marqueurs dans les documents.

  • toSingleXML.py permet de rassembler les fichiers XML-PAGE qui composent une sous-collection en un seul fichier. Chaque sous-collection est traitée à part et donne lieu à la création d'un fichier dans le dossier __AllInOne__. Attention, Un élément <tu:PageGrp> a été ajouté pour rassembler tous les éléments <Page> et leur contenu ; il n'est pas conforme au schéma PAGE original.

Pour transformer les fichiers XML-PAGE obtenus en fichier XML-TEI conformes

usingtranskribusapi's People

Watchers

 avatar

Forkers

timeus-anr

usingtranskribusapi's Issues

Gestion des métadonnées

Créer un header sur mesure pour avoir des métadonnées de meilleures qualités.

Inclure notamment un système dans le fichier config pour les créer plus facilement.

Créer un fichier config

Revoir le fichier secrets.py pour en faire un fichier config.py qui contienne aussi le nom de la collection recherchée, le statut des documents voulus, etc.

Corriger la création de fichiers

Se baser sur l'ID plutôt que le nom de la sous-collection pour créer les dossiers/fichiers car deux sous-collections peuvent avoir le même nom.

Traitement pour XSLT

Pour adapter + facilement le page2tei de https://github.com/dariok/page2tei , rajouter un @id et un @url dans chaque élément "Page" dans le script toSingleXML.py.
Ils serviront à éviter de télécharger les images à chaque fois (et à donner un url de téléchargement plutôt que l'url local du fichier jpg), et à compléter l'@id de l'élément facsimile du fichier TEI final.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.