Giter Club home page Giter Club logo

geste's Introduction

Geste

Un corpus de chansons de geste.

Ki volt oïr chançun de beau semblant
Dunt bien sunt fait les vers par consonant
Ore laist la noise si se treie avant
Dirun la flur de la geste vallant


Les développements présentés ici ont été entrepris dans le cadre de la thèse de doctorat de Jean-Baptiste Camps (Univ. Paris-Sorbonne)[1], et ont été poursuivis collaborativement, en bénéficiant des financements des projets,

  • LAKME (Linguistically Annotated Corpora Using Machine Learning Techniques, ENS/EPHE/ENC | PSL; financement PSL, 2016-2018)
  • OMÉLiE (Outils et méthodes pour l'édition linguistique enrichie; ENC/ENS; financements Scripta-PSL et DIM «Sciences du texte et connaissances nouvelles»).

[1]: Jean-Baptiste Camps, La Chanson d’Otinel: édition complète du corpus manuscrit et prolégomènes à l’édition critique, thèse de doct., dir. Dominique Boutet, Univ. Paris-Sorbonne, 2016.


Les textes médiévaux sont du domaine public.

Public Domain Mark
Medieval texts are free of known copyright restrictions.

Le reste est mis à disposition selon une licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International (CC BY-SA 4.0).

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.


Citer ce corpus / Cite this corpus:

Geste: un corpus de chansons de geste, dir. Jean-Baptiste Camps, avec la collab. d'Elena Albarran, Alice Cochet & Lucence Ing, Paris, 2016-…, DOI: 10.5281/zenodo.1744918, http://github.com/Jean-Baptiste-Camps/Geste.

Publication en ligne

Une version bêta de la publication en ligne est disponible sur le serveur de développement des éditions en ligne de l'École des chartes, http://dev.chartes.psl.eu/elec/geste/.

Organisation de l'entrepôt

Les documents, dans leur représentation canonique, sont contenus dans les dossiers:

  • xml_gold: textes du corpus geste: éditions numérisées (ed_), transcriptions à nouveaux frais (transcr_), avec annotation linguistique revue;
  • xml_silver: textes du corpus geste à l'annotation linguistique non revue;
  • xml_src: documents de travail, notamment sources des transcriptions allographétiques.

Le modèle est contenu dans le dossier:

  • odd

Les données sont en outre disponibles en format:

  • tsv: avec l'annotation linguistique;
  • txt: exports en texte brut.

L'archive contient également:

  • css: des feuilles de style pour les documents xml;
  • doc: de la documentation sur l'annotation linguistique;
  • dtd: les entités utilisées pour les éditions allographétiques;
  • xsl: des feuilles de transformation et exports variés des données.

geste's People

Contributors

alicecochet avatar jean-baptiste-camps avatar lucenceing avatar paulinelvq avatar

Stargazers

 avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar

geste's Issues

vos1 / vos

'vos1' se trouve dans les paramètres fro, mais seul 'vos' est dans TL (et dans Chrestien). Il faudrait passer à 'vos' en modifiant tous les documents du corpus et toutes les XSL d'exploitation.

Invalid formatting in some files in Geste

Hi there,

I just saw that some of the files have invalid formatting (wrong number of columns for some of the rows).
Assuming tabs as separators, this is what I've encountered (the first row is the line number 0-index).

ed_GuiBourgG_pos.csv
2490 	le	DETdef	NOMB.=s|GENRE=m|CAS=n

2619 	a3	PRE	MORPH=empty

2643 	lonc	ADJqua	NOMB.=s|GENRE=m|CAS=n|DEGRE=p

2874 	vos1	PROper	PERS.=2|NOMB.=p|GENRE=m|CAS=n

2900 	avoir	VERcjg	MODE=sub|TEMPS=pst|PERS.=3|NOMB.=s

2938 	roi2	NOMcom	NOMB.=s|GENRE=m|CAS=r

3008 	et	CONcoo	MORPH=empty
transcr_Otin_A_pos.csv
13834 	par	PRE	MORPH=empty

13835 	le	DETdef	NOMB.=s|GENRE=f|CAS=r

Assuming whitespace separator this is what you get.

ed_GuiBourgG_pos.csv
2490 	le	DETdef	NOMB.=s|GENRE=m|CAS=n

2619 	a3	PRE	MORPH=empty

2643 	lonc	ADJqua	NOMB.=s|GENRE=m|CAS=n|DEGRE=p

2703 lecomandez		OUT	NOMB.=/|GENRE=/|CAS=/

2874 	vos1	PROper	PERS.=2|NOMB.=p|GENRE=m|CAS=n

2900 	avoir	VERcjg	MODE=sub|TEMPS=pst|PERS.=3|NOMB.=s

2938 	roi2	NOMcom	NOMB.=s|GENRE=m|CAS=r

3008 	et	CONcoo	MORPH=empty

11659 fa		OUT	MORPH=empty

11660 tes		OUT	MORPH=empty

13919 entr		OUT	MORPH=empty

18697 l		OUT	MORPH=empty

22947 )		OUT	MORPH=empty

39724 r		OUT	MORPH=empty
transcr_Otin_A_pos.csv
2259 cro		OUT	NOMB.=s|GENRE=f|CAS=r

4562 b		OUT	MORPH=empty

13834 	par	PRE	MORPH=empty

13835 	le	DETdef	NOMB.=s|GENRE=f|CAS=r```

Dossier ppa ?

Un dossier ppa traine dans tsv, on ne sait pas vraiment pourquoi ;)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.