Giter Club home page Giter Club logo

d4g-season-10's People

Contributors

anastasia-enot avatar anastasia-whitelab avatar ceebios avatar karinep avatar lecorveclucas avatar phcastets avatar rmeuter avatar

Stargazers

 avatar

Watchers

 avatar  avatar  avatar

d4g-season-10's Issues

Scraping :

  • Télécharger les XML sur All of PLOS
  • Filtrer sur les mots clefs species et biomimicry
  • Télécharger les PDFs concernés

Parse the XML and construct dictionaries

pubmed parser https://github.com/titipata/pubmed_parser

Création d'un parser XML afin de récupérer les paragraphes de texte dans les XML des articles. Celui-ci fonctionne en trois étapes :

  1. Pour chaque article, récupération du contenu de chaque paragraphe (pour l'instant chaque paragraphe est associé à un DOI et à une clé unique (uuid4) puis détection des références au figures pour chacun. Il s'agit d'un dictionnaire "dict_text"

  2. Pour chaque article, récupération des métadonnées sur les figures (fig_label, graphic_ref, caption). Il s'agit d'un dictionnaire "dict_figures"

  3. Puis, utilisation d'une fonction d'association : référence à une figure dans un paragraph vers la graphic_ref dans la figure. Il s'agit de lier les deux dictionnaires. En gros il faudra ici voir avec l'équipe d'extraction des images des pdf pour bien avoir les mêmes keys des figures afin que cette fonction fasse ressortir les bonnes images correspondantes.

Lien vers le XML parser : https://drive.google.com/drive/folders/1Lly3gv9aMM0m4gLfzHasHxqNvnqqZmp-

-Retrieve image from pdf

Utilisation de la librairie layout parser pour extraire le layout de chaque image (pdf converti en image).
La librairie layout parser utilise des modèles pré-entrainés tel Efficient Det sur le dataset Publaynet. Par ailleurs elle comprend pas mal d'utilities très faciles d'utilisation.
exploration avec la librairie layoutparser (https://github.com/Layout-Parser/layout-parser) qui extrait bien : tableaux, listes, figures, titres, texte

https://colab.research.google.com/drive/11fl0cYcYNab5Vaa7pC08l7AoYBQ1Lg9f?usp=sharing

exemple de résultat obtenu avec le layout parser
exemple_result

A réfléchir comment on stocke nos images, tableaux pour chaque pdf.
pour l'instant je mets tout dans des dictionnaires (figures, tableau, paragraph) avec pour clé les noms du pdf et le numéro de page.>
extraction des images et tableaux dans. le lien ci-dessous : https://drive.google.com/drive/folders/138mWELQAmMpmvBv14NVAQeS8iNOx7jFF?usp=sharing

https://drive.google.com/drive/folders/1M6PJB34oqYbIL3OVr0hyxZtdcNDq1rTW?usp=sharing

outputs keys : doi et numéro des figures/tableaux

Research on text summarization

Lecture d'article selon notre but (comprendre où en est la recherche et qu'est qu'on pourrai bénéficier des avancer dans notre contexte)

Analysising of results, Improving model "Few Shoot Learning"

Identifier quel classe est bien classer, s'il y a des défaut repérer dans l'archi ou modèle qui pourrai permettre à l'améliorer. (Discussion en interne avec un professeur pour avoir des retours sur l'utilisation en semi-labelisation)

Biblio/veille

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.