ceebios / d4g-season-10 Goto Github PK
View Code? Open in Web Editor NEWBiomimicry image search
License: MIT License
Biomimicry image search
License: MIT License
Fin the code for downloading Open Access articles from PubMed
Parsing table function from pubmed parser doesn't work on our articles. We need to rebuild it : have to git clone pubmed parser (https://github.com/titipata/pubmed_parser) and modify it in order to make it work on our articles.
pubmed parser https://github.com/titipata/pubmed_parser
Création d'un parser XML afin de récupérer les paragraphes de texte dans les XML des articles. Celui-ci fonctionne en trois étapes :
Pour chaque article, récupération du contenu de chaque paragraphe (pour l'instant chaque paragraphe est associé à un DOI et à une clé unique (uuid4) puis détection des références au figures pour chacun. Il s'agit d'un dictionnaire "dict_text"
Pour chaque article, récupération des métadonnées sur les figures (fig_label, graphic_ref, caption). Il s'agit d'un dictionnaire "dict_figures"
Puis, utilisation d'une fonction d'association : référence à une figure dans un paragraph vers la graphic_ref dans la figure. Il s'agit de lier les deux dictionnaires. En gros il faudra ici voir avec l'équipe d'extraction des images des pdf pour bien avoir les mêmes keys des figures afin que cette fonction fasse ressortir les bonnes images correspondantes.
Lien vers le XML parser : https://drive.google.com/drive/folders/1Lly3gv9aMM0m4gLfzHasHxqNvnqqZmp-
Utilisation de la librairie layout parser pour extraire le layout de chaque image (pdf converti en image).
La librairie layout parser utilise des modèles pré-entrainés tel Efficient Det sur le dataset Publaynet. Par ailleurs elle comprend pas mal d'utilities très faciles d'utilisation.
exploration avec la librairie layoutparser (https://github.com/Layout-Parser/layout-parser) qui extrait bien : tableaux, listes, figures, titres, texte
https://colab.research.google.com/drive/11fl0cYcYNab5Vaa7pC08l7AoYBQ1Lg9f?usp=sharing
exemple de résultat obtenu avec le layout parser
A réfléchir comment on stocke nos images, tableaux pour chaque pdf.
pour l'instant je mets tout dans des dictionnaires (figures, tableau, paragraph) avec pour clé les noms du pdf et le numéro de page.>
extraction des images et tableaux dans. le lien ci-dessous : https://drive.google.com/drive/folders/138mWELQAmMpmvBv14NVAQeS8iNOx7jFF?usp=sharing
https://drive.google.com/drive/folders/1M6PJB34oqYbIL3OVr0hyxZtdcNDq1rTW?usp=sharing
outputs keys : doi et numéro des figures/tableaux
As a : User
I want to : Be able to search the database article based on my written query
In order to : Find relevant informations in the articles related to my query
Lecture d'article selon notre but (comprendre où en est la recherche et qu'est qu'on pourrai bénéficier des avancer dans notre contexte)
Identifier quel classe est bien classer, s'il y a des défaut repérer dans l'archi ou modèle qui pourrai permettre à l'améliorer. (Discussion en interne avec un professeur pour avoir des retours sur l'utilisation en semi-labelisation)
Conception du modèle de few shoot learning:
Text to image search
https://blog.milvus.io/supercharged-semantic-similarity-search-in-production-f2a3c35c4e00
Blue brain search
https://github.com/BlueBrain/Search
Deepset Haystack (NLP, neural search framework)
https://haystack.deepset.ai/overview/intro
Dense vector databases
CLIP as a service
Jina.ai (search) + Weaviate (DB)
AllenAI scientific summarization
NeuML.com repos:
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.