ceebios / d4g-season-10 Goto Github PK

View Code? Open in Web Editor NEW

1.0 1.0 0.0 2.45 MB

Biomimicry image search

License: MIT License

HTML 2.04% CSS 1.10% JavaScript 2.23% Python 94.31% Shell 0.31%

d4g-season-10's People

Contributors

Stargazers

Watchers

d4g-season-10's Issues

Scraping :

Télécharger les XML sur All of PLOS
Filtrer sur les mots clefs species et biomimicry
Télécharger les PDFs concernés

Get AllOfPlos

Filter article by keys word: biomimicri, species

Code for downloading articles from Open PMC API

Fin the code for downloading Open Access articles from PubMed

Extract the images from the annotated image dataset

Rebuild the parsing table function from pubmed parser

Parsing table function from pubmed parser doesn't work on our articles. We need to rebuild it : have to git clone pubmed parser (https://github.com/titipata/pubmed_parser) and modify it in order to make it work on our articles.

Parse the XML and construct dictionaries

pubmed parser https://github.com/titipata/pubmed_parser

Création d'un parser XML afin de récupérer les paragraphes de texte dans les XML des articles. Celui-ci fonctionne en trois étapes :

Pour chaque article, récupération du contenu de chaque paragraphe (pour l'instant chaque paragraphe est associé à un DOI et à une clé unique (uuid4) puis détection des références au figures pour chacun. Il s'agit d'un dictionnaire "dict_text"
Pour chaque article, récupération des métadonnées sur les figures (fig_label, graphic_ref, caption). Il s'agit d'un dictionnaire "dict_figures"
Puis, utilisation d'une fonction d'association : référence à une figure dans un paragraph vers la graphic_ref dans la figure. Il s'agit de lier les deux dictionnaires. En gros il faudra ici voir avec l'équipe d'extraction des images des pdf pour bien avoir les mêmes keys des figures afin que cette fonction fasse ressortir les bonnes images correspondantes.

Lien vers le XML parser : https://drive.google.com/drive/folders/1Lly3gv9aMM0m4gLfzHasHxqNvnqqZmp-

-Retrieve image from pdf

Utilisation de la librairie layout parser pour extraire le layout de chaque image (pdf converti en image).
La librairie layout parser utilise des modèles pré-entrainés tel Efficient Det sur le dataset Publaynet. Par ailleurs elle comprend pas mal d'utilities très faciles d'utilisation.
exploration avec la librairie layoutparser (https://github.com/Layout-Parser/layout-parser) qui extrait bien : tableaux, listes, figures, titres, texte

https://colab.research.google.com/drive/11fl0cYcYNab5Vaa7pC08l7AoYBQ1Lg9f?usp=sharing

exemple de résultat obtenu avec le layout parser

A réfléchir comment on stocke nos images, tableaux pour chaque pdf.
pour l'instant je mets tout dans des dictionnaires (figures, tableau, paragraph) avec pour clé les noms du pdf et le numéro de page.>
extraction des images et tableaux dans. le lien ci-dessous : https://drive.google.com/drive/folders/138mWELQAmMpmvBv14NVAQeS8iNOx7jFF?usp=sharing

https://drive.google.com/drive/folders/1M6PJB34oqYbIL3OVr0hyxZtdcNDq1rTW?usp=sharing

outputs keys : doi et numéro des figures/tableaux

Conception et mise en forme du modèle basique,

Biblio/veille

Text to image search
https://blog.milvus.io/supercharged-semantic-similarity-search-in-production-f2a3c35c4e00
Blue brain search
https://github.com/BlueBrain/Search
Deepset Haystack (NLP, neural search framework)
https://haystack.deepset.ai/overview/intro
Dense vector databases
- Picecone.io (cloud dense vector DB, free up to 1M entries)
- Opensearch (elastic search)
- Milvus
CLIP as a service
- https://link.medium.com/DOIjImWCWob
Jina.ai (search) + Weaviate (DB)
- https://medium.com/jina-ai/jina-ai-weaviate-efficient-data-storage-in-the-cloud-d02ac52e59da
AllenAI scientific summarization
- ACL Paper
- Git
NeuML.com repos:
- txtAI - Multi-modal semantic search
- PaperETL - ETL library for processing medical and scientific papers (PDF+XML)
- News TLDR - News summarization

ceebios / d4g-season-10 Goto Github PK

d4g-season-10's People

Contributors

Stargazers

Watchers

d4g-season-10's Issues

Recommend Projects

Recommend Topics

Recommend Org