Topic: visual-question-answering Goto Github

Some thing interesting about visual-question-answering

👇 Here are 158 public repositories matching this topic...

ai-forever / fusion_brain_aij2021

visual-question-answering,Creating multimodal multitask models

Home Page: https://dsworks.ru/champs/fb5778a8-94e9-46de-8bad-aa2c83a755fb

multitask multimodal-fusion zero-shot-object-detection handwritten-text-recognition visual-question-answering java-to-python bilingual

aioz-ai / iccv19_vqa-cti

visual-question-answering,Compact Trilinear Interaction for Visual Question Answering (ICCV 2019)

Organization: aioz-ai

Home Page: https://blog.ai.aioz.io/research/vqa-cti/

ai deep-learning vqa visual-question-answering aioz aioz-ai iccv

aioz-ai / miccai19-medvqa

visual-question-answering,AIOZ AI - Overcoming Data Limitation in Medical Visual Question Answering (MICCAI 2019)

Organization: aioz-ai

Home Page: https://blog.ai.aioz.io/research/vqa-mevf/

ai medical medical-image-processing deep-learning vqa visual-question-answering medvqa aioz aioz-ai miccai

allenai / aokvqa

visual-question-answering,Official repository for the A-OKVQA dataset

Organization: allenai

computer-vision dataset natural-language-processing visual-question-answering

anisha2102 / docvqa

visual-question-answering,Document Visual Question Answering

User: anisha2102

computer-vision deep-learning document-analysis visual-question-answering

antoyang / frozenbilm

visual-question-answering,[NeurIPS 2022] Zero-Shot Video Question Answering via Frozen Bidirectional Language Models

User: antoyang

Home Page: https://arxiv.org/abs/2206.08155

multimodal-learning video-understanding vqa weakly-supervised-learning large-language-models pre-training video-question-answering videoqa vision-and-language visual-question-answering

antoyang / just-ask

visual-question-answering,[ICCV 2021 Oral + TPAMI] Just Ask: Learning to Answer Questions from Millions of Narrated Videos

User: antoyang

Home Page: https://arxiv.org/abs/2012.00451

vqa visual-question-answering videoqa video-question-answering video-understanding question-generation weakly-supervised-learning vision-and-language pre-training multimodal-learning

badripatro / pqg

visual-question-answering,Code for paper title "Learning Semantic Sentence Embeddings using Pair-wise Discriminator" COLING-2018

User: badripatro

vqa vqg questions-and-answers question-answering question-generation question-parapharse visual-questions-generation visual-question-answering coling2018 emnlp2018

caffeinism / film-pytorch

visual-question-answering,PyTorch implementation of FiLM: Visual Reasoning with a General Conditioning Layer

User: caffeinism

visual-question-answering

china-uk-zsl / zs-f-vqa

visual-question-answering,[Paper][ISWC 2021] Zero-shot Visual Question Answering using Knowledge Graph

Organization: china-uk-zsl

Home Page: https://arxiv.org/abs/2107.05348

vqa zero-shot knowledge-graph commonsense commonsense-reasoning visual-question-answering zsl fvqa zs-f-vqa

cloud-cv / vilbert-multi-task

visual-question-answering,:eyes: :speaking_head: :memo:12-in-1: Multi-Task Vision and Language Representation Learning Web Demo

Organization: cloud-cv

Home Page: https://vilbert.cloudcv.org/

machine-learning deep-learning cnn visual-question-answering python3 javascript redis rabbitmq postgresql channels

cyanogenoid / pytorch-vqa

visual-question-answering,Strong baseline for visual question answering

User: cyanogenoid

pytorch vqa visual-question-answering baseline

davidmascharka / tbd-nets

visual-question-answering,PyTorch implementation of "Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning"

User: davidmascharka

Home Page: https://arxiv.org/abs/1803.05268

machine-learning pytorch visualization deep-learning visual-question-answering vqa neural-networks

denisdsh / vizwiz-vqa-pytorch

visual-question-answering,PyTorch VQA implementation that achieved top performances in the (ECCV18) VizWiz Grand Challenge: Answering Visual Questions from Blind People

User: denisdsh

vizwiz vqa pytorch visual-question-answering

glaciohound / vcml

visual-question-answering,PyTorch implementation of paper "Visual Concept-Metaconcept Learner", NeruIPS 2019

User: glaciohound

Home Page: http://vcml.csail.mit.edu

natural-language-understanding embedding-models visual-question-answering

hanxinzi-ai / awesome-computer-vision-resources

visual-question-answering,a collection of computer vision projects&tools. 计算机视觉方向项目和工具集合。

User: hanxinzi-ai

computer-vision image-classification image-segmentation semantic-segmentation medical-imaging ocr visual-question-answering image-captioning super-resolution gan

ivonajdenkoska / multimodal-meta-learn

visual-question-answering,Official code repository for "Meta Learning to Bridge Vision and Language Models for Multimodal Few-Shot Learning" (published at ICLR 2023).

User: ivonajdenkoska

few-shot-learning image-captioning meta-learning vision-language visual-question-answering iclr-2023

jialinwu17 / self_critical_vqa

visual-question-answering,Code for NeurIPS 2019 paper ``Self-Critical Reasoning for Robust Visual Question Answering''

User: jialinwu17

vqa interpretable-deep-learning interpretable-ai explainable-ai visual-question-answering

jnhwkim / ban-vqa

visual-question-answering,Bilinear attention networks for visual question answering

User: jnhwkim

visual-question-answering attention bilinear-pooling pytorch-implmention

junweiliang / fvta_memexqa

visual-question-answering,Real-world photo sequence question answering system (MemexQA). CVPR'18 and TPAMI'19

User: junweiliang

Home Page: https://memexqa.cs.cmu.edu/

visual-question-answering memex-question-answering vision-and-language multimodal-deep-learning multimodal-datasets multimodal-representation memexqa-dataset

lucidrains / aoa-pytorch

visual-question-answering,A Pytorch implementation of Attention on Attention module (both self and guided variants), for Visual Question Answering

User: lucidrains

attention attention-mechanism vqa visual-question-answering captioning

lucidrains / flamingo-pytorch

visual-question-answering,Implementation of 🦩 Flamingo, state-of-the-art few-shot visual question answering attention net out of Deepmind, in Pytorch

User: lucidrains

artificial-intelligence attention-mechanism deep-learning transformers visual-question-answering

lupantech / dual-mfa-vqa

visual-question-answering,Co-attending Regions and Detections for VQA.

User: lupantech

visual-question-answering vqa attention-mechanism object-detection faster-rcnn multi-modal aaai torch caffe multi-gpu

lupantech / mathvista

visual-question-answering,MathVista: data, code, and evaluation for Mathematical Reasoning in Visual Contexts

User: lupantech

Home Page: https://mathvista.github.io/

ai4math large-language-models large-multimadality-models machine-learning mathematics mathqa science visual-question-answering

markdtw / vqa-winner-cvprw-2017

visual-question-answering,Pytorch implementation of winner from VQA Chllange Workshop in CVPR'17

User: markdtw

pytorch visual-question-answering

mesnico / relationnetworks-clevr

visual-question-answering,A pytorch implementation for "A simple neural network module for relational reasoning", working on the CLEVR dataset

User: mesnico

relation-network relationships clevr deep-learning machine-learning visual-question-answering pytorch

milvlg / mcan-vqa

visual-question-answering,Deep Modular Co-Attention Networks for Visual Question Answering

Organization: milvlg

attention visual-question-answering visual-reasoning

milvlg / openvqa

visual-question-answering,A lightweight, scalable, and general framework for visual question answering research

Organization: milvlg

visual-question-answering vqa pytorch deep-learning benchmark

milvlg / prophet

visual-question-answering,Implementation of CVPR 2023 paper "Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering".

Organization: milvlg

Home Page: https://arxiv.org/abs/2303.01903

a-okvqa gpt-3 multimodal-deep-learning okvqa prompt-engineering pytorch visual-question-answering

mlvlab / flipped-vqa

visual-question-answering,Large Language Models are Temporal and Causal Reasoners for Video Question Answering (EMNLP 2023)

Organization: mlvlab

Home Page: https://ikodoh.github.io/flipped_vqa_demo.html

emnlp2023 large-language-models multi-modal video-question-answering visual-question-answering

mmmu-benchmark / mmmu

visual-question-answering,This repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"

Organization: mmmu-benchmark

Home Page: https://mmmu-benchmark.github.io/

computer-vision deep-learning deep-neural-networks evaluation foundation-models large-language-models large-multimodal-models llm llms machine-learning multimodal multimodal-deep-learning multimodal-learning multimodality natural-language-processing question-answering stem visual-question-answering

mmstar-benchmark / mmstar

visual-question-answering,This repo contains evaluation code for the paper "Are We on the Right Way for Evaluating Large Vision-Language Models"

Organization: mmstar-benchmark

Home Page: https://mmstar-benchmark.github.io

evaluation large-language-models large-multimodal-models large-vision-language-model large-vision-language-models llm llms lvlm lvlms multimodal multimodal-learning multimodality visual-question-answering

ofa-sys / ofa

visual-question-answering,Official repository of OFA (ICML 2022). Paper: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

Organization: ofa-sys

multimodal pretraining image-captioning text-to-image-synthesis visual-question-answering referring-expression-comprehension vision-language pretrained-models prompt prompt-tuning

paarthneekhara / convolutional-vqa

visual-question-answering,

User: paarthneekhara

convolutional-neural-networks deep-learning natural-language-processing visual-question-answering

peteanderson80 / bottom-up-attention

visual-question-answering,Bottom-up attention model for image captioning and VQA, based on Faster R-CNN and Visual Genome

User: peteanderson80

Home Page: http://panderson.me/up-down-attention/

vqa visual-question-answering captioning-images faster-rcnn caffe image-captioning mscoco mscoco-dataset

pramodkaushik / acl18_results

visual-question-answering,Code to reproduce results in our ACL 2018 paper "Did the Model Understand the Question?"

User: pramodkaushik

adversarial-attacks deep-learning machine-learning natural-language-processing visual-question-answering question-answering

qiantianwen / nuscenes-qa

visual-question-answering,[AAAI 2024] NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario.

User: qiantianwen

autonomous-driving vision-language visual-question-answering

rentainhe / trar-vqa

visual-question-answering,[ICCV 2021] Official implementation of the paper "TRAR: Routing the Attention Spans in Transformers for Visual Question Answering"

User: rentainhe

vqav2 iccv2021 transformer clevr multi-modal vision-and-language visual-question-answering pytorch multi-scale-features dynamic-network

richard-peng-xia / awesome-multimodal-in-medical-imaging

visual-question-answering,A collection of resources on applications of multi-modal learning in medical imaging.

User: richard-peng-xia

medical-imaging medical-report-generation multimodal-deep-learning multimodal-learning visual-question-answering large-language-models large-multimodal-models multimodal-large-language-models

salesforce / blip

visual-question-answering,PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Organization: salesforce

vision-language vision-and-language-pre-training image-text-retrieval image-captioning visual-question-answering visual-reasoning vision-language-transformer

sdc17 / upop

visual-question-answering,[ICML 2023] UPop: Unified and Progressive Pruning for Compressing Vision-Language Transformers.

User: sdc17

Home Page: https://dachuanshi.com/UPop-Project/

efficient-deep-learning model-compression multimodal-learning vision-language-transformer image-captioning image-text-retrieval visual-question-answering visual-reasoning text-image-retrieval framework

shivanshu-gupta / visual-question-answering

visual-question-answering,CNN+LSTM, Attention based, and MUTAN-based models for Visual Question Answering

User: shivanshu-gupta

pytorch visual-question-answering multimodal-tucker-fusion stacked-attention-networks attention lstm cnn deep-learning nlp

sktbrain / kvqa

visual-question-answering,Korean Visual Question Answering

Organization: sktbrain

Home Page: https://sktbrain.github.io/KVQA/

visual-question-answering dataset korean

violetteshev / bottom-up-features

visual-question-answering,Bottom-up features extractor implemented in PyTorch.

User: violetteshev

vqa visual-question-answering faster-rcnn feature-extraction pytorch

vmichals / figureqa-baseline

visual-question-answering,TensorFlow implementation of the CNN-LSTM, Relation Network and text-only baselines for the paper "FigureQA: An Annotated Figure Dataset for Visual Reasoning"

User: vmichals

deep-learning figure-analysis microsoft neural-networks python3 relation-network relational-reasoning tensorflow visual-question-answering vqa

vzhou842 / easy-vqa

visual-question-answering,The Easy Visual Question Answering dataset.

User: vzhou842

Home Page: https://pypi.org/project/easy-vqa/

vqa vqa-dataset visual-question-answering easy-vqa dataset

visual-question-answering,X-modaler is a versatile and high-performance codebase for cross-modal analytics(e.g., image captioning, video captioning, vision-language pre-training, visual question answering, visual commonsense reasoning, and cross-modal retrieval).

User: yehli

image-captioning video-captioning vision-and-language pretraining cross-modal-retrieval visual-question-answering tden

yushi-hu / tifa

visual-question-answering,TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering

User: yushi-hu

Home Page: https://tifa-benchmark.github.io/

image-to-text large-language-models text-to-image visual-question-answering

zhegan27 / villa

visual-question-answering,Research Code for NeurIPS 2020 Spotlight paper "Large-Scale Adversarial Training for Vision-and-Language Representation Learning": UNITER adversarial training part

User: zhegan27

Home Page: https://arxiv.org/pdf/2006.06195.pdf

vision-and-language adversarial-training pretraining visual-question-answering neurips-2020

zjukg / kg-mm-survey

visual-question-answering,Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

Organization: zjukg

Home Page: http://arxiv.org/abs/2402.05391

awsome-list cross-modal-retrieval entity-alignment entity-linking image-classification image-generation information-extraction knowledge-graph knowledge-graph-embeddings large-language-models

Topic: visual-question-answering Goto Github

👇 Here are 158 public repositories matching this topic...

ai-forever / fusion_brain_aij2021

aioz-ai / iccv19_vqa-cti

aioz-ai / miccai19-medvqa

allenai / aokvqa

anisha2102 / docvqa

antoyang / frozenbilm

antoyang / just-ask

badripatro / pqg

caffeinism / film-pytorch

china-uk-zsl / zs-f-vqa

cloud-cv / vilbert-multi-task

cyanogenoid / pytorch-vqa

davidmascharka / tbd-nets

denisdsh / vizwiz-vqa-pytorch

glaciohound / vcml

hanxinzi-ai / awesome-computer-vision-resources

ivonajdenkoska / multimodal-meta-learn

jialinwu17 / self_critical_vqa

jnhwkim / ban-vqa

junweiliang / fvta_memexqa

lucidrains / aoa-pytorch

lucidrains / flamingo-pytorch

lupantech / dual-mfa-vqa

lupantech / mathvista

markdtw / vqa-winner-cvprw-2017

mesnico / relationnetworks-clevr

milvlg / mcan-vqa

milvlg / openvqa

milvlg / prophet

mlvlab / flipped-vqa

mmmu-benchmark / mmmu

mmstar-benchmark / mmstar

ofa-sys / ofa

paarthneekhara / convolutional-vqa

peteanderson80 / bottom-up-attention

pramodkaushik / acl18_results

qiantianwen / nuscenes-qa

rentainhe / trar-vqa

richard-peng-xia / awesome-multimodal-in-medical-imaging

salesforce / blip

sdc17 / upop

shivanshu-gupta / visual-question-answering

sktbrain / kvqa

violetteshev / bottom-up-features

vmichals / figureqa-baseline

vzhou842 / easy-vqa

yehli / xmodaler

yushi-hu / tifa

zhegan27 / villa

zjukg / kg-mm-survey

Recommend Projects

Recommend Topics

Recommend Org