Topic: vision-language-pretraining Goto Github

Some thing interesting about vision-language-pretraining

👇 Here are 31 public repositories matching this topic...

adarobustness / adaptation_robustness

vision-language-pretraining,Evaluate robustness of adaptation methods on large vision-language models

User: adarobustness

Home Page: https://adarobustness.github.io/

adaptation parameter-efficient-tuning robustness vision-language-pretraining

ahmdtaha / distributed_sigmoid_loss

vision-language-pretraining,Unofficial implementation for Sigmoid Loss for Language Image Pre-Training

User: ahmdtaha

contrastive-learning distributed-data-parallel multimodal-deep-learning python3 pytorch self-supervised-learning unsupervised-learning vision-and-language vision-language vision-language-pretraining vision-transformer

alinlab / b2t

vision-language-pretraining,Bias-to-Text: Debiasing Unknown Visual Biases through Language Interpretation

Organization: alinlab

explainable-ai vision-language-pretraining bias-and-fairness

arrowluo / segclip

vision-language-pretraining,PyTorch implementation of ICML 2023 paper "SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation"

User: arrowluo

open-vocabulary semantic-segmentation zero-shot-semantic-segmentation open-vocabulary-semantic-segmentation transfer-learning vision-language-pretraining contrastive-learning

buaadreamer / ccrk

vision-language-pretraining,[KDD 2024] Improving the Consistency in Cross-Lingual Cross-Modal Retrieval with 1-to-K Contrastive Learning

User: buaadreamer

Home Page: https://arxiv.org/abs/2406.18254

cross-lingual cross-modal retrieval iglue swin-transformer xlm-roberta mscoco multi30k wit xflickrco

chendelong1999 / itra

vision-language-pretraining,A codebase for flexible and efficient Image Text Representation Alignment

User: chendelong1999

computer-vision deep-learning multimodal-learning pytorch vision-language-pretraining

damo-nlp-sg / video-llama

vision-language-pretraining,[EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

Organization: damo-nlp-sg

large-language-models video-language-pretraining vision-language-pretraining blip2 llama minigpt4 cross-modal-pretraining multi-modal-chatgpt

deepseek-ai / deepseek-vl

vision-language-pretraining,DeepSeek-VL: Towards Real-World Vision-Language Understanding

Organization: deepseek-ai

Home Page: https://huggingface.co/spaces/deepseek-ai/DeepSeek-VL-7B

vision-language-model vision-language-pretraining foundation-models

hieuphan33 / cvpr2024_mavl

vision-language-pretraining,Multi-Aspect Vision Language Pretraining - CVPR2024

User: hieuphan33

Home Page: https://arxiv.org/abs/2403.07636

medical-vision-and-language-pretraining vision-language-model vision-language-pretraining zero-shot-classification zero-shot-segmentation

jaisidhsingh / lora-clip

vision-language-pretraining,Easy wrapper for inserting LoRA layers in CLIP.

User: jaisidhsingh

image-text-matching lora low-rank-adaptation multimodal multimodal-deep-learning parameter-efficient-tuning vision-language-pretraining

jusiro / flair

vision-language-pretraining,FLAIR: A Foundation LAnguage-Image model of the Retina for fundus image understanding.

User: jusiro

Home Page: https://jusiro.github.io/projects/flair

foundation-models fundus-image-analysis medical-imaging vision-language-pretraining

looperxx / managertower

vision-language-pretraining,Code for ACL 2023 Oral Paper: ManagerTower: Aggregating the Insights of Uni-Modal Experts for Vision-Language Representation Learning

User: looperxx

Home Page: https://arxiv.org/abs/2306.00103

multi-modal-learning vision-language vision-language-pretraining vision-language-learning

marslanm / multimodality-representation-learning

vision-language-pretraining,This repository provides a comprehensive collection of research papers focused on multimodal representation learning, all of which have been cited and discussed in the survey just accepted https://dl.acm.org/doi/abs/10.1145/3617833 .

User: marslanm

cross-modal multimodal-datasets multimodal-deep-learning multimodal-pre-trained-model transformer-models vision-language-pretraining multimodal-applications multimodal-pretext

mbzuai-oryx / video-chatgpt

vision-language-pretraining,[ACL 2024 🔥] Video-ChatGPT is a video conversation model capable of generating meaningful conversation about videos. It combines the capabilities of LLMs with a pretrained visual encoder adapted for spatiotemporal video representation. We also introduce a rigorous 'Quantitative Evaluation Benchmarking' for video-based conversational models.

Organization: mbzuai-oryx

Home Page: https://mbzuai-oryx.github.io/Video-ChatGPT

chatbot clip gpt-4 llama llava mulit-modal vicuna vision-language vision-language-pretraining video-chatboat