Topic: vision-transformer Goto Github

Some thing interesting about vision-transformer

👇 Here are 806 public repositories matching this topic...

4dvlab / vision-centric-bev-perception

vision-transformer,Vision-Centric BEV Perception: A Survey

User: 4dvlab

bev-perception bird-eye-view deep-learning transformer vision-transformer

adithya-s-k / omniparse

vision-transformer,Ingest, parse, and optimize any data format ➡️ from documents to multimedia ➡️ for enhanced compatibility with GenAI frameworks

User: adithya-s-k

Home Page: https://docs.cognitivelab.in

ingestion-api ocr omniparser parse-server parser-library vision-transformer web-crawler whisper-api

alibaba-miil / imagenet21k

vision-transformer,Official Pytorch Implementation of: "ImageNet-21K Pretraining for the Masses"(NeurIPS, 2021) paper

Organization: alibaba-miil

imagenet21k pretraining downstream semantic-softmax single-label multi-label-classification vision-transformer mixer

alibaba / easycv

vision-transformer,An all-in-one toolkit for computer vision

Organization: alibaba

self-supervised-learning transformers classification computer-vision object-detection pytorch vision-transformer

baaivision / eva

vision-transformer,EVA Series: Visual Representation Fantasies from BAAI

Organization: baaivision

foundation-models representation-learning vision-transformer

baudm / parseq

vision-transformer,Scene Text Recognition with Permuted Autoregressive Sequence Models (ECCV 2022)

User: baudm

Home Page: https://huggingface.co/spaces/baudm/PARSeq-OCR

vision-transformer computer-vision scene-text-recognition optical-character-recognition text-recognition ocr eccv eccv2022

chinhsuanwu / mobilevit-pytorch

vision-transformer,A PyTorch implementation of "MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer"

User: chinhsuanwu

Home Page: https://arxiv.org/abs/2110.02178

mobilenetv2 mobilevit vision-transformer vit

cmhungsteve / awesome-transformer-attention

vision-transformer,An ultimately comprehensive paper list of Vision Transformer/Attention, including papers, codes, and related websites

User: cmhungsteve

transformer attention-mechanism vision-transformer deep-learning awesome-list transformer-cv transformer-architecture transformer-awesome transformer-with-cv transformer-models

czczup / vit-adapter

vision-transformer,[ICLR 2023 Spotlight] Vision Transformer Adapter for Dense Predictions

User: czczup

Home Page: https://arxiv.org/abs/2205.08534

adapter object-detection semantic-segmentation vision-transformer

emcf / thepipe

vision-transformer,Extract markdown and images from PDFs, URLs, docs, slides, and more, ready for multimodal LLMs. ⚡

User: emcf

Home Page: https://thepi.pe

multimodal pdf vision-transformer large-language-models web gpt-4 scrapers gpt-4o

vision-transformer,[GPT beats diffusion🔥] [scaling laws in visual generation📈] Official impl. of "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction". An *ultra-simple, user-friendly yet state-of-the-art* codebase for autoregressive image generation!

Organization: foundationvision

auto-regressive-model diffusion-models image-generation transformers autoregressive-models generative-ai generative-model gpt gpt-2 large-language-models

google-research / maxvit

vision-transformer,[ECCV 2022] Official repository for "MaxViT: Multi-Axis Vision Transformer". SOTA foundation models for classification, detection, segmentation, image quality, and generative modeling...

Organization: google-research

architecture classification cnn computer-vision image image-processing mlp object-detection transformer transformer-architecture

google-research / scenic

vision-transformer,Scenic: A Jax Library for Computer Vision Research and Beyond

Organization: google-research

jax computer-vision deep-learning research attention transformers vision-transformer

hila-chefer / transformer-explainability

vision-transformer,[CVPR 2021] Official PyTorch implementation for Transformer Interpretability Beyond Attention Visualization, a novel method to visualize classifications by Transformer based networks.

User: hila-chefer

deep-learning vision-transformer bert-model bert explainability transformer-interpretability perturbation attention-visualization visualize-classifications vit attention-matrix cvpr2021

huawei-noah / efficient-ai-backbones

vision-transformer,Efficient AI Backbones including GhostNet, TNT and MLP, developed by Huawei Noah's Ark Lab.

Organization: huawei-noah

convolutional-neural-networks efficient-inference imagenet model-compression tensorflow pytorch ghostnet transformer pretrained-models vision-transformer

hustvl / yolos

vision-transformer,[NeurIPS 2021] You Only Look at One Sequence

Organization: hustvl

Home Page: https://arxiv.org/abs/2106.00666

vision-transformer transformer object-detection computer-vision

internlm / internlm-xcomposer

vision-transformer,InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

Organization: internlm

chatgpt foundation gpt gpt-4 instruction-tuning language-model large-language-model large-vision-language-model llm mllm multi-modality multimodal supervised-finetuning vision-language-model vision-transformer visual-language-learning

jacobgil / vit-explain

vision-transformer,Explainability for Vision Transformers

User: jacobgil

vision-transformer pytorch explainable-ai deep-learning transformer

jdai-cv / cotnet

vision-transformer,This is an official implementation for "Contextual Transformer Networks for Visual Recognition".

Organization: jdai-cv

Home Page: https://arxiv.org/pdf/2107.12292.pdf

imagenet image-classification object-detection semantic-segmentation instance-segmentation mscoco mask-rcnn cotnet contextual-transformer vision-transformer

jingyunliang / swinir

vision-transformer,SwinIR: Image Restoration Using Swin Transformer (official repository)

User: jingyunliang

Home Page: https://arxiv.org/abs/2108.10257

image-super-resolution image-denoising compression-artifact-reduction image-deblocking transformer real-world-image-super-resolution lightweight-image-super-resolution image-restoration low-level-vision vision-transformer

jingyunliang / vrt

vision-transformer,VRT: A Video Restoration Transformer (official repository)

User: jingyunliang

Home Page: https://arxiv.org/abs/2201.12288

transformer video-restoration low-level-vision vision-transformer video-super-resolution video-deblurring video-denoising video-sr super-resolution sr

junyuchen245 / transformer_for_medical_image_analysis

vision-transformer,A collection of papers about Transformer in the field of medical image analysis.

User: junyuchen245

medical-image-analysis medical-image-processing pytorch tensorflow transformer vision-transformer

leaplabthu / dat

vision-transformer,Repository of Vision Transformer with Deformable Attention (CVPR2022) and DAT++: Spatially Dynamic Vision Transformerwith Deformable Attention

User: leaplabthu

Home Page: https://arxiv.org/abs/2309.01430

deep-learning deformable-attention image-classification pytorch vision-transformer

lukas-blecher / latex-ocr

vision-transformer,pix2tex: Using a ViT to convert images of equations into LaTeX code.

User: lukas-blecher

Home Page: https://lukas-blecher.github.io/LaTeX-OCR/

machine-learning transformer im2latex deep-learning image2text latex dataset pytorch im2markup ocr

mahmoodlab / hipt

vision-transformer,Hierarchical Image Pyramid Transformer - CVPR 2022 (Oral)

Organization: mahmoodlab

computational-pathology cvpr cvpr2022 deep-learning hierarchical-attention-networks high-resolution histopathology pretrained-weights pytorch self-supervised-learning

mcg-nju / videomae

vision-transformer,[NeurIPS 2022 Spotlight] VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

Organization: mcg-nju

Home Page: https://arxiv.org/abs/2203.12602

self-supervised-learning action-recognition video-understanding masked-autoencoder transformer vision-transformer video-transformer mae pytorch video-representation-learning

microsoft / cream

vision-transformer,This is a collection of our NAS and Vision Transformer work.

Organization: microsoft

nas automl vision-transformer rpe vit-compression efficiency knowledge-distillation

mit-han-lab / efficientvit

vision-transformer,EfficientViT is a new family of vision models for efficient high-resolution vision.

Organization: mit-han-lab

high-resolution imagenet efficientvit segment-anything segmentation vision-transformer

mv-lab / swin2sr

vision-transformer,[ECCV] Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and Restoration. Advances in Image Manipulation (AIM) workshop ECCV 2022. Try it out! over 3.3M runs https://replicate.com/mv-lab/swin2sr

User: mv-lab

Home Page: https://arxiv.org/abs/2209.11345

compression compression-artifact-reduction computer-vision deblocking denoising eccv2022 image-denoising image-processing image-restoration image-sr

nielsrogge / transformers-tutorials

vision-transformer,This repository contains demos I made with the Transformers library by HuggingFace.

User: nielsrogge

transformers pytorch bert vision-transformer layoutlm gpt-2

nvlabs / fastervit

vision-transformer,[ICLR 2024] Official PyTorch implementation of FasterViT: Fast Vision Transformers with Hierarchical Attention

Organization: nvlabs

Home Page: https://arxiv.org/abs/2306.06189

ade20k backbone deep-learning image-net pre-trained-model self-attention vision-transformer visual-recognition coco object-detection

nvlabs / mambavision

vision-transformer,Official PyTorch Implementation of MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Organization: nvlabs

Home Page: https://arxiv.org/abs/2407.08083

deep-learning foundation-models image-classification mamba self-attention vision-transformer visual-recognition hybrid-models huggingface-transformers transformers

nvlabs / voxformer

vision-transformer,Official PyTorch implementation of VoxFormer [CVPR 2023 Highlight]

Organization: nvlabs

3d-scene-understanding artificial-intelligence autonomous-driving autonomous-vehicles computer-vision semantic-scene-completion vision-transformer 3d-perception occupancy-grid-map machine-learning

ofa-sys / one-peace

vision-transformer,A general representation model across vision, audio, language modalities. Paper: ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

Organization: ofa-sys

foundation-models multimodal representation-learning vision-language audio-language vision-and-language vision-transformer contrastive-loss

open-mmlab / mmdetection

vision-transformer,OpenMMLab Detection Toolbox and Benchmark

Organization: open-mmlab

Home Page: https://mmdetection.readthedocs.io

object-detection instance-segmentation fast-rcnn faster-rcnn mask-rcnn cascade-rcnn ssd retinanet pytorch panoptic-segmentation

open-mmlab / mmpretrain

vision-transformer,OpenMMLab Pre-training Toolbox and Benchmark

Organization: open-mmlab

Home Page: https://mmpretrain.readthedocs.io/en/latest/

image-classification resnet mobilenet pytorch deep-learning swin-transformer beit clip constrastive-learning convnext

opengvlab / internvideo

vision-transformer,[ECCV2024] Video Foundation Models & Data for Multimodal Understanding

Organization: opengvlab

foundation-models video-understanding vision-transformer action-recognition masked-autoencoder multimodal open-set-recognition spatio-temporal-action-localization temporal-action-localization video-question-answering

pprp / awesome-attention-mechanism-in-cv

vision-transformer,Awesome List of Attention Modules and Plug&Play Modules in Computer Vision

User: pprp

pytorch-attention attention-model attention-mechanisms implementation vision-transformer plugandplay computer-vision

raoyongming / gfnet

vision-transformer,[NeurIPS 2021] [T-PAMI] Global Filter Networks for Image Classification

User: raoyongming

Home Page: https://gfnet.ivg-research.xyz/

vision-transformer image-classification computer-vision deep-learning image-recognition

sithu31296 / semantic-segmentation

vision-transformer,SOTA Semantic Segmentation Models in PyTorch

User: sithu31296

semantic-segmentation pytorch transformer vision-transformer cityscapes ade20k camvid coco-stuff pascal-context deep-learning

sunzey / alphaclip

vision-transformer,[CVPR 2024] Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

User: sunzey

Home Page: https://aleafy.github.io/alpha-clip

deep-learning machine-learning vision-and-language vision-language vision-language-model vision-transformer

towhee-io / towhee

vision-transformer,Towhee is a framework that is dedicated to making neural data processing pipelines simple and fast.

Organization: towhee-io

Home Page: https://towhee.io

machine-learning convolutional-networks embedding-vectors embeddings computer-vision image-processing video-processing feature-extraction image-retrieval unstructured-data

uncbiag / awesome-foundation-models

vision-transformer,A curated list of foundation models for vision and language tasks

Organization: uncbiag

foundation-models vision-transformer large-language-models transformer-models multimodal-models

vitae-transformer / vitae-transformer-remote-sensing

vision-transformer,A comprehensive list [SAMRS@NeurIPS'23, RVSA@TGRS'22, RSP@TGRS'22] of our research works related to remote sensing, including papers, codes, and citations. Note: The repo for [TGRS'22] "An Empirical Study of Remote Sensing Pretraining" has been moved to: https://github.com/ViTAE-Transformer/RSP

Organization: vitae-transformer

remote-sensing deep-learning change-detection classification object-detection self-supervised-learning semantic-segmentation transfer-learning vision-transformer

vitae-transformer / vitdet

vision-transformer,Unofficial implementation for [ECCV'22] "Exploring Plain Vision Transformer Backbones for Object Detection"

Organization: vitae-transformer

deep-learning object-detection pytorch vision-transformer

vitae-transformer / vitpose

vision-transformer,The official repo for [NeurIPS'22] "ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation" and [TPAMI'23] "ViTPose++: Vision Transformer for Generic Body Pose Estimation"

Organization: vitae-transformer

deep-learning distillation mae pose-estimation pytorch self-supervised-learning vision-transformer

wanglibo1995 / geoseg

vision-transformer,UNetFormer: A UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery, ISPRS. Also, including other vision transformers and CNNs for satellite, aerial image and UAV image segmentation.

User: wanglibo1995

pytorch-lightning remote-sensing-image vision-transformer deep-learning pytorch timm cnn segmentation semantic-segmentation

westlake-ai / openmixup

vision-transformer,CAIRI Supervised, Semi- and Self-Supervised Visual Representation Learning Toolbox and Benchmark

Organization: westlake-ai

Home Page: https://openmixup.readthedocs.io

pytorch awesome-list awesome-mim awesome-mixup contrastive-learning data-augmentation image-classifcation imagenet masked-image-modeling mixup

xxxnell / how-do-vits-work

vision-transformer,(ICLR 2022 Spotlight) Official PyTorch implementation of "How Do Vision Transformers Work?"

User: xxxnell

Home Page: https://arxiv.org/abs/2202.06709

loss-landscape pytorch self-attention transformer vision-transformer

yitu-opensource / t2t-vit

vision-transformer,ICCV2021, Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

Organization: yitu-opensource

vision-transformer t2t-transformer vit

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.

Topic: vision-transformer Goto Github

👇 Here are 806 public repositories matching this topic...

4dvlab / vision-centric-bev-perception

adithya-s-k / omniparse

alibaba-miil / imagenet21k

alibaba / easycv

baaivision / eva

baudm / parseq

chinhsuanwu / mobilevit-pytorch

cmhungsteve / awesome-transformer-attention

czczup / vit-adapter

emcf / thepipe

foundationvision / var

google-research / maxvit

google-research / scenic

hila-chefer / transformer-explainability

huawei-noah / efficient-ai-backbones

hustvl / yolos

internlm / internlm-xcomposer

jacobgil / vit-explain

jdai-cv / cotnet

jingyunliang / swinir

jingyunliang / vrt

junyuchen245 / transformer_for_medical_image_analysis

leaplabthu / dat

lukas-blecher / latex-ocr

mahmoodlab / hipt

mcg-nju / videomae

microsoft / cream

mit-han-lab / efficientvit

mv-lab / swin2sr

nielsrogge / transformers-tutorials

nvlabs / fastervit

nvlabs / mambavision

nvlabs / voxformer

ofa-sys / one-peace

open-mmlab / mmdetection

open-mmlab / mmpretrain

opengvlab / internvideo

pprp / awesome-attention-mechanism-in-cv

raoyongming / gfnet

sithu31296 / semantic-segmentation

sunzey / alphaclip

towhee-io / towhee

uncbiag / awesome-foundation-models

vitae-transformer / vitae-transformer-remote-sensing

vitae-transformer / vitdet

vitae-transformer / vitpose

wanglibo1995 / geoseg

westlake-ai / openmixup

xxxnell / how-do-vits-work

yitu-opensource / t2t-vit

Recommend Projects

Recommend Topics

Recommend Org