Giter Club home page Giter Club logo

come-capstone23-kbvqa's Introduction

한밭대학교 컴퓨터공학과 KBVQA팀

팀 구성

  • 20181796 김민준
  • 20181620 송승우
  • 20202364 송지현

KBVQA Project Background

  • 필요성

    • 기존 한국어 기반 대규모 멀티모달 언어모델 및 언어모델의 한계점 최근 대규모 언어모델(LLM)이 급속도로 발전함에 따라, 멀티모달분야에서도 대규모 언어모델의 활용 연구가 급격히 발전하고 있다. 하지만, 한국어 기반의 대규모 멀티모달모델은 영어 데이터를 기계번 역하여사용하기 때문에 (1) 한국어 능력이 떨어지고, (2) 영어 뉘앙스의 답변을 생성한다.
    • 번역 데이터셋을 활용한 instruction tuning 한국어-영어 번역 데이터셋을 통한 instruction tuning을 진행하여 한국어 어휘력 및 지식 강화및 GPT-4를 통한 한국어 visual instruction-following 데이터를 직접 생성하여 자연스러 운 한국어 응답을 학습한다.
  • 기존 해결책의 문제점

    • 기존 연구에서는 한국어 데이터셋의 부족을 기계번역을 통해 해결하였다.
    • 기계번역을 통한 데이터 구축은, 모델이 자연스럽지 않은 영어 뉘앙스의 답변을 생성한다.

System Design

  • System Requirements

Ubuntu 20.04.4 LTS

Python 3.8.10

CUDA 11.6

GPU : NVIDIA A100 80GB x 4

CPU : AMD EPYC 7352 24-Core Processor x 48

Memory : 126G

[requirements.txt]

  • Model Architecture

Case Study

Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae. 2023.

Visual Instruction Tuning(NeurIPS).

기존의 LLM에서 활용하던 Instruction-tuning을 이미지로 확장하여 ChatGPT를 활용한 데이터 생성 및 visual instruction tuning.

Junnan Li and Dongxu Li and Silvio Savarese and Steven Hoi. 2023.

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Q-Former를 제안하여 사전학습된 이미지 인코더와 언어모델을 효율적으로 활용 적은 파라미터 수로 학습 가능한 Q-Former 제안

Wenliang Dai and Junnan Li and Dongxu Li and Anthony Meng Huat Tiong and Junqi Zhao and Weisheng Wang and Boyang Li and Pascale Fung and Steven Hoi. 2023

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

제안하는 BLIP-2 구조에 visual instruction tuning을 접목. 여러가지 Academical task를 활용하여 visual instruction uning 진행


본 프로젝트에서는 위의 기존 연구를 참고하여 한계점을 조사함. 기존 연구는 모두 영어 데이터를 활용하여 진행되었으며, 한국어는 데이터셋의 부족으로 접근이 어려움 본 프로젝트에서는 기계 번역이 아닌, GPT-4를 통한 자연스러운 한국어 문장 생성으로 데이터셋 부족을 해결 한-영 번역 데이터로 LLM에 한국어 지식을 학습시킴

Conclusion

image

image

  • 본 프로젝트에서는 한-영 번역 데이터셋을 통해 영어 데이터로 학습된 LLM이 한국어 단어 및 지식을 학습하도록 했다.
  • 또한, 이미지-텍스트 paired 데이터를 통해 한국어, 영어 모두 visual instruction tuning을 진행했다.

Project Outcome

  • Our paper "BOK-VQA: Bilingual Outside Knowledge-based Visual Question Answering via Graph Representation Pretraining" is accepted to Thirty-Eighth AAAI Conference on Artificial Intelligence(AAAI2024).

  • 2023년 정보과학회 학술대회 KCC 논문 3건 출판(2건 우수 발표 논문상 수상)

  • 2023년 컴퓨팅의실재 논문지(KCI) 2건 출판

  • 2023년 SW중심대학 우수작품 선정

come-capstone23-kbvqa's People

Contributors

mjkmain avatar github-classroom[bot] avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.