この記事は、一般公開されている日本語LLM(日本語を中心に学習されたLLM)に関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。
⚠ 以下の点について、あらかじめご理解とご了承をお願いいたします:
- 本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提供できるとは限りません。
- 一部の情報は、推測や個々の利用者の解釈にもとづくものである場合があります。そのため、全ての読者にとって必ずしも正確であるとは限りません。
- 本記事に記載されているモデルの多くは、MIT や Apache-2.0 といったオープンソースライセンスが適用されています。しかしながら、一部のモデルには、非営利限定のライセンス(例:CC BY-NC-SA 4.0)や開発元特有のライセンスが適応されており、これらは必ずしもオープンソースとは言えない可能性がある点にご注意ください。
この記事の管理は GitHub で行っています。記事の間違いを発見した場合、あるいはモデルの追加提案を行いたい場合は、GitHub Issues 経由で報告していただけますと幸いです。
- テキスト生成に主に使うモデル
- 入力テキストの処理に主に使うモデル
- 埋め込み (Embeddings) 作成に特化したモデル
- 視覚言語モデル (Vision-Language Models)
- 日本語LLM評価ベンチマーク/データセットまとめ
- 各モデルの原論文
- コントリビューター
画像を含むテキスト生成モデルはこちら
モデル | 学習テキスト | 開発元 | ライセンス | |
---|---|---|---|---|
LLM-jp-13B | GPT (1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0) |
事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン) Instruction Tuning (SFT or LoRA): jaster, Dolly Dataset, OASST1 |
LLM-jp | Apache 2.0 |
PLaMo-13B | Llama1 (13b, 13b-instruct, 13b-instruct-nc) |
事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4 (計 1.5T トークン) Instruct Tuning (SFT): Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習) |
Preferred Networks | Apache 2.0 (NC モデルは CC BY-NC 4.0) |
Stockmark-13b | Llama (13b, 13b-instruct) |
事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus (計 220B トークン) Instruct Tuning (LoRA): ichikara-instruction |
ストックマーク | baseモデル: MIT instructモデル: CC BY-NC-SA 4.0 |
Weblab-10B | GPT (10b, 10b-instruction-sft) |
Japanese mC4 + The Pile(計 600B トークン) *instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング |
東大 松尾研 | CC BY-NC 4.0 |
Japanese StableLM Alpha | GPT (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2) |
Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama (+ 独自のデータセット)2 (計 750B トークン) *instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング (v2では商用利用不可の Alpaca Dataset を除外) |
Stability AI | baseモデル: Apache 2.0 instruct モデル (v1): 独自のライセンス instruct モデル (v2): Apache 2.0 |
CALM2 | Llama (7b, 7b-chat) |
一般公開されている日本語・英語のデータセット(詳細不明) (計 1.3T トークン) | サイバーエージェント | Apache 2.0 |
OpenCALM | GPT (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b)) |
日本語 Wikipedia + Jpanese mC4 + Japanese CC-100 |
サイバーエージェント | CC BY-SA 4.0 |
Stormy | GPT (7b(6.8b)) |
OpenCALM (6.8b) に対して llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング |
東大 和泉研 | CC BY-SA 4.0 |
rinna GPT (英語やコードも含めて学習されたモデル) |
GPT (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo) |
Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile (計 524B トークン) *8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング *instruction-sft モデルでは HH RLHF、FLAN でファインチューニング *instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習 |
rinna | MIT |
japanese-large-lm | GPT (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft) |
日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど (計 650GB) *instruction-sft モデルでは OASST1 でファインチューニング |
LINE | Apache 2.0 |
rinna GPT (日本語のみで学習されたモデル) |
GPT (xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo) |
日本語 Wikipedia + Japanese CC-100 (1b 以降のモデルでは さらに Japanese mC4 を追加) *instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング *instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習 |
rinna | MIT |
レトリバT5 | T5 (small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b)) |
日本語 Wikipedia + Japanese mC4 | レトリバ | CC BY-SA 4.0 |
ABEJA GPT | GPT (large, neox-2.7b) |
日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR |
ABEJA | MIT |
早大GPT | GPT (small, xl(1.5b)) |
日本語 Wikipedia + Japanese CC-100 |
早大 河原研 | CC BY-SA 4.0 |
ストックマークGPT | GPT (1.4b) |
日本語 Wikipedia (0.88B トークン) + Japanese CC-100 (10.5B トークン) + 独自のWebデータ (8.6B トークン) |
ストックマーク | MIT |
イエローバックGPT | GPT (1.3b) |
日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR |
イエローバック | Apache 2.0 |
colorfulscoop GPT | GPT (small) |
日本語 Wikipedia | Colorful Scoop | CC BY-SA 3.0 |
東工大GPT | GPT (medium, medium (逆方向)) 3 |
日本語 Wikipedia + Japanese CC-100 | 東工大 岡崎研 | CC BY-SA 4.0 |
京大GPT | GPT (small (文字レベル), medium (文字レベル)) |
日本語 Wikipedia (約2,700万文 (3.2GB)) + Japanese CC-100 (約6億1,900万文 (85GB)) + Japanese OSCAR (約3億2,600万文 (54GB)) |
京大 言語メディア研究室 | CC BY-SA 4.0 |
日本語BART | BART (base, large) |
日本語 Wikipedia (約1,800万文) | 京大 言語メディア研究室 | CC BY-SA 4.0 |
Megagon Labs T5 | T5 (base) |
Japanese mC4 (87,425,304 ページ (782 GB)) + Japanese wiki40b (828,236 記事 (2 GB)) |
Megagon Labs (リクルート) |
Apache 2.0 |
ドメイン | モデル | 学習テキスト | 開発元 | ライセンス | |
---|---|---|---|---|---|
日本語対話Transformer | 対話 | Transformer | Twitter 上の日本語リプライのペア | NTT | 独自のライセンス |
日本語ニュースBART | ビジネス | BART (base) | 日本語ビジネスニュース記事(約2,100万記事 (2.9億文)) | ストックマーク | MIT |
AcademicBART | 学術 | BART (base) | CiNii の日本語論文 | 愛媛大 人工知能研究室 | Apache 2.0 |
ベースの英語LLM | 開発元 | ライセンス | |
---|---|---|---|
Japanese Stable LM Beta 70B (base-beta-70b, instruct-beta-70b) |
Llama 2 (70b) | Stability AI | Llama 2 Community License |
ELYZA-japanese-Llama-2-7b (7b, 7b-instruct, 7b-fast, 7b-fast-instruct) |
Llama 2 (7b) | ELYZA | Llama 2 Community License |
Youri 7B (7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq) |
Llama 2 (7b) | rinna | Llama 2 Community License |
Japanese Stable LM Beta 7B (base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b) |
Llama 2 (7b) | Stability AI | Llama 2 Community License |
Japanese Stable LM Gamma 7B (base-gamma-7b, instruct-gamma-7b) |
Mistral-7B-v0.1 (7b) | Stability AI | Apache 2.0 |
lightblue/japanese-mpt-7b | MPT (7b) | Lightblue | Apache 2.0 |
AIBunCho/japanese-novel-gpt-j-6b | GPT-J (6b) | インダストリアル・ドリーム4 | CreativeML OpenRAIL-M License |
NovelAI/genji-jp | GPT-J (6b) | NovelAI | ? |
Japanese Stable LM 3B-4E1T (3b-4e1t-base, 3b-4e1t-instruct) |
StableLM-3B-4E1T (3b) | Stability AI | Apache 2.0 |
ドメイン | ベースの英語LLM | 開発元 | ライセンス | |
---|---|---|---|---|
ELYZA-japanese-CodeLlama-7b (7b, 7b-instruct) |
コーディング | Code Llama (7b) |
ELYZA | Llama 2 Community License |
ベースの英語LLM | 開発元 | ライセンス | |
---|---|---|---|
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese | Llama 2 (70b) | 東京大学医学部附属病院 循環器内科 AIグループ | Llama 2 Community License |
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1 | Llama 2 (70b) | 同志社大学 メディア情報学研究室 | ? |
Sparticle/llama-2-13b-chat-japanese-lora | Llama 2 (13b) | Sparticle | ? |
izumi-lab/llama-13b-japanese-lora-v0-1ep | Llama (13b) | 東大 和泉研 | ? |
ganchengguang/Yoko-7B-Japanese-v1 | Llama 2 (7b) | 横浜国大 森研 | ? |
Sparticle/llama-2-7b-chat-japanese-lora | Llama 2 (7b) | Sparticle | ? |
izumi-lab/llama-7b-japanese-lora-v0-5ep | Llama (7b) | 東大 和泉研 | ? |
lightblue/jod | Mistral-7B-SlimOrca (7b) | Lightblue | Apache 2.0 |
NTQAI/chatntq-7b-jpntuned | RWKV-4 World (7b) | NTQ Solution | ? |
ドメイン | ベースの英語LLM | 開発元 | ライセンス | |
---|---|---|---|---|
JMedLoRA (llama2-jmedlora-6.89ep) |
医療 | Llama 2 (70b) | 東京大学医学部附属病院 循環器内科 AIグループ | CC BY-NC 4.0 |
モデル | 学習テキスト | 開発元 | ライセンス | HuggingFace ですぐ使える? 5 | |
---|---|---|---|---|---|
京大BERT | BERT (base, large) | 日本語 Wikipedia (約1,800万文) | 京大 言語メディア研究室 | Apache 2.0 | △ |
東北大BERT | BERT (base, large) | base (v1): 日本語 Wikipedia 約1,700万文 (2.6GB) base (v2) & large: 日本語 Wikipedia 約3,000万文 (4.0GB) base (v3) & large (v2): 日本語 Wikipedia 約3,400万文 (4.9GB) + 日本語 CC-100 約3億9,200万文 (74.3GB) |
東北大 自然言語処理研究グループ |
base (v1, v2) & large: CC BY-SA 3.0 base (v3) & large (v2): Apache 2.0 |
◯ (base (v1), base (v1, 文字レベル), base (v2), base (v2, 文字レベル), large, large (文字レベル), base (v3), base (v3, 文字レベル), large (v2), large (v2, 文字レベル)) |
NICT BERT | BERT (base) | 日本語 Wikipedia | NICT | CC BY 4.0 | △ |
colorfulscoop BERT | BERT (base) | 日本語 Wikipedia | Colorful Scoop | CC BY-SA 3.0 | ◯ |
東大BERT | BERT (small) | 日本語 Wikipedia (約2,000万文 (2.9GB)) | 東大 和泉研 | CC BY-SA 4.0 | ◯ |
chiTra (Sudachi Transformers) | BERT (base) | 国語研日本語ウェブコーパス (NWJC) (148GB) | NINJAL & ワークス徳島人工知能NLP研 | Apache 2.0 | △ |
ACCMS BERT | BERT (base) | 日本語 Wikipedia (3.3GB) | 京大 ACCMS | CC BY-SA 4.0 | ◯ |
日立BERT | BERT (base) | 日本語 Wikipedia + Japanese CC-100 |
日立製作所 | CC BY-NC-SA 4.0 | ◯ 6 |
Bandai Namco DistilBERT | DistilBERT | - (東北大BERT(base) を親モデルとして知識蒸留) | Bandai Namco Research | MIT | ◯ |
LINE DistilBERT | DistilBERT | - (LINE社内のBERTを親モデルとして知識蒸留) | LINE | Apache 2.0 | ◯ |
rinna RoBERTa | RoBERTa (base) | 日本語 Wikipedia + Japanese CC-100 |
rinna | MIT | ◯ |
早大RoBERTa | RoBERTa (base, large) | 日本語 Wikipedia + Japanese CC-100 |
早大 河原研 | CC BY-SA 4.0 | ◯ (base, large, large (seq512)) 7 |
インフォマティクスRoBERTa | RoBERTa (base) | 日本語 Wikipedia + Web 上の記事 (計25GB) |
インフォマティクス | Apache 2.0 | △ |
京大RoBERTa | RoBERTa (base, large) | 日本語 Wikipedia + Japanese CC-100 |
京大 言語メディア研究室 | CC BY-SA 4.0 | ◯ (base (文字レベル), large (文字レベル)) |
横浜国大RoBERTa | RoBERTa (base) | 日本語 Wikipedia (3.45GB) | 横浜国大 森研 | Apache 2.0 | ◯ |
Megagon Labs RoBERTa | RoBERTa (base) 8 | Japanese mC4 (約2億文) | Megagon Labs (リクルート) |
MIT | ◯ |
ACCMS RoBERTa | RoBERTa (base) | 日本語 Wikipedia (3.3GB) + Japanese CC-100 (70GB) | 京大 ACCMS | CC BY-SA 4.0 | ◯ |
シナモンELECTRA | ELECTRA (small) | 日本語 Wikipedia | シナモン | Apache 2.0 | ◯ |
Megagon Labs ELECTRA | ELECTRA (base) | Japanese mC4 (約2億文) | Megagon Labs (リクルート) |
MIT | ◯ |
東大ELECTRA | ELECTRA (small, base) | 日本語 Wikipedia (約2,000万文 (2.9GB)) | 東大 和泉研 | CC BY-SA 4.0 | ◯ (small, base) |
日本語RoFormer | RoFormer (base) | 日本語 Wikipedia (3.45GB) | 横浜国大 森研 | Apache 2.0 | ◯ |
日本語LUKE | LUKE (base, large) | 日本語 Wikipedia | Studio Ousia | Apache 2.0 | ◯ (base, large) |
京大DeBERTaV2 | DeBERTaV2 (tiny, base, large) | 日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR (計171GB) |
京大 言語メディア研究室 | CC BY-SA 4.0 | ◯ (tiny, tiny (文字レベル), base, large) |
東大DeBERTaV2 | DeBERTaV2 (small, base) | 日本語 Wikipedia, 日本語 Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR (baseモデルでは日本語の決算短信、有価証券報告書、ニュース記事で追加学習) |
東大 和泉研 | CC BY-SA 4.0 | ◯ (small, base) |
日本語BigBird | BigBird (base) | 日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR |
早大 河原研 | CC BY-SA 4.0 | ◯ |
モデル | 学習テキスト | 開発元 | ライセンス | HuggingFace ですぐ使える? | |
---|---|---|---|---|---|
日本語ニュースBERT | BERT (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | CC BY 4.0 | △ |
日本語ニュースXLNet | XLNet (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | ? | ※ 非公式の HuggingFace 向けに変換されたモデルが公開されている |
日本語ニュースALBERT | ALBERT (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | ? | △ |
Laboro BERT | BERT (base, large) | 日本語 Web コーパス (ニュースサイトやブログなど 計4,307のWebサイト、2,605,280ページ (12GB)) |
Laboro.AI | CC BY-NC 4.0 | ✕ |
Laboro DistilBERT | DistilBERT | - (Laboro BERT(base) を親モデルとして知識蒸留) | Laboro.AI | CC BY-NC 4.0 | ◯ |
日本語ブログELECTRA | ELECTRA (small) | 日本語ブログコーパス(3億5,400万文) | 北見工大 桝井・プタシンスキ研 | CC BY-SA 4.0 | ◯ |
日本語話し言葉BERT | BERT (base) | 東北大BERTに対して日本語話し言葉コーパス(CSJ)を用いて追加学習 (DAPTモデルでは国会議事録データも使用) |
レトリバ | Apache 2.0 | ◯ |
日本語金融BERT | BERT (small, base) 9 | 日本語 Wikipedia + 日本語金融コーパス (約2,700万文 (5.2GB)) |
東大 和泉研 | CC BY-SA 4.0 | ◯ (small, base) |
日本語金融ELECTRA | ELECTRA (small) | 日本語 Wikipedia (約2,000万文 (2.9GB)) + 日本語金融コーパス (約2,700万文 (5.2GB)) |
東大 和泉研 | CC BY-SA 4.0 | ◯ |
UTH-BERT | BERT (base) | 日本語診療記録(約1億2,000万行) | 東大病院 医療AI開発学講座 |
CC BY-NC-SA 4.0 | △ |
medBERTjp | BERT (base) | 日本語 Wikipedia + 日本語医療コーパス(『今日の診療プレミアム』Web版) |
阪大病院 医療情報学研究室 |
CC BY-NC-SA 4.0 | △ |
JMedRoBERTa | RoBERTa (base) | 日本語医学論文 (約1,100万文 (1.8GB)) | 東大 相澤研 | CC BY-NC-SA 4.0 | ◯ (万病WordPiece, SentencePiece) 10 |
AcademicRoBERTa | RoBERTa (base) | CiNii の日本語論文 (約628万文) | 愛媛大 人工知能研究室 | Apache 2.0 | ◯ |
モデル | 開発元 | ライセンス | |
---|---|---|---|
colorfulscoop/sbert-base-ja | Sentence-BERT | Colorful Scoop | CC BY-SA 4.0 |
MU-Kindai/SBERT-JSNLI-base MU-Kindai/SBERT-JSNLI-large |
Sentence-BERT | 近畿大学 (研究室不明) | ? |
MU-Kindai/Japanese-SimCSE-BERT-base-unsup MU-Kindai/Japanese-SimCSE-BERT-large-unsup MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup MU-Kindai/Japanese-SimCSE-BERT-base-sup MU-Kindai/Japanese-SimCSE-BERT-large-sup |
SimCSE | 近畿大学 (研究室不明) | MIT |
pkshatech/simcse-ja-bert-base-clcmlp | SimCSE | PKSHA Technology | CC BY-SA 4.0 |
cl-nagoya/unsup-simcse-ja-base cl-nagoya/unsup-simcse-ja-large cl-nagoya/sup-simcse-ja-base cl-nagoya/sup-simcse-ja-large |
SimCSE | 名大 武田・笹野研 | CC BY-SA 4.0 |
MU-Kindai/Japanese-MixCSE-BERT-base MU-Kindai/Japanese-MixCSE-BERT-large |
MixCSE | 近畿大学 (研究室不明) | MIT |
MU-Kindai/Japanese-DiffCSE-BERT-base | DiffCSE | 近畿大学 (研究室不明) | MIT |
pkshatech/GLuCoSE-base-ja | LUKE ベースの文埋め込みモデル | PKSHA Technology | Apache 2.0 |
モデル | 学習画像/テキスト | 開発元 | ライセンス | HuggingFace ですぐ使える? | |
---|---|---|---|---|---|
Heron | BLIP または GIT | LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset | Turing | CC BY-NC 4.0 | ◯ (blip-ja-stablelm-base-7b-v0, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0) |
Japanese InstructBLIP Alpha | InstructBLIP | Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset | Stability AI | 独自のライセンス | ◯ |
rinna MiniGPT-4 11 | MiniGPT-4 | CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset | rinna | MIT | ◯ |
モデル | 学習画像/テキスト | 開発元 | ライセンス | HuggingFace ですぐ使える? | |
---|---|---|---|---|---|
日本語CLIP | CLIP (画像エンコーダは google/vit-base-patch16-224 で重みが初期化された ViT-B/16、 テキストエンコーダは rinna RoBERTa で重みが初期化された RoBERTa(base)) |
CC12M のキャプションを日本語に翻訳したもの | rinna | Apache 2.0 | ◯ |
日本語CLOOB | CLOOB (画像エンコーダは google/vit-base-patch16-224 で重みが初期化された ViT-B/16、 テキストエンコーダは rinna RoBERTa で重みが初期化された RoBERTa(base)) |
CC12M のキャプションを日本語に翻訳したもの | rinna | Apache 2.0 | ◯ |
日本語 Stable Diffusion | Stable Diffusion (最初にテキストエンコーダのみ日本語キャプション付き画像を用いて追加学習を行い、次にテキストエンコーダと生成モデルのパラメータを同時に更新する追加学習を行う) | LAION-5B データセットのうちキャプションが日本語のもの(画像約 1 億枚) | rinna | CreativeML OpenRAIL-M License | ◯ |
- llm-jp-eval リーダーボード (LLM-jp)
- JGLUE (早大河原研 & ヤフー)
- GLUE ベンチマークの日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む(JCoLA は東大大関研により作成)。各タスクの詳細はこちらやこちらを参照
- JP Language Model Evaluation Harness (Stability AI)
- Stability AI による EleutherAI/lm-evaluation-harness のフォーク。JGLUE を含む様々な日本語タスクに対するモデルの few-shot 評価をまとめている
- rinna による詳細な評価結果まとめがある: [rinna] Benchmark of Stability-AI/lm-evaluation-harness
- Nejumi LLMリーダーボード (Weights & Biases)
- JGLUE に対するモデルの zero-shot 評価をまとめている
- Rakuda Benchmark (YuzuAI)
- 日本の地理、歴史、政治、社会に関する40問の自由質問に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う
- ELYZA-tasks-100 (ELYZA)
- Japanese MT-bench (Stability AI)
- マルチターン会話能力を問う MT-bench の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。
GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。評価結果は以下の shi3z 氏によるまとめ記事が詳しい:無償LLM 日本語能力ベンチマークまとめ
- マルチターン会話能力を問う MT-bench の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。
- Japanese Vicuna QA Benchmark (京大 言語メディア研究室)
- MT-Bench の前身である vicuna-blog-eval の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価(勝率計算)のスクリプトも含まれている。
- Stockmark Business Questions (ストックマーク)
- 市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。
このプロジェクトに貢献してくれているコントリビューターのみなさんです!
Footnotes
-
ただし、モデル高速化のため本家の Llama に対してアーキテクチャの変更を加えている。詳しくは以下を参照: PLaMo-13Bを公開しました ↩
-
詳細は明記されていないが、プレスリリースには以下のような記述がある: 『学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。』 ↩
-
通常の左から右に単語を予測する代わりに、右から左に単語を予測するように訓練された言語モデルの評価を行った研究である。通常方向の言語モデルと逆方向の言語モデルの両方が公開されている。 ↩
-
○: HuggingFace の Model Hub にモデルがアップロードされており、
AutoModel.from_pretrained()
等ですぐ読み込める。 △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している。✕: モデルがHuggingFaceに対応していない。 ↩ -
様々な形態素解析器とサブワード化手法の組み合わせを試した研究である。全ての組み合わせのモデルを掲載するのは大変なので、ここでは実験で最も平均のタスク性能が高い Juman++ + BPE のモデルを代表として掲載している。 ↩
-
nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している ↩
-
ただし、最大系列長が通常の 512 から 1282 まで拡張されており、より長い入力文を扱うことができる ↩
-
small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある ↩
-
万病WordPieceモデルは MeCab (IPA辞書+万病辞書) で単語分割した後 WordPiece でサブワード化するモデル、SentencePieceモデルは単語分割せずに直接 Unigram でサブワード化するモデル ↩
-
以下の記事が詳しい(この記事での MiniGPT-4 の実装例は LLM 部分 を rinna/bilingual-gpt-neox-4b ではなく rinna/japanese-gpt-neox-3.6b としている点に注意): Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る ↩