日本語LLMまとめ

[ English | Français | 日本語 ]

日本語LLM・英語LLMのパラメータサイズの推移。日本語モデルの情報は本記事、英語モデルの情報は LifeArchitect.ai の Models table を参照しています。修正・追加等ありましたらお知らせ下さい。

この記事は、一般公開されている日本語LLM（日本語を中心に学習されたLLM）に関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。

⚠ 以下の点について、あらかじめご理解とご了承をお願いいたします：

本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提供できるとは限りません。
一部の情報は、推測や個々の利用者の解釈にもとづくものである場合があります。そのため、全ての読者にとって必ずしも正確であるとは限りません。
本記事に記載されているモデルの多くは、MIT や Apache-2.0 といったオープンソースライセンスが適用されています。しかしながら、一部のモデルには、非営利限定のライセンス（例：CC BY-NC-SA 4.0）や開発元特有のライセンスが適応されており、これらは必ずしもオープンソースとは言えない可能性がある点にご注意ください。

この記事の管理は GitHub で行っています。記事の間違いを発見した場合、あるいはモデルの追加提案を行いたい場合は、GitHub Issues 経由で報告していただけますと幸いです。

テキスト生成に主に使うモデル
入力テキストの処理に主に使うモデル
- 汎用
- ドメイン特化型
埋め込み (Embeddings) 作成に特化したモデル
視覚言語モデル (Vision-Language Models)
- 画像を含むテキスト生成
- その他
日本語LLM評価ベンチマーク/データセットまとめ
各モデルの原論文
コントリビューター

テキスト生成に主に使うモデル

画像を含むテキスト生成モデルはこちら

フルスクラッチ事前学習モデル

汎用

	モデル	学習テキスト	開発元	ライセンス
LLM-jp-13B	GPT (1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)	事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン) Instruction Tuning (SFT or LoRA): jaster, Dolly Dataset, OASST1	LLM-jp	Apache 2.0
PLaMo-13B	Llama¹ (13b, 13b-instruct, 13b-instruct-nc)	事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4 (計 1.5T トークン) Instruct Tuning (SFT): Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習)	Preferred Networks	Apache 2.0 (NC モデルは CC BY-NC 4.0)
Stockmark-13b	Llama (13b, 13b-instruct)	事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus (計 220B トークン) Instruct Tuning (LoRA): ichikara-instruction	ストックマーク	baseモデル: MIT instructモデル: CC BY-NC-SA 4.0
Weblab-10B	GPT (10b, 10b-instruction-sft)	Japanese mC4 + The Pile（計 600B トークン） *instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング	東大松尾研	CC BY-NC 4.0
Japanese StableLM Alpha	GPT (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)	Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama (+ 独自のデータセット)² (計 750B トークン) *instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング (v2では商用利用不可の Alpaca Dataset を除外)	Stability AI	baseモデル: Apache 2.0 instruct モデル (v1): 独自のライセンス instruct モデル (v2): Apache 2.0
CALM2	Llama (7b, 7b-chat)	一般公開されている日本語・英語のデータセット（詳細不明） (計 1.3T トークン)	サイバーエージェント	Apache 2.0
OpenCALM	GPT (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))	日本語 Wikipedia + Jpanese mC4 + Japanese CC-100	サイバーエージェント	CC BY-SA 4.0
Stormy	GPT (7b(6.8b))	OpenCALM (6.8b) に対して llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング	東大和泉研	CC BY-SA 4.0
rinna GPT (英語やコードも含めて学習されたモデル)	GPT (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)	Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile (計 524B トークン) 8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング instruction-sft モデルでは HH RLHF、FLAN でファインチューニング *instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習	rinna	MIT
japanese-large-lm	GPT (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)	日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど (計 650GB) *instruction-sft モデルでは OASST1 でファインチューニング	LINE	Apache 2.0
rinna GPT (日本語のみで学習されたモデル)	GPT (xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)	日本語 Wikipedia + Japanese CC-100 (1b 以降のモデルではさらに Japanese mC4 を追加) instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習	rinna	MIT
レトリバT5	T5 (small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))	日本語 Wikipedia + Japanese mC4	レトリバ	CC BY-SA 4.0
ABEJA GPT	GPT (large, neox-2.7b)	日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR	ABEJA	MIT
早大GPT	GPT (small, xl(1.5b))	日本語 Wikipedia + Japanese CC-100	早大河原研	CC BY-SA 4.0
ストックマークGPT	GPT (1.4b)	日本語 Wikipedia (0.88B トークン) + Japanese CC-100 (10.5B トークン) + 独自のWebデータ (8.6B トークン)	ストックマーク	MIT
イエローバックGPT	GPT (1.3b)	日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR	イエローバック	Apache 2.0
colorfulscoop GPT	GPT (small)	日本語 Wikipedia	Colorful Scoop	CC BY-SA 3.0
東工大GPT	GPT (medium, medium (逆方向)) ³	日本語 Wikipedia + Japanese CC-100	東工大岡崎研	CC BY-SA 4.0
京大GPT	GPT (small (文字レベル), medium (文字レベル))	日本語 Wikipedia (約2,700万文 (3.2GB)) + Japanese CC-100 (約6億1,900万文 (85GB)) + Japanese OSCAR (約3億2,600万文 (54GB))	京大言語メディア研究室	CC BY-SA 4.0
日本語BART	BART (base, large)	日本語 Wikipedia (約1,800万文)	京大言語メディア研究室	CC BY-SA 4.0
Megagon Labs T5	T5 (base)	Japanese mC4 (87,425,304 ページ (782 GB)) + Japanese wiki40b (828,236 記事 (2 GB))	Megagon Labs (リクルート)	Apache 2.0

ドメイン特化型

	ドメイン	モデル	学習テキスト	開発元	ライセンス
日本語対話Transformer	対話	Transformer	Twitter 上の日本語リプライのペア	NTT	独自のライセンス
日本語ニュースBART	ビジネス	BART (base)	日本語ビジネスニュース記事（約2,100万記事 (2.9億文)）	ストックマーク	MIT
AcademicBART	学術	BART (base)	CiNii の日本語論文	愛媛大人工知能研究室	Apache 2.0

英語モデルに日本語で追加事前学習を行ったモデル

汎用

	ベースの英語LLM	開発元	ライセンス
Japanese Stable LM Beta 70B (base-beta-70b, instruct-beta-70b)	Llama 2 (70b)	Stability AI	Llama 2 Community License
ELYZA-japanese-Llama-2-7b (7b, 7b-instruct, 7b-fast, 7b-fast-instruct)	Llama 2 (7b)	ELYZA	Llama 2 Community License
Youri 7B (7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)	Llama 2 (7b)	rinna	Llama 2 Community License
Japanese Stable LM Beta 7B (base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)	Llama 2 (7b)	Stability AI	Llama 2 Community License
Japanese Stable LM Gamma 7B (base-gamma-7b, instruct-gamma-7b)	Mistral-7B-v0.1 (7b)	Stability AI	Apache 2.0
lightblue/japanese-mpt-7b	MPT (7b)	Lightblue	Apache 2.0
AIBunCho/japanese-novel-gpt-j-6b	GPT-J (6b)	インダストリアル・ドリーム⁴	CreativeML OpenRAIL-M License
NovelAI/genji-jp	GPT-J (6b)	NovelAI	？
Japanese Stable LM 3B-4E1T (3b-4e1t-base, 3b-4e1t-instruct)	StableLM-3B-4E1T (3b)	Stability AI	Apache 2.0

ドメイン特化型

	ドメイン	ベースの英語LLM	開発元	ライセンス
ELYZA-japanese-CodeLlama-7b (7b, 7b-instruct)	コーディング	Code Llama (7b)	ELYZA	Llama 2 Community License

英語モデルに日本語で指示学習 (Instruction Tuning) のみ行ったモデル

汎用

	ベースの英語LLM	開発元	ライセンス
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese	Llama 2 (70b)	東京大学医学部附属病院循環器内科 AIグループ	Llama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1	Llama 2 (70b)	同志社大学メディア情報学研究室	？
Sparticle/llama-2-13b-chat-japanese-lora	Llama 2 (13b)	Sparticle	？
izumi-lab/llama-13b-japanese-lora-v0-1ep	Llama (13b)	東大和泉研	？
ganchengguang/Yoko-7B-Japanese-v1	Llama 2 (7b)	横浜国大森研	？
Sparticle/llama-2-7b-chat-japanese-lora	Llama 2 (7b)	Sparticle	？
izumi-lab/llama-7b-japanese-lora-v0-5ep	Llama (7b)	東大和泉研	？
lightblue/jod	Mistral-7B-SlimOrca (7b)	Lightblue	Apache 2.0
NTQAI/chatntq-7b-jpntuned	RWKV-4 World (7b)	NTQ Solution	？

ドメイン特化型

	ドメイン	ベースの英語LLM	開発元	ライセンス
JMedLoRA (llama2-jmedlora-6.89ep)	医療	Llama 2 (70b)	東京大学医学部附属病院循環器内科 AIグループ	CC BY-NC 4.0

入力テキストの処理に主に使うモデル

汎用

	モデル	学習テキスト	開発元	ライセンス	HuggingFace ですぐ使える？ ⁵
京大BERT	BERT (base, large)	日本語 Wikipedia (約1,800万文)	京大言語メディア研究室	Apache 2.0	△
東北大BERT	BERT (base, large)	base (v1): 日本語 Wikipedia 約1,700万文 (2.6GB) base (v2) & large: 日本語 Wikipedia 約3,000万文 (4.0GB) base (v3) & large (v2): 日本語 Wikipedia 約3,400万文 (4.9GB) + 日本語 CC-100 約3億9,200万文 (74.3GB)	東北大自然言語処理研究グループ	base (v1, v2) & large: CC BY-SA 3.0 base (v3) & large (v2): Apache 2.0	◯ (base (v1), base (v1, 文字レベル), base (v2), base (v2, 文字レベル), large, large (文字レベル), base (v3), base (v3, 文字レベル), large (v2), large (v2, 文字レベル))
NICT BERT	BERT (base)	日本語 Wikipedia	NICT	CC BY 4.0	△
colorfulscoop BERT	BERT (base)	日本語 Wikipedia	Colorful Scoop	CC BY-SA 3.0	◯
東大BERT	BERT (small)	日本語 Wikipedia (約2,000万文 (2.9GB))	東大和泉研	CC BY-SA 4.0	◯
chiTra (Sudachi Transformers)	BERT (base)	国語研日本語ウェブコーパス (NWJC) (148GB)	NINJAL & ワークス徳島人工知能NLP研	Apache 2.0	△
ACCMS BERT	BERT (base)	日本語 Wikipedia (3.3GB)	京大 ACCMS	CC BY-SA 4.0	◯
日立BERT	BERT (base)	日本語 Wikipedia + Japanese CC-100	日立製作所	CC BY-NC-SA 4.0	◯ ⁶
Bandai Namco DistilBERT	DistilBERT	- （東北大BERT(base) を親モデルとして知識蒸留）	Bandai Namco Research	MIT	◯
LINE DistilBERT	DistilBERT	- （LINE社内のBERTを親モデルとして知識蒸留）	LINE	Apache 2.0	◯
rinna RoBERTa	RoBERTa (base)	日本語 Wikipedia + Japanese CC-100	rinna	MIT	◯
早大RoBERTa	RoBERTa (base, large)	日本語 Wikipedia + Japanese CC-100	早大河原研	CC BY-SA 4.0	◯ (base, large, large (seq512)) ⁷
インフォマティクスRoBERTa	RoBERTa (base)	日本語 Wikipedia + Web 上の記事 (計25GB)	インフォマティクス	Apache 2.0	△
京大RoBERTa	RoBERTa (base, large)	日本語 Wikipedia + Japanese CC-100	京大言語メディア研究室	CC BY-SA 4.0	◯ (base (文字レベル), large (文字レベル))
横浜国大RoBERTa	RoBERTa (base)	日本語 Wikipedia (3.45GB)	横浜国大森研	Apache 2.0	◯
Megagon Labs RoBERTa	RoBERTa (base) ⁸	Japanese mC4 (約2億文)	Megagon Labs (リクルート)	MIT	◯
ACCMS RoBERTa	RoBERTa (base)	日本語 Wikipedia (3.3GB) + Japanese CC-100 (70GB)	京大 ACCMS	CC BY-SA 4.0	◯
シナモンELECTRA	ELECTRA (small)	日本語 Wikipedia	シナモン	Apache 2.0	◯
Megagon Labs ELECTRA	ELECTRA (base)	Japanese mC4 (約2億文)	Megagon Labs (リクルート)	MIT	◯
東大ELECTRA	ELECTRA (small, base)	日本語 Wikipedia (約2,000万文 (2.9GB))	東大和泉研	CC BY-SA 4.0	◯ (small, base)
日本語RoFormer	RoFormer (base)	日本語 Wikipedia (3.45GB)	横浜国大森研	Apache 2.0	◯
日本語LUKE	LUKE (base, large)	日本語 Wikipedia	Studio Ousia	Apache 2.0	◯ (base, large)
京大DeBERTaV2	DeBERTaV2 (tiny, base, large)	日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR （計171GB）	京大言語メディア研究室	CC BY-SA 4.0	◯ (tiny, tiny (文字レベル), base, large)
東大DeBERTaV2	DeBERTaV2 (small, base)	日本語 Wikipedia, 日本語 Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR （baseモデルでは日本語の決算短信、有価証券報告書、ニュース記事で追加学習）	東大和泉研	CC BY-SA 4.0	◯ (small, base)
日本語BigBird	BigBird (base)	日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR	早大河原研	CC BY-SA 4.0	◯

ドメイン特化型

	モデル	学習テキスト	開発元	ライセンス	HuggingFace ですぐ使える？
日本語ニュースBERT	BERT (base)	日本語ビジネスニュース記事(300万記事)	ストックマーク	CC BY 4.0	△
日本語ニュースXLNet	XLNet (base)	日本語ビジネスニュース記事(300万記事)	ストックマーク	？	※ 非公式の HuggingFace 向けに変換されたモデルが公開されている
日本語ニュースALBERT	ALBERT (base)	日本語ビジネスニュース記事(300万記事)	ストックマーク	？	△
Laboro BERT	BERT (base, large)	日本語 Web コーパス (ニュースサイトやブログなど計4,307のWebサイト、2,605,280ページ (12GB))	Laboro.AI	CC BY-NC 4.0	✕
Laboro DistilBERT	DistilBERT	- （Laboro BERT(base) を親モデルとして知識蒸留）	Laboro.AI	CC BY-NC 4.0	◯
日本語ブログELECTRA	ELECTRA (small)	日本語ブログコーパス（3億5,400万文）	北見工大桝井・プタシンスキ研	CC BY-SA 4.0	◯
日本語話し言葉BERT	BERT (base)	東北大BERTに対して日本語話し言葉コーパス（CSJ）を用いて追加学習（DAPTモデルでは国会議事録データも使用）	レトリバ	Apache 2.0	◯
日本語金融BERT	BERT (small, base) ⁹	日本語 Wikipedia + 日本語金融コーパス (約2,700万文 (5.2GB))	東大和泉研	CC BY-SA 4.0	◯ (small, base)
日本語金融ELECTRA	ELECTRA (small)	日本語 Wikipedia (約2,000万文 (2.9GB)) + 日本語金融コーパス (約2,700万文 (5.2GB))	東大和泉研	CC BY-SA 4.0	◯
UTH-BERT	BERT (base)	日本語診療記録(約1億2,000万行)	東大病院医療AI開発学講座	CC BY-NC-SA 4.0	△
medBERTjp	BERT (base)	日本語 Wikipedia + 日本語医療コーパス（『今日の診療プレミアム』Web版）	阪大病院医療情報学研究室	CC BY-NC-SA 4.0	△
JMedRoBERTa	RoBERTa (base)	日本語医学論文 (約1,100万文 (1.8GB))	東大相澤研	CC BY-NC-SA 4.0	◯ (万病WordPiece, SentencePiece) ¹⁰
AcademicRoBERTa	RoBERTa (base)	CiNii の日本語論文 (約628万文)	愛媛大人工知能研究室	Apache 2.0	◯

埋め込み (Embeddings) 作成に特化したモデル

	モデル	開発元	ライセンス
colorfulscoop/sbert-base-ja	Sentence-BERT	Colorful Scoop	CC BY-SA 4.0
MU-Kindai/SBERT-JSNLI-base MU-Kindai/SBERT-JSNLI-large	Sentence-BERT	近畿大学 (研究室不明)	？
MU-Kindai/Japanese-SimCSE-BERT-base-unsup MU-Kindai/Japanese-SimCSE-BERT-large-unsup MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup MU-Kindai/Japanese-SimCSE-BERT-base-sup MU-Kindai/Japanese-SimCSE-BERT-large-sup	SimCSE	近畿大学 (研究室不明)	MIT
pkshatech/simcse-ja-bert-base-clcmlp	SimCSE	PKSHA Technology	CC BY-SA 4.0
cl-nagoya/unsup-simcse-ja-base cl-nagoya/unsup-simcse-ja-large cl-nagoya/sup-simcse-ja-base cl-nagoya/sup-simcse-ja-large	SimCSE	名大武田・笹野研	CC BY-SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base MU-Kindai/Japanese-MixCSE-BERT-large	MixCSE	近畿大学 (研究室不明)	MIT
MU-Kindai/Japanese-DiffCSE-BERT-base	DiffCSE	近畿大学 (研究室不明)	MIT
pkshatech/GLuCoSE-base-ja	LUKE ベースの文埋め込みモデル	PKSHA Technology	Apache 2.0

視覚言語モデル (Vision-Language Models)

画像を含むテキスト生成

	モデル	学習画像/テキスト	開発元	ライセンス	HuggingFace ですぐ使える？
Heron	BLIP または GIT	LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset	Turing	CC BY-NC 4.0	◯ (blip-ja-stablelm-base-7b-v0, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0)
Japanese InstructBLIP Alpha	InstructBLIP	Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset	Stability AI	独自のライセンス	◯
rinna MiniGPT-4 ¹¹	MiniGPT-4	CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset	rinna	MIT	◯

その他

	モデル	学習画像/テキスト	開発元	ライセンス	HuggingFace ですぐ使える？
日本語CLIP	CLIP (画像エンコーダは google/vit-base-patch16-224 で重みが初期化された ViT-B/16、テキストエンコーダは rinna RoBERTa で重みが初期化された RoBERTa(base))	CC12M のキャプションを日本語に翻訳したもの	rinna	Apache 2.0	◯
日本語CLOOB	CLOOB (画像エンコーダは google/vit-base-patch16-224 で重みが初期化された ViT-B/16、テキストエンコーダは rinna RoBERTa で重みが初期化された RoBERTa(base))	CC12M のキャプションを日本語に翻訳したもの	rinna	Apache 2.0	◯
日本語 Stable Diffusion	Stable Diffusion (最初にテキストエンコーダのみ日本語キャプション付き画像を用いて追加学習を行い、次にテキストエンコーダと生成モデルのパラメータを同時に更新する追加学習を行う)	LAION-5B データセットのうちキャプションが日本語のもの（画像約 1 億枚）	rinna	CreativeML OpenRAIL-M License	◯

日本語LLM評価ベンチマーク/データセットまとめ

基礎的な自然言語理解 (NLU) を中心に測定するベンチマーク/データセット

llm-jp-eval リーダーボード (LLM-jp)
- 複数のデータセットを横断して日本語 LLM を自動評価する llm-jp-eval スクリプトの結果をまとめている。LLM-jp-13B 公開時点で Jamp, JaNLI, JCommonsenseQA, JEMHopQA, JNLI, JSeM, JSICK, JSQuAD, JSTS, NIILC の評価結果が掲載されている
JGLUE (早大河原研 & ヤフー)
- GLUE ベンチマークの日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む（JCoLA は東大大関研により作成）。各タスクの詳細はこちらやこちらを参照
JP Language Model Evaluation Harness (Stability AI)
- Stability AI による EleutherAI/lm-evaluation-harness のフォーク。JGLUE を含む様々な日本語タスクに対するモデルの few-shot 評価をまとめている
- rinna による詳細な評価結果まとめがある: [rinna] Benchmark of Stability-AI/lm-evaluation-harness
Nejumi LLMリーダーボード (Weights & Biases)
- JGLUE に対するモデルの zero-shot 評価をまとめている

人間らしい応答の生成能力を中心に測定するベンチマーク/データセット

Rakuda Benchmark (YuzuAI)
- 日本の地理、歴史、政治、社会に関する40問の自由質問に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う
ELYZA-tasks-100 (ELYZA)
- 複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。
  要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。
  モデルの評価結果はこちらやこちらを参照
Japanese MT-bench (Stability AI)
- マルチターン会話能力を問う MT-bench の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。
  GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。評価結果は以下の shi3z 氏によるまとめ記事が詳しい：無償LLM 日本語能力ベンチマークまとめ
Japanese Vicuna QA Benchmark (京大言語メディア研究室)
- MT-Bench の前身である vicuna-blog-eval の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価（勝率計算）のスクリプトも含まれている。
Stockmark Business Questions (ストックマーク)
- 市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。

各モデルの原論文

モデル名	初出時期	会議/ジャーナル	論文
Transformer	2017.06.12	NIPS(NeurIPS) 2017	Attention Is All You Need
GPT	2018.06.11	-	Improving Language Understanding by Generative Pre-Training
BERT	2018.10.11	NAACL 2019	BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
GPT-2	2019.02.14	-	Language Models are Unsupervised Multitask Learners
XLNet	2019.06.19	NeurIPS 2019	XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa	2019.07.26	-	RoBERTa: A Robustly Optimized BERT Pretraining Approach
ALBERT	2019.09.26	ICLR 2020	ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
DistilBERT	2019.10.02	EMC2 Workshop at NeurIPS 2019	DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
T5	2019.10.23	JMLR 2020	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
BART	2019.10.29	ACL 2020	BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
ELECTRA	2020.03.23	ICLR 2020	ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
GPT-3	2020.05.28	NeurIPS 2020	Language Models are Few-Shot Learners
DeBERTa	2020.06.05	ICLR 2021	DeBERTa: Decoding-enhanced BERT with Disentangled Attention
BigBird	2020.07.28	NeurIPS 2020	Big Bird: Transformers for Longer Sequences
LUKE	2020.10.02	EMNLP 2020	LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention
CLIP	2021.02.26	ICML 2021	Learning Transferable Visual Models From Natural Language Supervision
RoFormer	2021.04.20	-	RoFormer: Enhanced Transformer with Rotary Position Embedding
CLOOB	2021.10.21	NeurIPS 2022	CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
Stable Diffusion	2021.12.20	CVPR 2022	High-Resolution Image Synthesis With Latent Diffusion Models
BLIP	2022.01.28	ICML 2022	BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
InstructGPT	2022.03.04	NeurIPS 2022	Training language models to follow instructions with human feedback
GPT-NeoX	2022.04.14	BigScience Research Workshop at ACL 2022	GPT-NeoX-20B: An Open-Source Autoregressive Language Model
GIT	2022.05.27	TMLR 2022	GIT: A Generative Image-to-text Transformer for Vision and Language
BLIP-2	2023.01.30	ICML 2023	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Llama	2023.02.27	-	LLaMA: Open and Efficient Foundation Language Models
GPT-4	2023.03.15	-	GPT-4 Technical Report
MiniGPT-4	2023.04.20	-	MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
InstructBLIP	2023.05.11	-	InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
RWKV	2023.05.22	-	RWKV: Reinventing RNNs for the Transformer Era
Llama 2	2023.07.18	-	Llama 2: Open Foundation and Fine-Tuned Chat Models

コントリビューター

このプロジェクトに貢献してくれているコントリビューターのみなさんです！

ただし、モデル高速化のため本家の Llama に対してアーキテクチャの変更を加えている。詳しくは以下を参照: PLaMo-13Bを公開しました ↩
詳細は明記されていないが、プレスリリースには以下のような記述がある: 『学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。』 ↩
通常の左から右に単語を予測する代わりに、右から左に単語を予測するように訓練された言語モデルの評価を行った研究である。通常方向の言語モデルと逆方向の言語モデルの両方が公開されている。 ↩
実質的な開発者は代表を勤める大曽根宏幸氏（個人ページのリンク）で、AI Buncho の運営も行っている ↩
○: HuggingFace の Model Hub にモデルがアップロードされており、AutoModel.from_pretrained() 等ですぐ読み込める。 △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している。✕: モデルがHuggingFaceに対応していない。 ↩
様々な形態素解析器とサブワード化手法の組み合わせを試した研究である。全ての組み合わせのモデルを掲載するのは大変なので、ここでは実験で最も平均のタスク性能が高い Juman++ + BPE のモデルを代表として掲載している。 ↩
nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している ↩
ただし、最大系列長が通常の 512 から 1282 まで拡張されており、より長い入力文を扱うことができる ↩
small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある ↩
万病WordPieceモデルは MeCab (IPA辞書+万病辞書) で単語分割した後 WordPiece でサブワード化するモデル、SentencePieceモデルは単語分割せずに直接 Unigram でサブワード化するモデル ↩
以下の記事が詳しい（この記事での MiniGPT-4 の実装例は LLM 部分を rinna/bilingual-gpt-neox-4b ではなく rinna/japanese-gpt-neox-3.6b としている点に注意）: Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る ↩

vice777 / awesome-japanese-llm Goto Github PK

awesome-japanese-llm's Introduction

日本語LLMまとめ

目次

テキスト生成に主に使うモデル

フルスクラッチ事前学習モデル

汎用

ドメイン特化型

英語モデルに日本語で追加事前学習を行ったモデル

汎用

ドメイン特化型

英語モデルに日本語で指示学習 (Instruction Tuning) のみ行ったモデル

汎用

ドメイン特化型

入力テキストの処理に主に使うモデル

汎用

ドメイン特化型

埋め込み (Embeddings) 作成に特化したモデル

視覚言語モデル (Vision-Language Models)

画像を含むテキスト生成

その他

日本語LLM評価ベンチマーク/データセットまとめ

基礎的な自然言語理解 (NLU) を中心に測定するベンチマーク/データセット

人間らしい応答の生成能力を中心に測定するベンチマーク/データセット

各モデルの原論文

コントリビューター

Footnotes

awesome-japanese-llm's People

Contributors

Stargazers

Recommend Projects

Recommend Topics

Recommend Org