Giter Club home page Giter Club logo

sakura-13b-galgame's Introduction

Sakura-13B-Galgame

🤗 Hugging Face • 🤖 ModelScope

介绍

  • 基于一系列开源大模型构建,在通用日文语料与轻小说/Galgame等领域的中日语料上进行继续预训练与微调,旨在提供性能接近GPT3.5且完全离线的Galgame/轻小说翻译大语言模型。

  • 同时提供了运行模型的API后端,适配OpenAI API格式。

  • 新建了TG交流群,欢迎交流讨论。

如果使用模型翻译并发布,请在最显眼的位置标注机翻!!!!!开发者对于滥用本模型造成的一切后果不负任何责任。

对于模型翻译的人称代词问题(错用,乱加,主宾混淆,男女不分等)和上下文理解问题,如果有好的想法或建议,欢迎提issue!

快速开始

详见本仓库Wiki.

News

  1. 预览版v0.9.0pre2模型发布。该版本模型只是预览版本,目前可能仍存在问题。修复了上一预览版本短文本退化的问题。

  2. 网站:轻小说机翻机器人已接入Sakura模型(v0.8-4bit),站内有大量模型翻译结果可供参考。你也可以自行部署模型并使用该网站生成机翻,目前已经支持v0.8与v0.9模型,且提供了llama.cpp一键包。

    轻小说机翻机器人网站是一个自动生成轻小说机翻并分享的网站。你可以浏览日文网络小说,或者上传Epub/Txt文件,并生成机翻。

  3. LunaTranslator已经支持Sakura API,可以通过本地部署API后端,并在LunaTranslator中配置Sakura API来使用Sakura模型翻译Galgame。

    LunaTranslator是一个Galgame翻译工具,支持剪贴板、OCR、HOOK,支持40余种翻译引擎。

模型下载:

版本 全量模型 GPTQ 8bit量化 GPTQ 4bit量化 GPTQ 3bit量化 GGUF与量化 AWQ量化
20231026-v0.8 🤗 Sakura-13B-LNovel-v0.8 🤗 Sakura-13B-LNovel-v0_8-8bit 🤗 Sakura-13B-LNovel-v0_8-4bit 🤗 Sakura-13B-LNovel-v0_8-3bit 🤗 Sakura-13B-LNovel-v0_8-GGUF 🤗 Sakura-13B-LNovel-v0_8-AWQ
20231125-v0.9.0pre2 🤗 Sakura-13B-LNovel-v0.9.0pre2 - - - 🤗 Sakura-13B-LNovel-v0.9.0pre2-GGUF -

目前仍为实验版本,翻译质量在文风与流畅度上强于GPT-3.5,但词汇量逊于GPT-3.5. 个人使用推荐GPT4.

TODO

  • dev_server分支合并到主分支,并将api格式改为openai like api格式。
  • 支持多种后端至v0.9
    • llama.cpp server
    • llama-cpp-python
    • autogptq
    • llm-sharp
  • 适配翻译工具
    • LunaTranslator
    • GalTransl
    • BallonsTranslator
  • 提供Python部署一键包
  • 发布v0.9模型
  • ~7B模型测试
  • ~30B模型测试

显存需求

下面的表格显示了使用不同量化和不同格式的模型时显存占用的大小。如果你的显卡显存不满足上述需求,可以尝试同时使用CPU与GPU进行推理。

  • llama.cpp GGUF模型(使用v0.9.0pre1模型进行测试,v0.8模型与其类似)
模型量化类型 模型大小 推荐显存大小
fp16 26.3G 超出游戏显卡显存范围
Q8_0 14G 24G
Q6_K 11.4G 20G
Q5_K_M 10.1G 16G
Q4_K_M 8.8G 16G
Q3_K_M 7.2G 16G
Q2_K 6.1G 12G
  • transformers autogptq模型(使用v0.8版本进行测试)
模型量化类型 推理显存(ctx约600) 推理显存(ctx约1800)
全量 超出游戏显卡显存范围 超出游戏显卡显存范围
8bit 21.1G 23.4G
4bit 14.9G 17.4G
3bit 13.7G 15.5G

日志

20231125: 上传第六版模型预览,改善数据集质量与格式,使用Qwen-14B-Chat模型进行继续预训练+微调,增加数据集。

20231026:上传第五版模型sakura-13b-2epoch-3.8M-1025-v0.8,改善数据集质量与格式,修复之前版本模型无法正确解析\n的问题,使用Baichuan2-13B-Chat模型进行微调。

20231011:上传第四版模型sakura-14b-2epoch-4.4M-1003-v0.7,改用QWen-14B-Chat模型进行微调,针对较长文本进行优化,增加数据集。

20230918:上传第三版模型的8bits量化版sakura-13b-2epoch-2.6M-0917-v0.5-8bits

20230917:上传第三版模型sakura-13b-2epoch-2.6M-0917-v0.5,改用Baichuan2-13B-Chat模型进行微调,翻译质量有所提高。

20230908:上传第二版模型sakura-13b-1epoch-2.6M-0903-v0.4,使用Galgame和轻小说数据集进行微调,语法能力有所提高。感谢CjangCjengh大佬提供轻小说数据集。

20230827:上传第一版模型sakura-13b-2epoch-260k-0826-v0.1

模型详情

描述

效果

  • Galgame

    TBD

  • 轻小说

    网站:轻小说机翻机器人已接入Sakura模型(v0.8-4bit),站内有大量模型翻译的轻小说可供参考。

  • PPL/BLEU/Human

    TBD

推理

  • prompt构建:

    • v0.8

      input_text = "" # 要翻译的日文
      query = "将下面的日文文本翻译成中文:" + input_text
      prompt = "<reserved_106>" + query + "<reserved_107>"
    • v0.9

      input_text = "" # 要翻译的日文
      query = "将下面的日文文本翻译成中文:" + input_text
      prompt = "<|im_start|>system\n你是一个轻小说翻译模型,可以流畅通顺地以日本轻小说的风格将日文翻译成简体中文,并联系上下文正确使用人称代词,不擅自添加原文中没有的代词。<|im_end|>\n<|im_start|>user\n" + query + "<|im_end|>\n<|im_start|>assistant\n"
  • 推理与解码参数:

参数
temperature 0.1
top p 0.3
do sample True
beams number 1
repetition penalty 1
max new token 512
min new token 1

如出现退化,可增加frequency_penalty参数,并设置为大于0的某值,一般设置0.05~0.2即可。

微调

模型微调框架参考BELLELLaMA-Factory,prompt构造参考推理部分。

致谢

Copyright Notice

v0.8版本模型的使用须遵守Apache 2.0《Baichuan 2 模型社区许可协议》

v0.9版本模型的使用须遵守Qwen模型许可协议

sakura-13b-galgame's People

Contributors

cjangcjengh avatar kurikomoe avatar pipixia244 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.