Giter Club home page Giter Club logo

auto_anno's Introduction

auto_anno

中文 | English

一个基于大模型的将输入文本做文本分类,实体抽取并翻译成中文的AI辅助自动标注项目。

基础能力

NLP

  • 文本分类:情感分类、新闻分类、意图识别等
  • 实体抽取:地址抽取、人物抽取等,name, type, start~end
  • 文本翻译:支持批量英中翻译,英文数据集转中文数据集
  • 聚类择优:根据向量聚类,返回聚类中心点数据,减少标注工作
  • 数据生成:支持根据类别,生成文本数据,扩充数据集

CV

  • 目标检测:支持通用目标检测,并已对接 whale-anno 支持可视化标注

体验地址

https://aistudio.baidu.com/serving/app/6566/

支持模型

OpenAI-api、ChatGLM、文心一言-千帆api、讯飞星火-SparkApi

以上模型均已支持,在 local_config.py 中填入对应的 key 或 url 即可使用

快速使用

本地启动

git clone https://github.com/LLMLab/auto_anno.git
cd auto_anno
python app.gradio.py

通过pip包

安装最新 auto_anno_2 包

pip install auto_anno_2 -U -i https://pypi.org/simple

调用示例

import auto_anno_2 as aa2
# 接口默认使用了文心一言,可从 https://aistudio.baidu.com/usercenter/token 免费获取100万token额度
aa2.config['aistudio']['access_token'] = 'c2f3d3e94aad0b2cebef05ea46fe92bd59fce31f'
aa2.cls('今天会下雨么?', ['天气查询', '股票查询', '其他']) # 文本分类
# ['天气查询']
aa2.ner('茅台今天会涨么?', ['股票名称']) # 实体抽取
# [{'name': '茅台', 'type': '股票名称', 'start': 0, 'end': 2}]
aa2.gen(['天气查询', '股票查询']) # 数据生成
# [['明天北京的天气怎么样?', ['天气查询']], ['上海股市大盘走势图今天有什么变化?', ['股票查询']], ['最近一段时间天气是晴朗还是多云?', ['天气查询']], ['美国股市纳斯达克指数现在的行情如何?', ['股票查询']], ['未来一周广州的天气预报已经发布了吗?', ['天气查询']], ['阿里巴巴的股票价格涨了还是跌了?', ['股票查询']], ['明天上海的气温会降到零下五度吗?', ['天气查询']], ['腾讯控股的股票可以买还是应该卖?', ['股票查询']], ['下周武汉的天气预报是否有雨?', ['天气查询']], ['苹果公司的股票收益在过去一年中如何?', ['股票查询']]]

版本更新

2023-09-24 🔥 auto_anno_2 pip包上线

2023-09-04 💦 开始用A100训练通用分类大模型

2023-08-31 💥 完成整理98.4万条通用格式分类、抽取数据

2023-08-18 🔥 通用的基础目标检测

2023-08-10 🔥 已标注相似数据的 few-shot

...

2023-05-08 ⭐ 项目立项,增加第一行代码,项目配置

后续计划

  • 打通 DataWhale 的开源标注工具 whale-anno,用于数据的人工修正

  • 训练用于 NLP、CV 相关标注的基础大模型,能更好地减少数据重复标注、提升标注效率、聚焦重点数据;

    • 收集近100万公开NLP数据,并转为通用格式
    • 训练分类、实体抽取模型(分类训练中)
    • 尝试训练 few-shot 任务
    • 尝试蒸馏成百兆小模型,适用本地CPU推理
    • 测试效果
  • 寻求机会和更多真实场景合作开发,探索更多的可能;

已达成就

2023-08-12 获得 百度2023大模型应用创新挑战赛 应用赛道 三等奖

2023-05-19 获得 DataWhale AIGC 主题 ChatGPT 从入门到应用 最佳应用奖

贡献名单

职责 名单
小组长 马琦钧
主动学习 小驰同学
文本分类 Prompt の男、Cyfee、S13D
实体抽取 Prompt KenFurong、log23
聚类择优 小驰同学马琦钧
文本翻译、数据生成 马琦钧
目标检测 の男、马琦钧
文档管理 Jun、S13D
ChatGLM、VisualGLM 探索 Mike

auto_anno's People

Contributors

skypow2012 avatar zsc19 avatar yqm0nk3y avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.