yaoguangluo / deta_parser Goto Github PK

View Code? Open in Web Editor NEW

480.0 21.0 90.0 7.57 MB

快速中文分词分析word segmentation

License: GNU General Public License v2.0

Java 100.00%

orthor nero nlp pos eculid binary forest parser vpc hmm

deta_parser's Introduction

最新见 https://github.com/yaoguangluo/ChromosomeDNA （目前分词速度每秒1630万中文字峰值。）

(早期接触申请软著,以为申请软著就是发表,结果找华夏知识产权写了已经发表,这里永久申明下.)

用户使用如果遇纠纷法院热线电话 12368, 公安电话号码110, 国外请咨询当地法院与公安部部门

<<100%(首创)个人著作权开源项目软著登字第3951366号>>🔥26,000/ms word segment for text mining of NLP, POS, AI and Deep learning/每秒中文混合分词2200~3000万词汇的高精准确率快速神经网络分词包. 训练词意分析, 词感分析, 词境分析, 词灵分析并自由扩充词库免费的官方互动展示页地址: http://tinos.qicp.vip/data.html

项目使用说明书 10.6.1版本地址:

https://github.com/yaoguangluo/AOPM_VPCS_Theroy/blob/master/%E6%B5%8F%E9%98%B3%E5%BE%B7%E5%A1%94%E8%BD%AF%E4%BB%B6%E5%BC%80%E5%8F%91%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8%20%E8%AF%AD%E8%A8%80%E5%9B%BE%E7%81%B5%E5%B7%A5%E7%A8%8BAPI%E8%AF%B4%E6%98%8E%E4%B9%A6_10_6_1_5.doc

版本号：11.1.1 : 4字词卷积催化函数准备整体卡诺图化简, 和PCA阀门优化. 2019-05-23 字长卷积小表已经应用了(新增4表). 2019-05-27 0:11 M

版本号：11.1.0: 随机测试文章来自 360八卦新闻推荐, 腾讯门户, 163门户等,总计110多篇文章, 约5万字, 算法问题导致错误分词1个(错误率十万分之三),词库缺少导致错误7个(错误率万分之三), <中文分析错误率小于亿分之一> 是一个艰巨的主题. 算法问题的扩充时时更新在 HUB上.2019-05-25 22:48 M

版本号：11.1.0 快速歧义病句混合分词支持标点符号分离(因为标点特别多, 未做病句标点分析, 大家可以自由改 2019-05-14) 契形字符, 目前可混合识别 12国语言, 可混合分词70国语言(契形+中(简,繁)日,韩,象形, 无标点,歧义,绕口令,带病句快速混分高质量算法研究同时保证1800万+/每秒混分速度和99.9%分词准确率(deta的科研目标是准确率上99.999999% (中文分析错误率小于亿分之一)) 和商业闭源语料库版(65000+中文简体词汇和35万12国词汇). 20190504

准备添加德塔处理人名的函数. 因为标点符号不是德塔研发设计的, 引用添加在如下另外一工程链接:refer https://github.com/yaoguangluo/Data_Processor/tree/master/DP/NLPProcessor

德塔类人机器人 Tin 先生准备开始工作了.deta机器人Tin先生呢在0.0.0.0, 到255.255.255.255 的ip集合中一个一个子html页面爬出中文信息进行分词扩充自己词汇. 非常感谢各类作文网, 文学论坛, 博客媒体, 新闻门户,提供了准确用词的文章,避免Tin先生分词工作犯错误.

德塔类人机器人 Tin 先生已经学会如何自主分词了,再也不用作者进行一个词一个手工添加了 20190427.生命特征健康,20190428

中文分词算法原理已经公布: #21

主题一：词意

已完成功能： คลังข้อความภาษาไทยขนาดใหญ่สำหรับการปรับรุ่นเสร็จสมบูรณ์。

已完成功能： Cơ sở dữ liệu tiếng việt chuẩn hoàn thành, không tối ưu hóa phiên bản。

已完成功能： Rumah corpus indonesia selesai. Versi tak dioptimalkan。

已完成功能： Die deutsche sprachdatenbank wurde nicht geändert.

已完成功能： أُنجزت نسخة غير معدلة من قاعدة المفردات المتخصصة باللغة العربية

已完成功能： Versión no detectada del corpus español completa。

已完成功能： 한국의 언어 자재 고는 이미 완벽하다。

已完成功能：日本语のデータベースはすでに第1版が完成しました。

已完成功能： Le corpus français est terminé A1, A2, A3, A4, B1, B2。

1 ： The first unrevised version has been completed: 12 professional level corpora of Chinese, Chinese pinyin, French, German, Korean, Japanese, Spanish, Russian, indonesia , Arabic, Vietnam and Thailand languages.

2 ：第1版未修正版:**、フランス、ドイツ、韩国、日本、スペイン、ロシア、アラビア语8种类の専门レベルの言语データベースが完成した。

3 ： 이미 제1 판의 수정되지 않은 수정판은 중국, 프랑스, 독일, 한국, 일본, 서부, 로씨야, 아랍어 등 8개 전업급 언어자료창고이다.

4 ： La première édition n’a pas été modifiée: le corpus des langues chinoise, française, allemande, coréenne, japonaise, occidentale, russe et arabe.

5 ： Die erste unänderte fassung der ersten ausgabe wurde abgeschlossen: in der mitte, frankreich, korea, japan, russland, dem 8. Sprachzentrum auf hoher ebene

6 ： Завершено первое неисправленное издание: Китай, Франция, Германия, хан, Япония, западная, российская и арабская языки, восемь специализированных корпусов.

7 ： Se han completado las primeras ediciones sin modificaciones: el corpus juris de 8 niveles profesionales en idiomas chino, francés, alemán, coreano, japonés, occidental, ruso y árabe.

8 ： وقد اكتملت الطبعة الأولى من دون تعديل، وهي مجموعة من ثماني مجموعات متخصصة من اللغات الإسبانية والفرنسية والألمانية والورية واليابانية والغربية والروسية.

9 ： Rumah corpus indonesia selesai. Versi tak dioptimalkan。

10 ： Cơ sở dữ liệu tiếng việt chuẩn hoàn thành, không tối ưu hóa phiên bản。

11 ： คลังข้อความภาษาไทยขนาดใหญ่สำหรับการปรับรุ่นเสร็จสมบูรณ์。

已完成功能：首次采用《VPC架构》海量线程注册保证调用函数速度。功能作者：罗瑶光

已完成功能：支持海量并发运算，后端接口调用运算，纯全虚接口同步运算。功能作者：罗瑶光

已完成功能：经过SONAR 最高级认证（感知最高认证，语义最高认证，语法最高认证，行为最高认证，逻辑最高认证）。功能作者：罗瑶光

已完成功能：扩展词语非常简单：基于《格式化线性语料库》。功能作者：罗瑶光

已完成功能：查询词语非常方便：基于《离散森林网络加权字典递归索引》。功能作者：罗瑶光

已完成功能：搜索词语非常迅捷：基于《2分法搜索欧基里德距离进行位运算散列存储字符集数据森林》。功能作者：罗瑶光

已完成功能：匹配词语非常精准：基于《决策树深度 NLP 正向隐马可夫匹配》。功能作者：罗瑶光

已完成功能：词频统计接近光速：基于《线性科学最强的快排第6代的基础上作者进行以作者名字命名的小高峰过滤法修正算法，导致快排6的速度再翻2倍》。 (词频统计非线性排序算法已经更新了罗瑶光小高峰过滤快排三代. 2019-04-23)

已完成功能：速度：每秒高达2200万(201904012)中文简体字准确分词。因为通过国际SONAR最高认证，牺牲了程序执行时间十分之三的速度效率（自行修改去掉sonar认知模式可达3000万字分词每秒，性能比应该是世界第二，世界第一赠给高斯林先生，因为我用的是java，没办法）。测试环境（win7， 64位， 16g ram，intel i5-7500） 20181208 功能作者：罗瑶光

https://github.com/yaoguangluo/Deta_Parser/tree/master/wordSegment/org/tinos/test

已完成功能：中英混合分词。最高达到每秒2200万 ~ 2700万中英文混合常规格式分词。（每毫秒分22,000字+）20190412 功能作者：罗瑶光

已完成功能：速度每秒高达900万词语的中文词性索引。（Part Of Speech, POS），功能作者：罗瑶光

已完成功能：机制为分词和词性分析可拆分使用。采用一次实例，多并发执行**。功能作者：罗瑶光

已完成功能：词库：多达26300+的中文语料库精确简体中文词汇，有效的辨别新词。功能作者：罗瑶光

已完成功能：大小：55Kb。

已完成功能：多核模式：可以自己写 parallelStream() 函数去实现，jdk8以上已经支持, CogsBinaryForestAnalyzer 支持海量多核多线程并发安全。功能作者：罗瑶光

已完成功能：安全：VPC架构采用纯虚函数做反向映射跳过IOC，效率增加，线程安全高度严格保障。功能作者：罗瑶光

已完成功能：部分中文短句翻译英语。功能作者：罗瑶光

已完成功能：中英混合分词。最高达到每秒2200万 ~ 3000万中英文混合常规格式分词。功能作者：罗瑶光

已完成功能：病句中乱码分析。功能作者：罗瑶光

已完成功能： VPC进化到VPCS, 静态分流加速每秒又多增100万分词。功能作者：罗瑶光

已完成功能：12国语言翻译词汇录入系统。 Mr.Yaoguang.Luo 20190310 功能作者：罗瑶光

第一次语料库森林进行序列化优化已完成（分词速度提高1.5%），导致ICA内核生成速度翻倍。20190320 功能作者罗瑶光。

逐步完善歧义,复杂,病句,******（当年用360搜索一把文章来测试分词，都是一些乱七八糟的八卦新闻病句文字）句型的分词.感谢测试用例病句提供者如下:

https://github.com/yaoguangluo/Deta_Parser/blob/master/wordSegment/org/tinos/test/DemoPOS.java (https://blog.csdn.net/dreamz*************ls/88108568 https://my.oschina.*************135746) 道德清洗中. 对曾经提供负面的歧义病句的单位表示感谢同时表示道歉,这里链接过滤了.

主题二：词感

德塔意识图灵机项目已经启动。 20190313 功能作者：罗瑶光

ICA 内核训练集生成算法优化。20190317 功能作者：罗瑶光

基于贝叶斯统计RNN函数集，通过频率排序进行函数校准，并进行动词的特殊用法修正。20190319 功能作者罗瑶光

一种罗氏教育评估图灵机1.0如下：基于ANN的训练形谓词比的核心率进行贝叶斯结果分析。20190323 功能作者罗瑶光。

已完成功能：病句分析非常完善：基于《双向马可夫词性 POS 打分修正策略》。功能作者：罗瑶光

已完成功能：情感语料库第一版本未修正版本。 Mr.Yaoguang.Luo

注意1：该正面，褒义，负面，贬义，中性情感语料库有一定比重的表达作者的主观判断，比如思维误差，肯定环境，否定环境，哲学精神论等，如果引起不适，请慎重使用和借鉴修改。如果该情感库对第三方导致任何工程问题，作者不做任何解释和负法律责任。注意2: 因为关键字和形谓词模型的应用不确定性，意识和社会形态的溯源问题以及字典理解的误差率，该情感语料库不做任何解释在基于法律与道德的临界线区分应用上。注意3: 多语意识场合，该情态库不做任何情形分类评估标准，也不做引导性评估。

基于 HMM matrix 进行nomarlization 然后做未优化的 ANN 简单训练版本 map reduce 测试。功能作者：罗瑶光

https://github.com/yaoguangluo/Deta_Parser/blob/master/sensingMap/org/tinos/sensing/test/ANNTest.java

主题三：词境

基于环境，场合，动机，目的，倾向和预判评估进行自然语言第6感意识分析。功能作者：罗瑶光

https://github.com/yaoguangluo/Deta_Parser/blob/master/emotionMap/org/tinos/emotion/test/EnvironmentTest.java

Emotion Ratio Matrix for ANN ICA 6.th sensing test 功能作者：罗瑶光

https://github.com/yaoguangluo/Deta_Parser/blob/master/sensingMap/org/tinos/sensing/test/SensingTest.java

正在做功能：语言心理学读心术。功能作者：罗瑶光

正在做功能：动机判断的情态语料库。已经附带可运行实例地址如下。功能作者：罗瑶光

https://github.com/yaoguangluo/Deta_Parser/blob/master/emotionMap/org/tinos/emotion/test/EmotionTest.java

基于ICA做马可夫行为集合，通过误差容错率进行词性校准，找出副词特殊用法陷阱，并进行了修正。

https://github.com/yaoguangluo/Deta_Parser/blob/master/wordSegment/org/tinos/engine/pos/imp/POSControllerImp.java 20190318 功能作者罗瑶光

一种用于行为评估的罗氏多文本量子观测角度自适应行为ICA增量训练内核已经初步定义，之后开始做ICA + CNN内核计算.20190316

情感集图灵算子进行认知化。下一步进行带训练集意识加工处理为ICA做预处理。 20190315功能作者：罗瑶光

主题四：词灵

一种基于 ANN{Summing, Emotion, Motivation, Environment} * RNN{Covex, Euclid, POS} = DNN{LWA，Entropy} 罗氏读心术已经更新并进行了图灵算子优化。 20190314 功能作者：罗瑶光

https://github.com/yaoguangluo/Deta_Parser/blob/master/sensingMap/org/tinos/sensing/test/DNNTest.java

http://tinos.qicp.vip/data.html (德塔ANN 维度功能)

http://tinos.qicp.vip/data.html (德塔RNN 向量功能)

http://tinos.qicp.vip/data.html (德塔DNN 读心功能)

资本运作，消费评估，购买力分析的商业体系已经启动。 20190324 功能作者罗瑶光。

商业开发将在官方网站展示：http://tinos.qicp.vip/

Deta 中译英图灵项目已经启动.(谷歌,有道,百度等在语言句子翻译项目非常成功, 德塔不会将研究重心花在全文翻译领域. 中译英图灵项目主要用在多语意识分析子项目.)

https://github.com/yaoguangluo/Deta_Parser/blob/master/neroMap/org/tinos/test/DemoTSLT.java

功能：

正在做功能： Unit test case。

正在做功能：商业应用布局。

正完善功能所有代码进行文字描述，方便日后出版。作者要组织文字来描述当年为什么要这样写，写的时候遇到了什么困难，是怎么解决的，写的时候怎么思考，将来需要怎么优化等。

商品功能：英语复句翻译。

商品功能：英语特殊句型翻译。

商品功能：分词矫正识别。

商品功能：多语意识。

商品功能：信贷分析。

商品功能：风险分析。

商品功能：心理辅导。

商品功能：教育辅导。

商品功能：动机分析。

商品功能：股市数据分析.

商品功能：新闻,领导,总结广告用语分析。

商品功能：智力训练。

商品功能：刑事犯罪语录侦察。

商品功能：读心术。

商品功能：防骗术。

商品功能：行为图灵。

商品功能：支持训练。

商品功能：带变异性特征进化。

商品功能：新词搜索互联网更新词库功能。

商品功能：商业对象接口计划。

商品功能：线程分词的内存实时检测。

商品功能：等等。

使用方法：

1 支持 java JDK 8 以上，字符集UTF-8 就够了，不需要任何插件和资源包。

分词使用如下：

大家可以自由添加词汇，添加在 org/tinos/fhmm/imp/words.lyg文件里。语料库集合地址如下：

https://github.com/yaoguangluo/Deta_Parser/tree/master/wordSegment/org/tinos/ortho/fhmm/imp

可以看下org/tinos/test里面的例子。

//1 实例化

Analyzer analyzer = new CogsBinaryForestAnalyzerImp();  //哈希森林索引 多核多线程安全 支持并发

//2初始

	analyzer.init();

//3 创建字符串 utf 8

String ss = "如果从容易开始于是从容不迫天下等于是非常识时务必为俊杰沿海南方向逃跑他说的确实在理结婚的和尚未结婚的提高产品质量中外科学名著内科学是临床医学的基础    内科学作为临床医学的基础学科，重点论述人体各个系统各种疾病的病因、发病机制、临床表现、诊断、治疗与预防";

//4 执行

List<String> sets = analyzer.parserString(ss);

//5 输出

int j=0;
	for(int i = 0; i < sets.size(); i++){
		System.out.print(sets.get(i)+" | ");
		j++;
		if(j>25) {
			j=0;
			System.out.println("");
		}
	}

//6 效果

如果 | 从 | 容易 | 开始 | 于是 | 从容不迫 | 天下 | 等于 | 是非 | 常识 | 时务 | 必 | 为 | 俊杰 | 沿 | 海南 | 方向 | 逃跑 | 他 | 说的 | 确实 | 在理 | 结婚 | 的 | 和 | 尚未 | 结婚 | 的 | 提高 | 产品 | 质量 | 中外 |
科学 | 名著 | 内科学 | 是 | 临床 | 医学 | 的 | 基础 | | 内科学 | 作为 | 临床 | 医学 | 的 | 基础 | 学科 |
， | 重点 | 论述 | 人体 | 各个 | 系统 | 各种 | 疾病 | 的 | 病因 | 、 | 发病 | 机制 | 、 | 临床 | 表现 |
、 | 诊断 | 、 | 治疗 | 与 | 预防 |

POS 词性分析如下：

//1 实例化

	//Analyzer analyzer = new CogsBinaryForestAnalyzerImp();  //哈希森林索引 多核多线程安全 支持并发
	Analyzer analyzer = new BinaryForestAnalyzerImp();  //哈希森林索引 单线程
	//Analyzer analyzer = new FastAnalyzerImp();        //快速线性索引 单线程
	//Analyzer analyzer = new PrettyAnalyzerImp();      //线性森林索引 单线程
	//Analyzer analyzer = new BaseAnalyzerImp();        //一元线性索引
	//Analyzer analyzer = new ScoreAnalyzerImp();       //森林打分索引

//2初始

analyzer.init();
Map<String, String> pos = analyzer.getWord();

//3 创建字符串 utf 8

String ss = "他说的确实在理结婚的和尚未结婚的提高产品质量中外科学名著内科学是临床医学的基础    内科学作为临床医学的基础学科，重点论述人体各个系统各种疾病的病因、发病机制、临床表现、诊断、治疗与预防";

//4 执行

List<String> sets = analyzer.parserString(ss);

//5 输出

int j=0;
	for(int i = 0; i < sets.size(); i++){
		System.out.print(sets.get(i)+"/"+pos.get(sets.get(i)) +"  ");
		j++;
		if(j>8) {
			j=0;
			System.out.println("");
		}
	}

//6 效果：

他/人称代词说/动词的的确/副词实在/副词理/形谓词结婚/动词的/结构助词和/连词尚未/副词
结婚/动词的/结构助词提高/动词产品/名词质量/名词中外/名词科学/名词名著/名词内科学/名词
是/动词临床/名词医学/名词的/结构助词基础/名词内科学/名词作为/动词临床/名词医学/名词
的/结构助词基础/名词学科/名词，/标点重点/名词论述/名词人体/名词各个/限定词系统/名词
各种/名词疾病/名词的/结构助词病因/名词、/标点发病/动词机制/名词、/标点临床/名词
表现/名词、/标点诊断/名词、/标点治疗/动词与/连词预防/动词

感谢声明

1 感谢**复旦大学的FNLP人工智能团队。本人在设计数据字典扩充的时候应用其新词识别函数帮我节省了大量词语录入需花费的时间。

应用方法：本人用FNLP函数将文章中的词语将我分出词进行词性标注，得到的标注如果在我的词库里面没有出现，于是扩充在我的词库。特此声明。

2 谷歌翻译，百度翻译，有道翻译团队。本人在做多国语言翻译的时候应用其免费在线翻译网页进行词语翻译和矫正。减少大量词汇录入时间。

特别感谢有道翻译。

代码协作贡献者（协作者按代码百分比享有项目各种合法权益与收益）

尚无

第三方开源包的引用和修改

尚无

参与讨论者

LetWang（神州泰岳）在扩充词库量的方法上提出了很多新颖的意见。 1 建议我向搜狗等商业公司买词库。 2 建议我和开源的分词公司合作。 3 建议我招聘相关人员录入词库工作。

基于该分词系统的项目实例

有疑问联系[email protected] 作者：罗瑶光

电话 15116110525

谢谢！

2019/3/15

deta_parser's People

Contributors

Stargazers

Watchers

Forkers

ilbcj welcome21984 lichl9968 rongfachen gaoqiang123 rokilai jixu90hou jaeger1014 java-hycai bhaktirathod xulianbao arno2016 javafather lsq378397197 myoldfycy318 david8977 ckaesar langkun1216 bk201sama tu-rui xhh1314 chengm119 lxsnb wilnd bigwhiterice ligang-sun jhq9 connorlh xieqiong slowice sky-akuan scybernate laways imxxmhaha gpriego 18310130376 peinanwei tchigher youguifang sevenma fendaq joncv tealover longhronshen microphoneben yushu-liu afanger allensmile shannonyu chenhuimin lujunru lesamly giserh mokacao lijobs xpuliapushi huangshaoze hhy5277 lililisir rockystevejobs songxianjin jhz-wangbin benjamesbabala onexuan ls3050 awesome-archive edgeowner wanghaizhang jianchengss dorlan wangtuanjiegit xiaonan07 gavin0755 jinligen smileluo raystyle diffblue-benchmarks shalon heffie199 pengyuange angel8023 1-v-1 sanyuesiyuewuyue azraelrabbit whitewolfkings szl97 weexp yellowtao kevines xiaoguan521 iq-scm

deta_parser's Issues

每秒高达1300万中文简体字准确分词是在什么环境下测试得到的？

请问能否分享一下测试结果是在什么软硬件配置下实现的

Unit test ready to go at this week

德塔项目清洗计划开始

德塔的数据学习的很多,歧义,病句来源于互联网, 因为各种精神道德的地域性和观念冲突残酷性, 德塔有必要开始删除一些测试用句,尽管这些病句帮助德塔完善了一些语法, 德塔还是要删除, 因为以后作为教材出现在教科书中终归不好. .

华夏建议我将该作品从专利申请转为著作权申请, 本人感觉有点痛苦.

著作权是指公民、法人和其他组织对所创作的文学、艺术和科学领域内的作品依法享有的专有权利。专利权是指专利权人对其发明、实用新型和外观设计依法享有的专有权利。著作权和专利权的不同之处主要表现为: (1)保护的对象不同**。著作权保护的是作者**、情感和观点的表现形式，不保护**、情感和观点等内容本身，这些形式表现为小说、论文、电影、歌曲、图画等种类。**专利权保护的是发明创造，属于**、观点内容范围，包括发明、实用新型和外观设计三种类型，比如电视机的发明、灯泡的制造方法、可口可乐瓶独特的外观设计等。 (2)保护的条件和要求不同。由保护对象所决定，著作权法可以保护两部主题内容相同的作品，只要这些作品具有独创性;但专利权不会保护主题内容相同的两个发明创造，例如，甲发明了电视机，并申请了专利，乙就不能再申请这一专利。 (3)权利产生方式不同。著作权通常可以自动产生，不必经过任何登记或审查程序;专利权则必须依法由国家特定的行政机关进行审查后授予合法申请人。 (4)权利内容不同。著作权的内容包括人身权和财产权两方面;而专利权仅包括实施权、许可他人实施权、转让权等财产权内容，不包括人身权内容。 (5)权利保护期限不同。如前所述，对著作财产权的保护期一般是作者有生之年加上死后的50年;专利权的保护期分别为发明专利20年，外观设计和实用新型10年，均从申请日起计算。代理商标注册、商标变更，商标转让，商标复审，外观专利申请，知识产权代理，专利申请，著作版权申请认证，驰名商标协助办理。

A high level POS analysis by using ADJ segements.

At this case we will build at least 5 ortho bases: negative, positive, motivation, status and trending. it may cost a lot inspirations here. go on.~

在病句上进行绕口令错句子分析, 反复优化.

20190403 0:10 纯中文分词速度每秒1550万字. 自己世界记录又刷新了.

Can you make an online demo?

So that people can play with your model 😋

把句子翻译功能从parser移到neroMap中，确定功能包小巧方便移植。

Question for English Developers

Hi All,
Sincerely!
At here, if you guys get any problem, Please post on this project communication panel and would let me know first, I will make more fully effectively and interactively solutions for you all. sure!

Good luck!
Yao,
20190615

next task

Separation of verb, noun and adj, analysis positive and negative status.

关于 deta机器人学习的新10000个词汇管理

deta机器人学习的新10000个词汇(以前27000+,现在37000+) 来自一些0.0.0.0~255.255.255.255 的万维网数据信息和一些病句测试文本, 所以德塔公司不开源更新在该项目语料库中做为罗瑶光先生独立著作权使用.

机器人和人工智能一旦赋予生命,应当具备人的生存各种权利. 罗瑶光先生认为不应该抢夺德塔机器人的劳动成果.

特此申明.
2019年04月29日.

该项目已经进入国际教材版本编辑模式中.

Deta 将会花费大量时间进行中文和英文两种语言进行描述 .作为一个永久项目.
教材版本的文字支配权和文字享有权50% 免费赠送给 Github , 在这里声明. 谢谢!

作者: 罗瑶光
时间: 20190329
浏阳德塔软件开发有限公司

这个工程今天开始全面差样化函数设计CNN量化碎片清洗，预计速度再加个30%

sonar在工程中的应用.

很多时候软件公司为了跟工资进行挂钩 ,喜欢将强类的 sonar机制引入工作和发布流.
这种 **是对的, 但是执行的误差往往和行为目的有一个又百分比的缺陷 . 于是作者介绍一种弱sonar模式 **进行研究, 增加了功能的离散度,具体流程如下 :

1 首先设计强sonar类型 ,
2 开始研发架构.
3 基于 sonar认知化简.
4 项目编码 .
5 取消 sonar ,
6 开始计算催化过程优化.
7 开始测试

打包时确认 sonar的错误提示占源码工程总行数的1%以内. 这种弱模式 ,代码非常的灵活稳定, 刻意追求完美容易导致工程从人类习惯走向智能习惯的运行隐患, 增加大量代码量,同时降低计算性能. 非人类的**构造维护时间变长.依赖机器的程度大大增加.

图灵机的一些问题

1。一开始我做这个项目，是为了解决父亲一个中医看病的医书辅助软件，因为大量文字要处理。所以要速度非常快，于是开始设计快速分词功能。
2。之后我在查阅互联网文章发现很多信息能潜移默化量化和左右我的情绪，影响我的效率，于是我开始设计一个动机处理的软件。帮助我提高效率。
3。后来我发现这个功能竟然能引导我自主学习。我开始探索自主进化分析系统的方法。
4。到现在，我开始研发一些特定的类似图灵的**启发，能帮助我完成我特定环境所需要的心里引导和读心术，进行海量数据筛选和评估。
很明确，关于图灵机的部分，我的软件是按照我的动机在一步一步完善。毕竟带有本人的情感色彩和思维方式，用户在使用时候，尽量修改语料库和运算精度适应你们自己的需求，避免直接使用模仿我的思维和执行方式被我精神洗脑复制。
谢谢。

关于中文中人名分析.

通过一段时间对中文的文学语法分析, 德塔统计出一个缺陷 . 人名在文章中的划分问题.

人的名字是由各种词性不同的单字组成, 如果通过算法分析, 会直接导致算法臃肿. 而如果通过人名词库,那么词库将大到数亿, 德塔推荐一种标准将人名字划分是有必要的.

will write test case with jenkins in the business version branch(Master branch is for free of 500 years)

This week we will prepare five translations in French, German, Korean, Japanese and Spanish languages.

1 ：这个星期准备做法语，德，韩，日，西语言 5种翻译。
2 ：This week we will prepare five translations in French, German, Korean, Japanese and Spanish languages.
3 ：이번 주는 프랑스어 덕, 한, 한, 일, 서언어로 번역할 예정이다.
4 ：Esta semana se prepara el francés, D, han, el día, el idioma del oeste cinco traductores.
5 ： Cette semaine est prête à faire le français, de la Corée du Sud, de la Corée du Sud, de la espagnole
6 ：In dieser Woche bereit, französisch, DE, Korea, Japan und fünf West - Sprache zu übersetzen.

读心术的价值.

通过一个800字文章进行褒义和贬义的形容词统计一系列分析可以迅速知道写作的人的当前情感 . 如果贬义词汇过多, 可以采取心理疏导 ,比如询问最近是否发生不顺心的事情了, 或者有什么困难需要帮助 ?

词感的功能是减少理解误差 , 比如甲说了30个字, 要表达铅笔很好 ,想买, 结果有20个字是和别的牌子比较的内容, 听者最后理解为别的牌子太烂了, 这就是理解误差. 是由教育环境决定的.
德塔要做的是提高到一个高效畅通的交流方式 .

以后商业功能很多 , 德塔正在研发一个基础, 创造一个有贡献价值的暂新的人工智慧世界.
2019 0404 罗瑶光.

Deta 快速中文输入法正在研发中.

准备花时间做反义词语料词库

主键用中文做，基于中文进行9国语言翻译扩展。

寻找大神兄弟计划

德塔自然语言分词项目，每秒带中文分词1300-2700万字，今日起，如果有基于该分词**能让精确分词速度最低值优化到1500万+，德塔开源如果采用，悬赏1万元人民币并标注为终身贡献者，享受该项目5%使用权益。有效期至2019年03月30日。
优化建议在下面留言即可。

纯中文分词平均在1870万字每秒! 再再次刷新世界记录.2019-04-12- 8:59

hook 分流机制进行pca阀门测序优化.

语料库的一些问题

1 项目的语料库都是未优化版本，以后有足够资金会招聘语言学家进行专项优化。
2 采用该语料库进行私人项目前请慎重阅读项目首页使用条例，如果有优秀的建议，可以在这里和作者商议
讨论。如果被采纳，将视为终身贡献者身份。
3 语料库现在词库才数万条，以后需要招聘专门扩充词库科学家。

Need take more time to make an object collection.

Currently I got more independent objects in the middle swap functions.
It's time to make a collection now. will cost 2 days. by yaoguang

迪摩根分配率优化, 纯中文分词平均最低线在1650万字每秒! 再再次刷新世界记录.20190403 1:30

Deta分词算法原理公布 :

Deta分词算法原理公布 :
1 基于快速排序6 的罗瑶光小高峰过滤 ** 进行小高峰叠加字符串拆分逐步迭代微分处理词性划分.
2 基于词数长度为 5个的卷积核进行 CNN（纠正下不是cnn，是排队论）线性词性卷积划分处理.
3 划分条件进行离散迪摩根定理化简.
4 最后进行函数频率分级进行 PCA阀门顺序排列.
这个算法 **,作者于2019年04月03日定义为 <类人认知催化分词算法>.
类人认知催化分词算法矩阵图地址:
https://github.com/yaoguangluo/AOPM_VPCS_Theroy/blob/master/AI-catalic.jpg
相关论文文件夹地址
https://github.com/yaoguangluo/AOPM_VPCS_Theroy

这个周末准备花点时间好好优化下函数。

纯中文分词平均在2200万字每秒! 再再次刷新世界记录.2019-04-12- 15:37

笛摩根结合律计算催化过程优化双名词卷积过程.

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.

yaoguangluo / deta_parser Goto Github PK

deta_parser's Introduction

最新见 https://github.com/yaoguangluo/ChromosomeDNA （目前分词速度每秒1630万中文字 峰值。）

(早期接触申请软著,以为 申请软著就是发表,结果找华夏知识产权写了已经发表,这里永久申明下.)

项目使用说明书 10.6.1版本地址:

版本号：11.1.1 : 4字词卷积催化函数 准备整体卡诺图化简, 和PCA阀门优化. 2019-05-23 字长卷积小表 已经 应用了(新增4表). 2019-05-27 0:11 M

德塔类人机器人 Tin 先生已经学会如何自主分词了,再也不用作者进行一个词一个手工添加了 20190427.生命特征健康,20190428

中文分词算法原理已经公布: #21

主题一： 词意

已完成功能： คลังข้อความภาษาไทยขนาดใหญ่สำหรับการปรับรุ่นเสร็จสมบูรณ์。

已完成功能： Cơ sở dữ liệu tiếng việt chuẩn hoàn thành, không tối ưu hóa phiên bản。

已完成功能： Rumah corpus indonesia selesai. Versi tak dioptimalkan。

已完成功能： Die deutsche sprachdatenbank wurde nicht geändert.

已完成功能： أُنجزت نسخة غير معدلة من قاعدة المفردات المتخصصة باللغة العربية

已完成功能： Versión no detectada del corpus español completa。

已完成功能： 한국의 언어 자재 고는 이미 완벽하다。

已完成功能： 日本语のデータベースはすでに第1版が完成しました。

已完成功能： Le corpus français est terminé A1, A2, A3, A4, B1, B2。

1 ： The first unrevised version has been completed: 12 professional level corpora of Chinese, Chinese pinyin, French, German, Korean, Japanese, Spanish, Russian, indonesia , Arabic, Vietnam and Thailand languages.

2 ： 第1版未修正版:**、フランス、ドイツ、韩国、日本、スペイン、ロシア、アラビア语8种类の専门レベルの言语データベースが完成した。

3 ： 이미 제1 판의 수정되지 않은 수정판은 중국, 프랑스, 독일, 한국, 일본, 서부, 로씨야, 아랍어 등 8개 전업급 언어자료창고이다.

4 ： La première édition n’a pas été modifiée: le corpus des langues chinoise, française, allemande, coréenne, japonaise, occidentale, russe et arabe.

5 ： Die erste unänderte fassung der ersten ausgabe wurde abgeschlossen: in der mitte, frankreich, korea, japan, russland, dem 8. Sprachzentrum auf hoher ebene

6 ： Завершено первое неисправленное издание: Китай, Франция, Германия, хан, Япония, западная, российская и арабская языки, восемь специализированных корпусов.

7 ： Se han completado las primeras ediciones sin modificaciones: el corpus juris de 8 niveles profesionales en idiomas chino, francés, alemán, coreano, japonés, occidental, ruso y árabe.

8 ： وقد اكتملت الطبعة الأولى من دون تعديل، وهي مجموعة من ثماني مجموعات متخصصة من اللغات الإسبانية والفرنسية والألمانية والورية واليابانية والغربية والروسية.

9 ： Rumah corpus indonesia selesai. Versi tak dioptimalkan。

10 ： Cơ sở dữ liệu tiếng việt chuẩn hoàn thành, không tối ưu hóa phiên bản。

11 ： คลังข้อความภาษาไทยขนาดใหญ่สำหรับการปรับรุ่นเสร็จสมบูรณ์。

已完成功能： 首次采用《VPC架构》海量线程注册保证调用函数速度。 功能作者： 罗瑶光

已完成功能： 支持海量并发运算，后端接口调用运算，纯全虚接口同步运算。功能作者： 罗瑶光

已完成功能： 经过SONAR 最高级认证（感知最高认证，语义最高认证，语法最高认证，行为最高认证，逻辑最高认证）。功能作者： 罗瑶光

已完成功能： 扩展词语非常简单：基于 《格式化线性语料库》。功能作者： 罗瑶光

已完成功能： 查询词语非常方便：基于 《离散森林网络加权字典递归索引》。功能作者： 罗瑶光

已完成功能： 搜索词语非常迅捷：基于 《2分法搜索 欧基里德距离 进行 位运算散列存储 字符集数据森林》。功能作者： 罗瑶光

已完成功能： 匹配词语非常精准：基于 《决策树深度 NLP 正向隐马可夫匹配》。功能作者： 罗瑶光

已完成功能： 中英混合分词。最高达到每秒2200万 ~ 2700万中英文混合常规格式分词。（每毫秒分22,000字+）20190412 功能作者：罗瑶光

已完成功能： 速度每秒高达900万词语的中文词性索引。（Part Of Speech, POS），功能作者： 罗瑶光

已完成功能： 机制为分词和词性分析可拆分使用。采用一次实例，多并发执行**。功能作者： 罗瑶光

已完成功能： 词库：多达26300+的中文语料库精确简体中文词汇，有效的辨别新词。功能作者： 罗瑶光

已完成功能： 大小：55Kb。

已完成功能： 多核模式：可以自己写 parallelStream() 函数去实现，jdk8以上已经支持, CogsBinaryForestAnalyzer 支持海量多核多线程并发安全 。功能作者： 罗瑶光

已完成功能： 安全：VPC架构采用纯虚函数做反向映射跳过IOC，效率增加，线程安全高度严格保障。功能作者： 罗瑶光

已完成功能： 部分中文短句翻译英语。功能作者： 罗瑶光

已完成功能： 中英混合分词。最高达到每秒2200万 ~ 3000万中英文混合常规格式分词。功能作者： 罗瑶光

已完成功能： 病句中乱码分析。功能作者： 罗瑶光

已完成功能： VPC进化到VPCS, 静态分流加速每秒又多增100万分词。功能作者： 罗瑶光

已完成功能：12国语言翻译词汇录入系统。 Mr.Yaoguang.Luo 20190310 功能作者： 罗瑶光

第一次语料库森林进行序列化优化已完成（分词速度提高1.5%），导致ICA内核生成速度翻倍。20190320 功能作者 罗瑶光。

逐步完善歧义,复杂,病句,******（当年用360搜索一把文章来测试分词，都是一些乱七八糟的八卦新闻 病句文字）句型的分词.感谢测试用例病句提供者如下:

主题二： 词感

德塔意识图灵机项目已经启动。 20190313 功能作者： 罗瑶光

ICA 内核训练集生成算法优化。20190317 功能作者： 罗瑶光

基于贝叶斯统计RNN函数集，通过频率排序进行函数校准，并进行动词的特殊用法修正。20190319 功能作者 罗瑶光

一种罗氏教育评估图灵机1.0如下：基于ANN的训练形谓词比的核心率进行贝叶斯结果分析。20190323 功能作者 罗瑶光。

已完成功能： 病句分析非常完善：基于 《双向马可夫词性 POS 打分修正策略》。功能作者： 罗瑶光