Giter Club home page Giter Club logo

Comments (37)

lotem avatar lotem commented on July 20, 2024

wubi86 碼表以簡化字爲主。簡碼 ed 得「須」,上游數據如此:
https://raw.githubusercontent.com/acevery/ibus-table-wubi/master/tables/wubi86.txt
有三級簡碼佐證,可以確定該項數據有誤。

from brise.

networm avatar networm commented on July 20, 2024

嗯,了解,我刚才还在查本项目中哪次提交引入的这个错字,没想到第一次提交这个字就是错的;可是上游数据为什么会弄错这个呢,上游数据的来源是哪?这个二级简码真的是很常用的,居然没有人发现?!

from brise.

osfans avatar osfans commented on July 20, 2024

二簡裏面好像有不少繁體字呢。

from brise.

networm avatar networm commented on July 20, 2024

我看到这个字错后我都不想要输入法自带的 wubi86 了,数据源太不可靠了,因为不确定还有哪些字是错的,这个最让人头疼!

from brise.

osfans avatar osfans commented on July 20, 2024

wubi98比較可靠。用吧。
那用海峯五筆?以前我一直用海峯五筆的。

from brise.

lotem avatar lotem commented on July 20, 2024

要不要徹底篩一遍?得寫個腳本。
我也去看了 ibus-table-wubi 的 wubi98 碼表,ed 倒沒有錯。但沒有 edm 這個簡碼。不知 wubi98 是不是真的應該沒有。

from brise.

networm avatar networm commented on July 20, 2024

@osfans 我用86五笔都十几年了,不会换98的。
用哪个五笔输入法都无所谓,我只打单字,所以对大部分字都很确定;今天头一次见到二级简码居然是错的很惊奇。

from brise.

networm avatar networm commented on July 20, 2024

@lotem 筛选,将一级二级简码筛选出来?

from brise.

lotem avatar lotem commented on July 20, 2024
for x in table
  if (x.text, x.code.substr(...)) in table and x.text in traditional_chars
    console.log x

大意是這樣吧,找到所有有簡碼的繁體字。

from brise.

osfans avatar osfans commented on July 20, 2024

這是rime的工具腳本嗎?沒看到過啊

from brise.

networm avatar networm commented on July 20, 2024

@lotem 我觉得完全不用了,因为我刚刚简单扫了一眼,发现很多二级简码都是错的;如果说要修正所有的一二级简码,那三级简码呢、还有四码的整字呢、是不是都应该是简体字在前啊?

所以我的意见是换源吧,不管是 ibus-table-wubi 还是 brise,这个86五笔编码的问题我觉得完全无法接受。

from brise.

osfans avatar osfans commented on July 20, 2024

fcitx?scim?不知還有什麼開源的。

from brise.

osfans avatar osfans commented on July 20, 2024

這兩個好像都是簡體。
https://raw.githubusercontent.com/fcitx/fcitx-table-data/master/wbx.txt
https://raw.githubusercontent.com/fcitx/fcitx-table-extra/master/tables/wubi-large.txt

from brise.

networm avatar networm commented on July 20, 2024

https://raw.githubusercontent.com/rime/brise/12e18ca21cc266d969cc91657c36f276d6a87758/supplement/wubi86.dict.yaml
现在用的 wubi86 原始作者就是 Wozy
Original table author
Wozy [email protected]
只是有人在处理的过程中出错了,也不知道是哪次提交事件干的;因为之前用过 Wozy 的词库,本身没有问题,所以我建议还是用这个。

再额外加个需求,能不能出个单字版本的库?很多人都喜欢用单字,我是今天才接触这个输入法,没有在文档中找到实现功能的开关或类似的东西。

from brise.

lotem avatar lotem commented on July 20, 2024

@osfans 不是…這是僞碼…
不過你提出了一個好思路,造一種 DSL 以方便處理 Rime 數據文件。
我最近迷 CoffeeScript。如果不是擔心性能,都想把 librime 腳本化了。可惜工作有的忙,顧不上折騰。
我看出來了,librime 如果不改革現有的框架,還是很難吸引開發者採用。也許需要再簡單一些些。

from brise.

osfans avatar osfans commented on July 20, 2024

librime很好啊,已經移植到arm上了,也搞了jni的接口,java也能使用了。
就是前端界面蠻難搞的。

from brise.

lotem avatar lotem commented on July 20, 2024

@networm 最近的版本支持「單字優先」,加上 single_char_filter 就中。
只保留單字。最簡單的辦法是把詞典拆開,一個文件裏只放單字,另一個收詞的詞典引用他。

在詞典文件裏加選項,過濾掉多字的,也不是不可以做…但我覺得沒有上面這辦法明瞭。
現有按字數和詞頻過濾的機制,只用來限制從「八股文」導入的(自動編碼)的詞,而不針對寫明在碼表裏的。

from brise.

networm avatar networm commented on July 20, 2024

@lotem 其实并不需要在词典文件中加这种选项,这个需求本身就很小众;用分开的文件就很好。

from brise.

networm avatar networm commented on July 20, 2024

@lotem 单字优先功能在哪有介绍,有更新日志吗?

from brise.

lotem avatar lotem commented on July 20, 2024

@osfans 現在只是從前端調用還行,但想寫插件,添加一些功能,要學的還有點多。
我的目標是把擴展他的功能(甚至添加新的 API)做到非常簡單。也有了一些思路,但要實現一個易用的 C++ API,還是很有挑戰的任務。

from brise.

lotem avatar lotem commented on July 20, 2024

https://github.com/LEOYoon-Tsaw/Rime_collections/blob/master/Rime_description.md
把 single_char_filter 加在 filters: 之下。
但我記得效果是,沒有屏蔽多字候選,只是放到單字後面了。

from brise.

networm avatar networm commented on July 20, 2024

@lotem 嗯,这个功能正如字面意思,如果想要多字候选消失那功能应该叫作“只有单字”

from brise.

networm avatar networm commented on July 20, 2024

@lotem 我用的是最新版的鼠须管,按照你所说的,尝试在 wubi86.schema.yaml 与 default.yaml 中分别加入

filters:
  - single_char_filter

filters:
  single_char_filter: true

都无效,我不太确定这个功能是否编译到我在官网下载的鼠须管中。

from brise.

networm avatar networm commented on July 20, 2024

@lotem 这个功能不用管了,下个版本再测试吧,我也不这个功能。

from brise.

networm avatar networm commented on July 20, 2024

建议使用 窝子五笔极爽词库 | 窝子旧网志 重新生成一下。

from brise.

lotem avatar lotem commented on July 20, 2024

哪裏錯了?我看過了 acevery/ibus-table-wubi@4c818dc?diff=unified
改得很對。

from brise.

networm avatar networm commented on July 20, 2024

cg 驪 0
cj 騍 0

from brise.

networm avatar networm commented on July 20, 2024

极爽词库官方6.0标准版 - 五笔输入法 - 多多中文官方论坛 - 多多中文官方网站

极爽词库6.0官方标准版.zip_免费高速下载|百度云 网盘-分享无限制

我去下载了一个 极爽词库6.0 放到了百度网盘上,原链接需注册,能不能提取这里的一级二级简码或者整个 wubi86 库都用这个?这个来源和现在用的都是 wozy 的极爽词库,直接换应该没什么问题吧?

另外能再做一个单字字库的 wubi86_single_char 方案吗?

from brise.

zcunlin avatar zcunlin commented on July 20, 2024

不要直接替换默认方案,另建一个新的方案,比如叫「极爽五笔」。

from brise.

networm avatar networm commented on July 20, 2024

@zcunlin 首先把默认方案的一二级简码都修正了,然后再加个极爽五笔方案、极爽五笔单字方案,这样如何?

from brise.

zcunlin avatar zcunlin commented on July 20, 2024

可以啊。我自己就是另外做了一个单字方案,不调频,几乎都能空格上屏。因为以前我玩游戏,玩dota2的时候用小狼毫看不到候选窗,只能闭眼打字。

from brise.

lotem avatar lotem commented on July 20, 2024

修完了

from brise.

networm avatar networm commented on July 20, 2024

@lotem 谢谢!

from brise.

osfans avatar osfans commented on July 20, 2024

上游好多年沒人管了?

from brise.

networm avatar networm commented on July 20, 2024

@osfans 上游这个 wubi86 一共就在 2008 年提交过两次。
然后第一次的数据不对,第二次又改错了一二级简码。

from brise.

 avatar commented on July 20, 2024

@networm 我基于原五笔码表整理了一份单字码表,暂时不知道该怎么提交好,欢迎试用。

二级简码我是参考一本旧五笔教程整理的,空码已用「#」注释掉了,可以自己看下。(沒有ed)
三级简码是用一个比较旧的输入法自动打出来的。相关注释仅仅是建议。

地址:https://github.com/jakwings/brise/blob/wubi86/supplement/wubi86_char.dict.yaml

王碼五筆86版二級簡碼總表

該二級簡碼碼表源於《相马打字通2000五笔字词典》。
ISBN:7-900332-77-4
简介:http://book.douban.com/isbn/9787900332776
備註:該表有576組,實際上各輸入法可能提供更多。

ZABCDEFGHIJKLMNOPQRSTUVWXYZ
A式节芭基菜革七牙东划或功贡世#芝区匠苛攻燕切共药芳A
B陈子#承阴际卫耻#阳职阵出也耿辽隐孤阿降联限队陛防B
C戏邓##能对######观马##允牟#矣#艰难#驻C
D左顾友大胡夺三丰砂百右历面成灰达克原厅帮磁肆春龙太D
E肛服肥#朋肝且#膛胆肿肋肌甩#爱胸遥采用胶妥脸脂及E
ZABCDEFGHIJKLMNOPQRSTUVWXYZ
F载地支城圾寺二直示进吉协南志赤过无垢霜才增雪夫#坟F
G开屯到天表于五下不理事画现与来#列珠末玫平妻珍互玉G
H虎#皮#肯睦睛止步旧占卤贞卢眯瞎餐#盯睡瞳眼具此眩H
I江池汉尖肖法汪小水浊澡渐没沁淡学光泊洒少洋当兴涨注I
J虹最紧晨明时量早晃昌蝇曙遇电显晕晚蝗果昨暗归蛤昆景J
ZABCDEFGHIJKLMNOPQRSTUVWXYZ
K呀啊吧顺吸叶呈中吵虽吕另员叫#喧史听呆呼啼哪只哟嘛K
L##轻因胃轩车四#辊加男轴思#边罗斩困力较轨办累罚L
M曲邮凤央骨财同由峭则#崭册岂#迪风贩朵几赠#内#凡M
N民敢怪居#导怀##慢避惭届忆屡忱懈怕#必习恨愉尼心N
O煤籽烃类粗灶业粘炒烛炽烟灿断炎迷炮煌灯烽料娄粉#米O
ZABCDEFGHIJKLMNOPQRSTUVWXYZ
P宽字#害家守定寂宵审宫军宙官灾之宛宾宁客实安空它社P
Q氏凶色然角针钱外乐旬名甸负包炙锭多铁钉儿匀争欠#久Q
R找报反拓扔持后年朱提扣押抽所搂近换折打手拉扫失批扩R
S械李权枯极村本相档查可楞机杨杰棕构析林格样要检楷术S
T长季么知秀行生处秒得各务向秘秋管称物条笔科委答第入T
ZABCDEFGHIJKLMNOPQRSTUVWXYZ
U并闻冯关前半闰站冰间部曾商决普帝交瓣亲产立妆闪北六U
V毁好妈姑奶寻姨#录旭#舅#刀灵巡婚#杂九嫌妇#姆妨V
W代他公估仍会全个偿介保佃仙亿伙#你伯休作们分从化信W
X红弛经#级结线引#旨强细纲纪继综约绵#张弱绿给比纺X
Y度离充庆衣计主让就刘训为高记变这义诉订放说良认率方Y
ZABCDEFGHIJKLMNOPQRSTUVWXYZ

from brise.

networm avatar networm commented on July 20, 2024

@jakwings 我已经准备用极爽6.0词库了,但还是非常感谢!

from brise.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.