Comments (25)
有對應表嗎?有的話我來轉下。
from brise.
無對應表,需要肉眼識別,我有空會還原掉的。
這些字都是GBK提交的字,當時unicode還未收全,所以都放到了PUA區。
後來這些字都被unicode收了,且有部分字放到擴展部首區,比如「⺄」(U+2E84
)。
from brise.
果然80個,先貼出來:
from brise.
找到一個對應表
http://www.fmddlmyy.cn/text24.html
from brise.
@osfans 提供的對應表不錯,正好是80字。
不過有个疑問,有幾个字在CJK區和增補部首區都有收錄,比如「𥫗」(U+25AD7
)與「⺮」(U+2EAE
)、「𧾷」(U+27FB7
)與「⻊」(U+2ECA
)等。該對應表使用的是「增補部首區」的字而非「CJK區」的字。
原則上來講這種情況應使用「CJK區」的字。如「讠」(U+8BA0
)與「⻈」(U+2EC8
)、「衤」(U+8864
)與「⻂」(U+2EC2
)等字輸入法都是使用的前者。
但是某些字在CJK區沒收,只在增補部首區有出現,比如我提到的「⺄」(U+2E84
)。
因此對增補部首區的字如何取捨仍需要討論。
from brise.
嗯,你說的應該是CJK部首补充区的14个部首未计入 2E81, 2E84, 2E88, 2E8B, 2E8C, 2E97, 2EA7, 2EAA, 2EAE, 2EB3, 2EB6, 2EB7, 2EBB, 2ECA。
所以對應表使用的是CJK區的字,而不是部首字。那我就直接轉換了。
from brise.
倉頡中的:
䥇 cism 䥇 chsm
是因爲右邊第一筆不同嗎?
from brise.
你說的14个部首轉出來是
⺁, ⺄, ⺈, ⺋, ⺌, ⺗, ⺧, ⺪, ⺮, ⺳, ⺶, ⺷, ⺻, ⻊
其中已經在CJK區收錄的字有
⺁(𠂆)、⺈(𠂊)、 ⺋(㔾)、⺗(㣺)、⺧(𠂒)、⺪(𤴔)、⺮(𥫗)、⺳(㓁)、⺷(𦍌)、⻊(𧾷)
p.s. 其中「㣺」需要用港臺字體顯示出來才是「恭」的下方,大陸字體顯示成「忄」多一點。(其實都是「心」字的變體)
其他字沒在CJK區出現。也就是說統計出的14个部首竝不能幫助區分。
from brise.
我不會倉頡。
猜測異碼的原因是「扇」在大陸字形中从「户」,在臺灣字形中从「戶」。
from brise.
倉頡中原來就有CJK區的。所以直接用那個表也不錯。哈哈。
-(E815 <私人專用區>) rtt 0
+⺁(2E81) rtt 0
𠂆(20086) rtt 0
from brise.
還真有重複的,其實應該兩個都要有。
from brise.
如果碼表沒有收錄同形的部首,就不要加了吧,在候選裏列出兩個無法分辨的字,不好。
部首收在特殊符號裏,用得明白。
from brise.
好的。那就優先字
from brise.
所以14個部首當中,有9個有字,另外5個還得使用2E區的部首。
是這樣吧?
from brise.
剛才我又打了一遍,發現漏了「⺷(𦍌)」,已補上。
@osfans 可幫我複驗一遍。
現在還剩下「⺄⺌⺶⺻」無法找到CJK區的字。
其中「⺶」是「羊」的變體,「⺻」是「𦘒」的變體;「⺄」、「⺌」爲不成字部件。
from brise.
好,那就10個字,4個部首。
from brise.
倉頡碼表中的PUA字恐怕得找HKSCS以及細明體的相關映射關係才能解決。
from brise.
是的,所以本輪不敢替換倉頡了。
from brise.
quick5裏面應該還是用的大陸pua。
from brise.
fixed by #93
from brise.
大陸pua轉換工具參見:
https://github.com/osfans/python3-tool/blob/master/PUA%E8%BD%89%E6%8F%9B/pua2unicode.py
from brise.
9378405
連標點符號也用PUA區的,我也是醉了。
from brise.
又找了一邊,只有這兩個文件裏有HK PUA了:
extra/scj6.dict.yaml
preset/cangjie5.dict.yaml
from brise.
@osfans 轉換後的wubi86碼表還需要對單字去重一遍。
from brise.
去重工具:
https://github.com/osfans/trime-tool/blob/master/uniq.py
from brise.
Related Issues (20)
- 建议将地球拼音词库当中所有以轻声结尾的词都添加一份不带轻声的定义 HOT 6
- 「崖」等字注音不当 HOT 29
- 設計一種方便在線編輯的文件組織方式 HOT 41
- 是否应该在音码词库中收录未受官方认可的俗音? HOT 4
- 建议向default.yaml增加两岸三地的常用输入方案 HOT 20
- Use "榴槤/榴梿" in lieu of "榴蓮/榴莲". HOT 9
- 關於上海吳語的碼表問題 HOT 4
- 粵拼的「柊」 HOT 1
- 建议将朙月拼音/地球拼音中的大陆音和**音分为不同的词典 HOT 4
- 光劍注音輸入法對 Rime 源碼的挪用是被授權而為的嗎? HOT 6
- 「怼」与「㨃」的发音。 HOT 2
- 给「㕷」新增「ㄆ一ㄚ-(pia-)」音 HOT 1
- 大佬,希望提供Build instructions for Squirrel HOT 1
- 放点截图
- 拼音输入词汇“复投”不能记忆 HOT 17
- 朙月拼音輸入 xianqia 出現 “顯卡” HOT 3
- 麼 ㄇㄚˊ 的讀音 HOT 1
- 增加GUI配置界面 Add GUI support for Configuration HOT 5
- 將包管理器拆分爲獨立的代碼庫
- 对特定分支的拉取 HOT 1
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from brise.