Giter Club home page Giter Club logo

Comments (25)

osfans avatar osfans commented on July 20, 2024

有對應表嗎?有的話我來轉下。

from brise.

kunki avatar kunki commented on July 20, 2024

無對應表,需要肉眼識別,我有空會還原掉的。
這些字都是GBK提交的字,當時unicode還未收全,所以都放到了PUA區。
後來這些字都被unicode收了,且有部分字放到擴展部首區,比如「⺄」(U+2E84)。

from brise.

osfans avatar osfans commented on July 20, 2024

果然80個,先貼出來:


















































































from brise.

osfans avatar osfans commented on July 20, 2024

找到一個對應表
http://www.fmddlmyy.cn/text24.html

from brise.

kunki avatar kunki commented on July 20, 2024

@osfans 提供的對應表不錯,正好是80字。
不過有个疑問,有幾个字在CJK區和增補部首區都有收錄,比如「𥫗」(U+25AD7)與「⺮」(U+2EAE)、「𧾷」(U+27FB7)與「⻊」(U+2ECA)等。該對應表使用的是「增補部首區」的字而非「CJK區」的字。
原則上來講這種情況應使用「CJK區」的字。如「讠」(U+8BA0)與「⻈」(U+2EC8)、「衤」(U+8864)與「⻂」(U+2EC2)等字輸入法都是使用的前者。
但是某些字在CJK區沒收,只在增補部首區有出現,比如我提到的「⺄」(U+2E84)。

因此對增補部首區的字如何取捨仍需要討論。

from brise.

osfans avatar osfans commented on July 20, 2024

嗯,你說的應該是CJK部首补充区的14个部首未计入 2E81, 2E84, 2E88, 2E8B, 2E8C, 2E97, 2EA7, 2EAA, 2EAE, 2EB3, 2EB6, 2EB7, 2EBB, 2ECA。
所以對應表使用的是CJK區的字,而不是部首字。那我就直接轉換了。

from brise.

osfans avatar osfans commented on July 20, 2024

倉頡中的:
䥇 cism 䥇 chsm
是因爲右邊第一筆不同嗎?

from brise.

kunki avatar kunki commented on July 20, 2024

你說的14个部首轉出來是

⺁, ⺄, ⺈, ⺋, ⺌, ⺗, ⺧, ⺪, ⺮, ⺳, ⺶, ⺷, ⺻, ⻊

其中已經在CJK區收錄的字有

⺁(𠂆)、⺈(𠂊)、 ⺋(㔾)、⺗(㣺)、⺧(𠂒)、⺪(𤴔)、⺮(𥫗)、⺳(㓁)、⺷(𦍌)、⻊(𧾷)

p.s. 其中「㣺」需要用港臺字體顯示出來才是「恭」的下方,大陸字體顯示成「忄」多一點。(其實都是「心」字的變體)

其他字沒在CJK區出現。也就是說統計出的14个部首竝不能幫助區分。

from brise.

kunki avatar kunki commented on July 20, 2024

我不會倉頡。
猜測異碼的原因是「扇」在大陸字形中从「户」,在臺灣字形中从「戶」。

from brise.

osfans avatar osfans commented on July 20, 2024

倉頡中原來就有CJK區的。所以直接用那個表也不錯。哈哈。

-(E815 <私人專用區>)    rtt 0
+⺁(2E81)  rtt 0
 𠂆(20086)    rtt 0

from brise.

osfans avatar osfans commented on July 20, 2024

還真有重複的,其實應該兩個都要有。

from brise.

lotem avatar lotem commented on July 20, 2024

如果碼表沒有收錄同形的部首,就不要加了吧,在候選裏列出兩個無法分辨的字,不好。
部首收在特殊符號裏,用得明白。

from brise.

osfans avatar osfans commented on July 20, 2024

好的。那就優先字

from brise.

osfans avatar osfans commented on July 20, 2024

所以14個部首當中,有9個有字,另外5個還得使用2E區的部首。
是這樣吧?

from brise.

kunki avatar kunki commented on July 20, 2024

剛才我又打了一遍,發現漏了「⺷(𦍌)」,已補上。
@osfans 可幫我複驗一遍。
現在還剩下「⺄⺌⺶⺻」無法找到CJK區的字。
其中「⺶」是「羊」的變體,「⺻」是「𦘒」的變體;「⺄」、「⺌」爲不成字部件。

from brise.

osfans avatar osfans commented on July 20, 2024

好,那就10個字,4個部首。

from brise.

kunki avatar kunki commented on July 20, 2024

倉頡碼表中的PUA字恐怕得找HKSCS以及細明體的相關映射關係才能解決。

from brise.

osfans avatar osfans commented on July 20, 2024

是的,所以本輪不敢替換倉頡了。

from brise.

osfans avatar osfans commented on July 20, 2024

quick5裏面應該還是用的大陸pua。

from brise.

kunki avatar kunki commented on July 20, 2024

fixed by #93

from brise.

osfans avatar osfans commented on July 20, 2024

大陸pua轉換工具參見:
https://github.com/osfans/python3-tool/blob/master/PUA%E8%BD%89%E6%8F%9B/pua2unicode.py

from brise.

kunki avatar kunki commented on July 20, 2024

9378405
連標點符號也用PUA區的,我也是醉了。

from brise.

osfans avatar osfans commented on July 20, 2024

又找了一邊,只有這兩個文件裏有HK PUA了:

extra/scj6.dict.yaml
preset/cangjie5.dict.yaml

from brise.

kunki avatar kunki commented on July 20, 2024

@osfans 轉換後的wubi86碼表還需要對單字去重一遍。

from brise.

osfans avatar osfans commented on July 20, 2024

去重工具:
https://github.com/osfans/trime-tool/blob/master/uniq.py

from brise.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.