Giter Club home page Giter Club logo

Comments (29)

LEOYoon-Tsaw avatar LEOYoon-Tsaw commented on July 20, 2024 5

@ShikiSuen甚麼時候開始Github上的人也會不負責任地瞎猜了?即然你能猜出別人想問甚麼,你在這裏自問自答即可。

from brise.

ekd123 avatar ekd123 commented on July 20, 2024 2

@ShikiSuen Rime 是開放軟件,如有不合心意之處,可以自己上手修正,不僅快樂自己,也方便大家,您說對嗎?

from brise.

lotem avatar lotem commented on July 20, 2024 1

這個 BUG 起因,我推測是加入了帶註音的詞彙,而數據來源只標註了異讀字的一種讀音。
標註了多個讀音的字,屬於多音字還是異讀,詞典壓縮工具無法分辨,所以按區分詞語中多音字的情況處理,保留了註音標註。
目前的解法:刪除碼表中相關詞語的註音,改爲自動注音。
可能的改進:如果詞典工具做得足夠精細,可以通過明確標識單字屬於多音字還是異讀字,從而判定詞語未收入碼表的其他推導讀音應該捨棄或降頻保留。

關於輕聲的處理:
哪些字有輕聲的讀音,不好界定。許多輕聲只出現在特定詞語中,而不是字的讀音。
還有許多包含輕聲的詞語,可以不讀輕聲,或者有無輕聲時詞義有別。在碼表裏標註輕聲,要求兼收非輕聲的註音,維護難度更大了。簡單地把輕聲與四聲並列,不是一個理想的技術方案,也不符合語言事實。
其實除了輕聲,還有兒化的問題,現在的拼音輸入法並未做到嚴格按照讀音處理。嚴肅的解決方案是,標註出來哪些場合可以讀作輕聲、兒化音。
就輸入法應用而言,逐一標註做法或許是吃力不討好。一則方纔提到社會規範對輕聲的使用範圍沒有嚴格界定,幾乎是因人而異。二者即使口語讀輕聲,打字時因爲習慣書面上的「字本位」,也常常會用本字的聲調輸入。
更廉價、能一舉保證覆蓋率的方案是碼表裏標註本字的聲調,用拼寫運算由其他四聲派生出輕聲。輕聲就是不讀出本調,具體到漢語拼音,就是不寫出聲調符號。如果再額外標註出來哪些地方可以讀作輕聲、哪些不能,就接近理想解決方案了。

from brise.

kahaani avatar kahaani commented on July 20, 2024 1

@kunki

沿着两岸异读、新旧异读这一思路,找到了第三例注音不当的多音字:癌。

地球拼音的码表:

癌 ai2
癌症  yan2 zheng4

关于两岸异读:

近年两岸合作的《两岸常用词典》提供了「用词差异表」,但似乎不太关注读音差异,没有整理出一份读音差异清单。

这里找到一份材料,来自学术论文,又有审音委员会背书,可供参考:
http://www.pthyygf.org/shenyinjinxingshi/2013-12-19/136.html

from brise.

lotem avatar lotem commented on July 20, 2024 1

在一個詞典裏兼收兩岸的標準讀音,對作爲工具書的詞典來說不夠嚴謹,但就輸入法應用來說,不會造成使用上的不便,而且綜合來看降低了維護成本。
即使要拆分,可能得考慮一套稍稍複雜的方案:把大量跨地域(、方言)的共通詞彙放在一個共享的碼表裏,再爲各個地區分別維護一個碼表收錄有差異的部分。(詞典可以包含多個碼表文件)

from brise.

ShikiSuen avatar ShikiSuen commented on July 20, 2024

所以我说这种常识类的问题他们之前都想当然以为就活该跟大陆念的。
周杰伦千里之外发行这么多年了,第一句歌词的「屋檐如悬崖」就唱「xuanˊyaiˊ」,大家却都选择当聋子。
https://www.moedict.tw/崖
费玉清独唱的版本也是这么唱的。这里给出费玉清唱的版本,省得有人怨周杰伦唱歌含卤蛋听不清:
https://www.youtube.com/watch?v=3JBjnJPmOJs
莫怪我泼凉水,这种批量的、一而再再而三的同类低级错误只可能出自于态度问题。

from brise.

ShikiSuen avatar ShikiSuen commented on July 20, 2024

事已至此,RIME 所有音韵类输入法都有必要设立两套独立的音韵库。这不应该与简繁体模式绑定,毕竟肯定有**人需要用 RIME 敲简化字输出的、且绑定的话也会给需要繁体输出的大陆用户带来不便(除了我这样买过**出版的辞典将国语重新自学一遍的奇行种以外)。

from brise.

ShikiSuen avatar ShikiSuen commented on July 20, 2024

@kahaani 为防万一,请您亲自确认您所发现的问题是存在于已经编译好的下载版当中、还是 GitHub 的源码当中?前者的词库内容往往落后于后者,而 @lotem 目前似乎推荐用户单独编译的样子。

为什么需要您亲自确认呢?因为这问题的提报人是您。

from brise.

 avatar commented on July 20, 2024

@ShikiSuen 不要一来就发动大气场好吗……

有可能是自动注音出了问题或是不够完善。假如单字有多个音,我还是希望打 xuan ya 依然能出词。

from brise.

kahaani avatar kahaani commented on July 20, 2024

@ShikiSuen 已在最新的 brise 库中确认过。

我觉得只是一个技术问题,两种读音兼收即可,没必要上升到简繁、陆台的争论。

大陆普通话和**国语大同小异,没必要分设两套码表。

from brise.

 avatar commented on July 20, 2024

不清楚是不是词组有了手动注音就不管多音字了,总之可给 luna_pinyin.schema.yaml 打个简单的补丁:

patch:
  'speller/algebra/@after last': derive/yai/ya/

from brise.

kahaani avatar kahaani commented on July 20, 2024

发现一个类似的例子:曝。

明月拼音:

曝 bao 80.43%
曝 pu  19.57%
曝光  pu guang
曝光表   pu guang biao

地球拼音:

曝 pu4
曝光表   bao4 guang1 biao3
曝光表   pu4 guang1 biao3

from brise.

kahaani avatar kahaani commented on July 20, 2024

@jakwings 是的,如果词组已有手动注音,就不会再自动注音,此处有说明

from brise.

 avatar commented on July 20, 2024

那段话没有明确地说已注音的不因为有多音字再自动注音啊。我一直以为额外词组的手动注音主要是用来确定编码提示的首选音。😅

我去查查代码看,真的话就试试让它跟据读音权重自动注音会不会组合爆炸吧。用 derive 或者手动给词加音太麻烦了。

from brise.

kahaani avatar kahaani commented on July 20, 2024

@jakwings

反之,則有必要給出詞組的編碼以消除自動註音的不確定性(例:天地)。

含有多音字的詞組缺少編碼字段時,自動註音程序會利用權重百分比高於5%的讀音進行組合、生成全部可能的註音。

原文这两段够明确吧。我的理解是:消除自動註音的不確定性=消除自動註音=當且僅當

这种设计可以消除错误的自动注音,似乎不宜改。还是觉得改码表比较好。

from brise.

 avatar commented on July 20, 2024

自动注音本来就有不确定性啊,因为多音字词……(直接看下面的需求算了吧)

这种设计可以消除错误的自动注音,似乎不宜改。

精益求精是好,对于已完全注音的词库来说维护起来或许没那么难(可把多音字词收集起来对所有词做个检索看看)。

也可以提出新的码表语法,指定哪个词包括自动注音,加选项决定是否默认包括自动注音。

from brise.

kunki avatar kunki commented on July 20, 2024

已確認是 bug,我找時間修復一下。多謝反饋。

from brise.

ShikiSuen avatar ShikiSuen commented on July 20, 2024

@Kahaan 有必要分设读音表。需注意 @kunki 根本没有任何动力将轻声结尾的词的全音读法写入到音韵库当中:#106 ,而微软新注音自 2010 版开始的的简繁体输出模式各自有一个音韵库(繁体输出模式下的大多数全音读结尾的词在简体输出模式当中都必须敲轻声结尾才可以敲出来)。

我不赞成将两岸的音韵表与简繁汉字表各自绑定…毕竟这对于已经习惯微软新注音繁体输出的人而言在使用简体输出时会极度不适应。但两套音韵表还是必需的,毕竟用惯了微软新注音的人多以在**的繁体中文用户为主、和新酷音与雅虎注音一样都习惯在敲很多词时敲全音结尾而非轻声。他们在用 RIME 时发现他们的习惯无法让他们正常藉由 RIME 敲字:「只能用轻声敲最后一个字才可以,否则敲不出来」。而 @kunki #106 (comment) 则自我感觉良好地以为「碰到輕聲字你直接不輸入聲調嘛」。这样一来,如果不将音韵表分开的话,这类问题终生无解。

我有其它的主业、使得我本人没有时间精力成本来参与这项工作,回头我问问有谁愿意单独做这份音韵表;但对早就习惯于微软新注音、新酷音、雅虎注音的用户而言,当他们发现 RIME 的音韵库就这样的时候、这更像是用脚投票的问题。@jakwings 莫怪我这次再度发火,因为我看到只可能由态度导致的某一类问题再度发生了、且这问题无解(毕竟我没有能力强行改变别人的潜意识)。

from brise.

ShikiSuen avatar ShikiSuen commented on July 20, 2024

P.S.: 如果我没记错的话,RIME 应该是不分简繁词库、而是直接用一套 OpenCC 标准的字库藉由 OpenCC 分别转换成**繁体、香港繁体和简体中文。

from brise.

ShikiSuen avatar ShikiSuen commented on July 20, 2024

@lotem 「哪些字有輕聲的讀音,不好界定。」嚴格按照教育部標準辭典即可,因為都是已經界定好的東西。當然,理想的狀態是「無論輕聲與否,皆可準確輸入」而非只能用其中一種方式。

from brise.

kahaani avatar kahaani commented on July 20, 2024

@lotem 的建议是删去注音,但在有些情况下可能不太妥当。

例如:

曝 bao 80.43%
曝 pu  19.57%
度 du4 95%
度 duo2    5%
曝光度   pu4 guang1 du4

如果删去词组注音,由于「曝」、「度」两字都是多音字,会自动组合出四种读音,其中两种是错的。

是不是可以考虑改为增加一个词条:

曝光度   pu4 guang1 du4
曝光度   bao4 guang1 du4

from brise.

ShikiSuen avatar ShikiSuen commented on July 20, 2024

@kahaani
有关于两岸异读,不可仅相信现有的书籍。纵使《两岸常用词典》总结的内容确实很实用、具备参考价值,窃以为仍旧有和教育部标准国语辞典做单独交叉比对之必要。

关于「癌症」,建议将「aiˊzhengˋ」和「yanˊzhengˋ」都收入;关于「癌」,也建议同时收录两种不同的读音。当然,这两条建议仅适用於「仅使用同一份两岸共用音韵表」的情况下

from brise.

LEOYoon-Tsaw avatar LEOYoon-Tsaw commented on July 20, 2024

@ShikiSuen 既然兩岸均奉行一個中國原則,那怎麼能有兩套國語呢?

from brise.

ShikiSuen avatar ShikiSuen commented on July 20, 2024

@LEOYoon-Tsaw 這兩者沒有必然的聯繫,更何況前者只是奉行一個傳統的「中國」地區文化區域概念。

from brise.

ShikiSuen avatar ShikiSuen commented on July 20, 2024

@LEOYoon-Tsaw 我大概知道你接下來想要問什麼了,請等解放軍佔領台灣之後再繼續來問。

from brise.

ShikiSuen avatar ShikiSuen commented on July 20, 2024

@LEOYoon-Tsaw 哦對了,還得給你舉個例子:既然只有一個美國,那為什麼能有兩套基於「Author-Dates」的論文格式規範呢(說的就是 APA 和以「Author-Dates」為模式的 Chicago Manual of Style)?這個例問就是按照你的邏輯寫出來的,邏輯壞了就什麼都壞了。

from brise.

kunki avatar kunki commented on July 20, 2024

fixed in 7dd0be8 and 0bd42ad

from brise.

kahaani avatar kahaani commented on July 20, 2024

谢谢 @kunki,漏了「曝」字:#110 (comment)

from brise.

kunki avatar kunki commented on July 20, 2024

@kahaani 討論串太長了,所以我看漏了。我下次再處理這一條。

from brise.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.