Giter Club home page Giter Club logo

ecdict's Introduction

ECDICT

Free English to Chinese Dictionary Database.

简介

这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。

最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的 EDictAZ.txt 的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到 GRE 包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。

其后数年根据各种资料和网友贡献词库增长到 10 万左右,又找到 Linux 下面的 cdict-1.0-1.rpm 这个开源字典数据(mdict 的主词库也是根据 cdict 转换得到),并按照英国国家语料库的前 16 万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。

单词标注

给数据库中每个单词标注:是否是各类考试大纲词汇?以及他们在 BNC 和其他语料库里的词频顺序。BNC 词频统计的是最近几百年的历史各类英文资料,而当代语料库只统计了最近 20 年的,为什么两者都要提供呢?

很简单,quay(码头)这个词在当代语料库里拍两万以外,你可能觉得是个没必要掌握的生僻词,而 BNC 里面却排在第 8906 名,基本算是一个高频词,为啥呢?可以想象过去航海还是一个重要的交通工具,所以以往的各类文字资料对这个词提的比较多,你要看懂 19 世纪即以前的各类名著,你会发现 BNC 的词频很管用。

而你要阅读各类现代杂志,当代语料库的作用就体现出来了,比如 Taliban(塔利班),在 BNC 词频里基本就没收录(没进前 20 万词汇),而在当代语料库里,它已经冒到 6089 号了,高频中的高频。

BNC 较为全面和传统,针对性学习能帮助你阅读各类国外帝王将相的文学名著,当代语料库较为现代和实时,以和科技紧密相关。所以两者搭配,干活不累。

经过标注后,你查任何一个单词,都会告诉你这个词汇是不是四六级词汇?雅思词汇?柯林斯星级是多少?是否是牛津 3000 核心词汇?传统词频和现代词频各是多少?这样单词的重要程度你就能了解个大概了。

其次是标注动词的各个时态,每个动词有现在分词,过去式,过去分词,第三人称现在时等四种时态,用 NodeBox 和 WordNet 工具包可以方便的查询每个动词的变化形式,如此你查单词时能够给你显示出来各种变体,同时将这些变体作为新的生词再次加入到字典中,大部分字典都没法查询动词的各种时态,ECDICT 可以让你方便的查询一万多个动词(几乎所有动词)的所有派生词。

数据格式

采用 CSV 文件存储所有词条数据,用 UTF-8 进行编码,用 Excel 的话,别直接打开,否则编码是错的。在 Excel 里选择数据,来自文本,然后设定逗号分割,UTF-8 编码即可。

字段 解释
word 单词名称
phonetic 音标,以英语英标为主
definition 单词释义(英文),每行一个释义
translation 单词释义(中文),每行一个释义
pos 词语位置,用 "/" 分割不同位置
collins 柯林斯星级
oxford 是否是牛津三千核心词汇
tag 字符串标签:zk/中考,gk/高考,cet4/四级 等等标签,空格分割
bnc 英国国家语料库词频顺序
frq 当代语料库词频顺序
exchange 时态复数等变换,使用 "/" 分割不同项目,见后面表格
detail json 扩展信息,字典形式保存例句(待添加)
audio 读音音频 url (待添加)

提供一段 Python 程序来读取这些数据,可以用它转换到 SQLite 和 MySQL 的数据库里,方便你用更高级的方法筛选查询。词条数据大小写不敏感,不论从查询还是排序,还是编程接口。

词形变化

某个动词的各种时态是什么?某个形容词的比较级和最高级又是什么?某个名词的复数呢?这个单词是由哪个单词怎么演变而来的?它的原型单词(Lemma)是什么?

可能大家注意到上表有一个 Exchange 字段,它就是来做这个事情的,这是本词典一大特色之一,格式如下:

类型1:变换单词1/类型2:变换单词2

比如 perceive 这个单词的 exchange 为:

d:perceived/p:perceived/3:perceives/i:perceiving

意思是 perceive 的过去式(p) 为 perceived,过去分词(d)为 perceived, 现在分词('i')是 perceiving,第三人称单数(3)为 perceives。冒号前面具体项目为:

类型 说明
p 过去式(did)
d 过去分词(done)
i 现在分词(doing)
3 第三人称单数(does)
r 形容词比较级(-er)
t 形容词最高级(-est)
s 名词复数形式
0 Lemma,如 perceived 的 Lemma 是 perceive
1 Lemma 的变换形式,比如 s 代表 apples 是其 lemma 的复数形式

这个是根据 BNC 语料库和 NodeBox / WordNet 的语言处理工具生成的,有了这个 Exchange ,你的 App 能为用户提供更多信息。

编程接口

代码 stardict.py 用于操作该数据(兼容 Python 2/3),同时实现三个类:

类名 说明
DictCsv 用于读写 ecdict.csv 数据格式文件
StarDict 用来读写 SQLite 词典数据文件,数据字段和上面相同,接口也和 CSV 版本相同
DictMySQL MySQL 版本的数据文件读写,同样字段和接口和上面两者相同

以上三个类都统一提供如下接口:

接口 说明
query 查询单词,可以查整数 id(CSV 里 id 为行号,其他两者是自增量)或单词字符串,返回 Python 字典
match 单词匹配,匹配最相似的前 N 个单词
query_batch 批量查询
count 返回数据库词条总数
register 注册新单词
update 更新单词数据,除了 id, word 两个字段外其他都可以更新
remove 删除单词
commit 提交更改

在 stardict.tools 下面还有很多帮助类的接口,便于你维护词典数据:

  1. 导出两个字典数据的差异
  2. 导入差异数据到一个字典
  3. 导出成 StarDict(星际译王)的原格式(用于 DictEditor 生成字典)
  4. 导出成 mdict 的 .mdx 的源文件(用于 MdxBuilder 生成 mdx 字典)
  5. 词典格式 .csv, .db (Sqlite), mysql 之间数据互转。

词干查询

这个词干不是背单词时候的词根,而是 lemma。每个单词有很多变体,你编写一个抓词软件抓到一个过去式的动词 gave,如果字典里面没有的话,就需要词干数据库来查询,把 gave 转变为 give,再查词典数据库。

我扫描了 BNC 语料库全部 1 亿个词条语料生成的 lemma.en.txt 就是用来做这个事情,stardict.py 中 LemmaDB 这个类就是用来加载该数据并进行分析的。

你或许希望统计某些文档的词频,然后针对性的学习,那么你需要先将文章中出现的词先转换成该词的原型(lemma),网上有很多算法做这个事情,但是都不靠谱,最靠谱的方式就是数据库直接查询,著名的拼写检查库 hunspell 库就是这么干的。

用 LemmaDB 类可以方便的查询 ['gave', 'taken', 'looked', 'teeth'] 的 lemma 是 ['give', 'take', 'look', 'tooth'],也可以查找 'take' 这个词的若干种变体。

这个 lemma.en.txt 涵盖了 BNC 所有语料的各种词汇变形,95%的情况下你可以查到你想要的,这个作为首选方法,查不到再去依靠各种算法(判断词尾 -ed,-ing 等),最可靠的是数据库,算法次之。

单词词性

数据库中有一个字段 pos,就是中文里面的词性,动词还是名词,英文叫做 pos ,句子中的位置。同样是扫描语料库生成的,比如:

fuse:pos = n:46/v:54

代表 fuse 这个词有两个位置(词性),n(名词)占比 46%,v(动词)占比 54%,根据后面的比例,你可以直到该词语在语料库里各个 pos 所出现的频率。关于 pos 里各个字母的含义还可以看 这里这里

词典使用

同时支持 CSV, SQLite, MySQL 三种格式,github 上放的字典数据是 .csv,因为基于文本,便于 PR 和更改看 differ,但是本地使用 csv 很痛苦,文件大了打开速度很慢。所以自己使用时,一般都是转换成本地的 SQLite 数据库,这样快速很多,基本没有等待,查单词也很迅速。

日常使用,比如整理自己的卡片,生成 anki 数据等,SQLite 是首选,stardict.py 中提供完整的 SQLite 字典接口。如果自己要修订,建议先新生成一个比较小的 .csv,配合本地的大的 SQLite .db 数据库一起用,查一个单词时先查小的 .csv 里面有没有,没有的话再去查 SQLite 的库去,这样现在 .csv 里面把修订的工作干了,自己用一段时间没大问题,数据比较稳定的时候,一次性从 .csv 中合并到大的 SQLite 数据库中。 不合并也行,同时使用两个库。

如果你要提交 PR,可以把你的整个 SQLite 数据库导回 .csv 格式,然后在网上提交 differ 或者 patch。本地可能有多个 SQLite 数据库,一个就是这个 ECDICT 的数据,一些可能是你从其他什么某些资料里面导出来的比较好的释义例句等,就是你日积月累整理收集的各种材料。

生成 Anki 卡片的时候,你可以优先使用你自己的库的信息,你自己的库里没有了,再找 ECDICT。而 ECDICT 里面的各种词频标注,考试大纲标注,也可以给你提供不同层次的参考。比如你想把托福里面去除六级的词汇筛选出来(很多重合),这时 EDICT 本身的标注信息就能让你方便的完成这个工作了,你也可以把词频三万以下的单词导出来成为 Excel,进行更多处理。

最新版数据太大,我已经把数据库压缩成 stardict.7z 了,外面默认的 ecdict.csv 算是一个基础版本(76 万词条)。

模糊匹配

数据库中有一个隐藏字段,叫做 sw,这是 strip-word 的缩写,意思是单词字符串经过 strip 以后的结果。这里的 strip 不是 python string.strip 那样简单的把头部尾部的空格去除,而是去除整个字符串中非字母和数字的部分,并将字母转为小写,对应代码为:

def stripword(word):
    return (''.join([ n for n in word if n.isalnum() ])).lower()

CSV 数据库虽然没有记录该字段,但每次加载到内存以后会自动为每个单词生成该字段,而 SQLite/MySQL 数据库则是建表的时候就包含该字段,插入单词时为该单词自动计算后插入,以后不再改变。

这是参考 Mdx 词典格式引入的模糊匹配键值,当你使用 stardict.py 中的 match 方法时,如果第三个参数为 True,将会使用 sw 字段进行匹配。默认 False 使用 word 字段匹配时,是严格匹配字符串,那么你搜索 "long-time" 这个单词,只能匹配到 "long-time" 开头的所有单词,比如:

long-time, long-time base, long-time period, long-time cycle, ...

但是如果进行模糊匹配,按照 sw 字段匹配 "long-time" 这个单词,将会搜索出所有 sw 以 "longtime" 开头的单词,比如:

long-time, longtime, long time, long-time base, longtime base, ...

单词随着时间的推移,最开始是一个词组,然后变为一个减号链接的组合词,最后用的多了,减号也省了。很多词典里不一定能完全包括 long-time/long time/longtime 这类词的所有形态,但首次查询搜索失败时,可以 match 一下相同 sw 的单词,然后能够定位到该单词的其他形态。

很多词典,如星际译王都不包含 strip 字段,因此常常词典中有该单词,但是由于你输入了错误的形态,导致你查不出来,而 ECDICT 作为一个负责任的词典数据库,能够让你通过 sw 这个字段任意查询单词的各种形态。

文字处理

linguist.py 里面有一些简单的 WordNet, NodeBox 封装。

简明英汉增强版

使用 ECDICT 的数据,生成了《简明英汉字典增强版》的字典词库,可以在 GoldenDict, 欧陆, MDict, StarDict, BlueDict, EDWin 里面加载,还有 Kindle 格式,可以在 Kindle 里面挂载。这是全网收词量最多的本地化词典,再也不用联网查单词忍受网速慢,广告多和效率低的问题了。

简明英汉增强版-说明和下载

文档索引

欢迎贡献

采用 CSV 格式正是为了方便 GitHub 上提交 PR,管理 differ,欢迎大家提交各类词条增补。

TODO

HISTORY

  • 2017-4-20 在网友大力支持下,版本 1.0.14 发布,收词 222 万,同时生成 mdx 词典,见 release 页面
  • 2017-4-7 收录开源词典 《屌丝字典》的英汉部分。
  • 2017-3-31 修正当代语料库词频数据和部分 BNC 数据。
  • 2017-3-29 整理完所有动词的衍生形式
  • 2017-3-28 整理文档,补全网友提供的部分释义包括一些地名和人名
  • 2017-3-27 再次根据 BNC,并且自动生成字典中缺少的动词,名词和形容词的各种时态语态。
  • 2017-3-26 全面统计 BNC 原始语料库中一亿个单词,生成单词变化数据库 lemma.en.txt。
  • 2017-3-23 继续使用 WordNet 补全约 1 万个新增单词的英文定义。
  • 2017-3-22 使用 NodeBox 校对完成所有副词和形容词。
  • 2017-3-21 使用 NodeBox 校对完所有动词,并且添加动词各种时态。

Applications

T.vim vim 的翻译插件。 Trans.nvim neovim 的翻译插件。

ecdict's People

Contributors

alikia2x avatar futurist avatar juanzoran avatar naelsondouglas avatar skywind3000 avatar ya0guang avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

ecdict's Issues

贡献一段简单的解析exchange的函数

感谢作者前期大量的工作!非常棒的数据库!

function format($str){ //default: $str=preg_replace('/p:/', " 过去式: ", $str); $str=preg_replace('/d:/', " 过去完成: ",$str); $str=preg_replace('/i:/', " 现在分词: ",$str); $str=preg_replace('/r:/', " 比较级: ",$str); $str=preg_replace('/t:/', " 最高级: ",$str); $str=preg_replace('/s:/', " 名词复数: ",$str); $str=preg_replace('/3:/', " 第3人单数: ",$str); $str=preg_replace('/\//', "",$str); return "\n词形变化:".$str; } return ""; }

在哪种词典格式里查询单词后返回释义结果时间最短?

目前我知道这几个词典格式:mdx、eudic、stardict、CSV、SQLite、MySQL
想知道在哪种词典格式里从查询单词到返回释义结果的时间最短?

目前从这里了解到的是

本地使用 csv很痛苦,文件大了打开速度很慢。所以自己使用时,一般都是转换成本地的 SQLite 数据库,这样快速很多,基本没有等待,查单词也很迅速。

但是并没有提及其他几个格式的情况,请大家发表下看法

[URGENT]有问题的长条目

如果按照ECDICT里,行长度进行排序,会发现一些在胡说八道的超长条目,包括:

  • Sex Story
  • Guy Code
  • Libtard
  • Rules Of The Internet
  • Xenomorph
  • Ultraforge

输入错误单词后出现“你是不是要找……”的算法

比如我在必应在线词典查询senario
https://cn.bing.com/dict/search?q=senario&go=搜索&qs=ds&form=Z9LH5
这个单词拼写不对,然后它给出了“你是不是要找……”的如下内容,请问这是什么算法?本项目里有用到吗?

您要找的是不是
音近词
scenario
(可能发生的)情况, 前景; 剧情概要, 剧本;方案,方式,规划
scenarios
(可能发生的)情况, 前景; 剧情概要, 剧本;方案,方式,规划
stereo
立体(声)的
stereos
立体(声)的
scenery
风景;景色;风光;景致;背景;风景画;舞台面;scenery布景
形近词
scenario
(可能发生的)情况, 前景; 剧情概要, 剧本;方案,方式,规划

词典里exchange的一些错误

非常感谢作者!

我的脚本发现一些exchange相关的错误,大概100多条,主要是:

oov exchange,可能原因
1、词典错误,例如action是名词不该有actioning等变形
2、单词的某种变形与某个缩略语相同导致的。例如aid的复数aids与AIDS(艾滋)相同。

case-sensitive exchange
3、首字母大小写混乱导致的

bad exchange
4、exchange里某项只列了key没有列出value,例如bath的进行时:s:baths/3:baths/i:/p:bathed/d:bathed

warning: case-sensitive exchange. word=aboriginal, exchange=s:aboriginals
error: oov exchange. word=action, exchange=i:actioning
error: oov exchange. word=action, exchange=p:actioned
error: oov exchange. word=ad, exchange=s:ads
error: oov exchange. word=aid, exchange=s:aids
error: oov exchange. word=aid, exchange=3:aids
error: oov exchange. word=aim, exchange=s:aims
error: oov exchange. word=aim, exchange=3:aims
warning: case-sensitive exchange. word=amalgamate, exchange=d:amalgamated
warning: case-sensitive exchange. word=amalgamate, exchange=p:amalgamated
warning: case-sensitive exchange. word=American, exchange=s:americans
warning: case-sensitive exchange. word=Arabian, exchange=s:arabians
warning: case-sensitive exchange. word=are, exchange=s:ares
warning: case-sensitive exchange. word=aria, exchange=s:arias
error: oov exchange. word=armored, exchange=0:armore
warning: case-sensitive exchange. word=bacchanal, exchange=s:bacchanals
error: bad exchange. word=bath, exchange=i:
error: oov exchange. word=bedclothes, exchange=0:bedclothe
warning: case-sensitive exchange. word=bishop, exchange=s:bishops
warning: case-sensitive exchange. word=bower, exchange=s:bowers
warning: case-sensitive exchange. word=bower, exchange=3:bowers
warning: case-sensitive exchange. word=bower, exchange=f:bowers
warning: case-sensitive exchange. word=brook, exchange=i:brooking
warning: case-sensitive exchange. word=brown, exchange=s:browns
warning: case-sensitive exchange. word=brown, exchange=i:browning
warning: case-sensitive exchange. word=brown, exchange=3:browns
warning: case-sensitive exchange. word=Buddhist, exchange=s:buddhists
warning: case-sensitive exchange. word=burrow, exchange=s:burrows
warning: case-sensitive exchange. word=burrow, exchange=3:burrows
warning: case-sensitive exchange. word=Byzantine, exchange=s:byzantines
warning: case-sensitive exchange. word=Canadian, exchange=s:canadians
error: bad exchange. word=can, exchange=i:
error: bad exchange. word=can, exchange=d:
warning: case-sensitive exchange. word=catholic, exchange=s:catholics
warning: case-sensitive exchange. word=chamber, exchange=s:chambers
warning: case-sensitive exchange. word=chamber, exchange=3:chambers
warning: case-sensitive exchange. word=Christmas, exchange=f:Christmases
warning: case-sensitive exchange. word=clement, exchange=s:clements
warning: case-sensitive exchange. word=Conservative, exchange=s:conservatives
warning: case-sensitive exchange. word=cozen, exchange=3:cozens
error: oov exchange. word=crossbones, exchange=0:crossbone
warning: case-sensitive exchange. word=Cuban, exchange=s:cubans
error: oov exchange. word=deforest, exchange=0:defore
warning: case-sensitive exchange. word=dive, exchange=3:dives
warning: case-sensitive exchange. word=dive, exchange=s:dives
warning: case-sensitive exchange. word=down, exchange=i:downing
warning: case-sensitive exchange. word=Easter, exchange=s:easters
error: oov exchange. word=evenhanded, exchange=0:evenhand
warning: case-sensitive exchange. word=eve, exchange=s:eves
error: oov exchange. word=frank, exchange=3:franks
warning: case-sensitive exchange. word=French, exchange=f:Frenches
warning: case-sensitive exchange. word=Friday, exchange=s:fridays
warning: case-sensitive exchange. word=gibbon, exchange=s:gibbons
warning: case-sensitive exchange. word=gold, exchange=i:golding
warning: case-sensitive exchange. word=Greek, exchange=s:greeks
warning: case-sensitive exchange. word=grove, exchange=s:groves
warning: case-sensitive exchange. word=hall, exchange=i:halling
warning: case-sensitive exchange. word=hawk, exchange=i:hawking
warning: case-sensitive exchange. word=headteacher, exchange=s:headteachers
warning: case-sensitive exchange. word=helm, exchange=s:helms
warning: case-sensitive exchange. word=higher, exchange=s:highers
warning: case-sensitive exchange. word=hilly, exchange=r:hillier
error: oov exchange. word=hip, exchange=s:hips
error: bad exchange. word=hyphen, exchange=i:
error: bad exchange. word=hyphen, exchange=d:
warning: case-sensitive exchange. word=Iceland, exchange=s:icelands
error: oov exchange. word=international, exchange=s:internationals
error: oov exchange. word=labored, exchange=0:labore
warning: case-sensitive exchange. word=lady, exchange=s:ladies
warning: case-sensitive exchange. word=lance, exchange=i:lancing
warning: case-sensitive exchange. word=Latin, exchange=s:latins
warning: case-sensitive exchange. word=mall, exchange=i:malling
warning: case-sensitive exchange. word=mar, exchange=3:mars
warning: case-sensitive exchange. word=Marxism, exchange=s:marxisms
warning: case-sensitive exchange. word=Marxist, exchange=s:marxists
warning: case-sensitive exchange. word=meadow, exchange=s:meadows
error: bad exchange. word=matter, exchange=i:
warning: case-sensitive exchange. word=mesh, exchange=p:meshed
warning: case-sensitive exchange. word=mesh, exchange=d:meshed
warning: case-sensitive exchange. word=Mexican, exchange=s:mexicans
warning: case-sensitive exchange. word=mire, exchange=d:mired
warning: case-sensitive exchange. word=mire, exchange=p:mired
warning: case-sensitive exchange. word=Monday, exchange=s:mondays
error: oov exchange. word=motley, exchange=b:motlier
error: oov exchange. word=motley, exchange=z:motliest
error: oov exchange. word=motley, exchange=f:motleys
error: oov exchange. word=neighboring, exchange=0:neighbore
warning: case-sensitive exchange. word=nut, exchange=i:nutting
error: oov exchange. word=odometer, exchange=0:odomete
warning: case-sensitive exchange. word=onion, exchange=s:onions
warning: case-sensitive exchange. word=penance, exchange=s:penances
error: oov exchange. word=pet, exchange=s:pets
error: oov exchange. word=pet, exchange=3:pets
warning: case-sensitive exchange. word=polished, exchange=0:polish
warning: case-sensitive exchange. word=pope, exchange=s:popes
error: oov exchange. word=pot, exchange=s:pots
error: oov exchange. word=pot, exchange=3:pots
warning: case-sensitive exchange. word=potter, exchange=s:potters
warning: case-sensitive exchange. word=potter, exchange=3:potters
warning: case-sensitive exchange. word=provisional, exchange=s:provisionals
error: oov exchange. word=purple, exchange=z:purplest
warning: case-sensitive exchange. word=regent, exchange=s:regents
warning: case-sensitive exchange. word=republican, exchange=s:republicans
error: oov exchange. word=replete, exchange=b:more replete
error: oov exchange. word=replete, exchange=z:most replete
error: bad exchange. word=reproof, exchange=d:
warning: case-sensitive exchange. word=rocket, exchange=s:rockets
warning: case-sensitive exchange. word=rocket, exchange=3:rockets
warning: case-sensitive exchange. word=rowdy, exchange=s:rowdies
error: oov exchange. word=rim, exchange=s:rims
error: oov exchange. word=rim, exchange=3:rims
warning: case-sensitive exchange. word=Saturday, exchange=s:saturdays
warning: case-sensitive exchange. word=scotsman, exchange=s:scotsmen
warning: case-sensitive exchange. word=Scottish, exchange=s:scottish
warning: case-sensitive exchange. word=Scottish, exchange=0:scottish
warning: case-sensitive exchange. word=seller, exchange=s:sellers
warning: case-sensitive exchange. word=shepherd, exchange=s:shepherds
warning: case-sensitive exchange. word=shepherd, exchange=3:shepherds
error: bad exchange. word=sick, exchange=i:
error: bad exchange. word=sick, exchange=p:
error: bad exchange. word=sick, exchange=d:
error: oov exchange. word=ski, exchange=d:ski'd
warning: case-sensitive exchange. word=Soviet, exchange=s:soviets
warning: case-sensitive exchange. word=spear, exchange=s:spears
warning: case-sensitive exchange. word=spear, exchange=3:spears
warning: case-sensitive exchange. word=staple, exchange=s:staples
warning: case-sensitive exchange. word=staple, exchange=3:staples
warning: case-sensitive exchange. word=state, exchange=s:states
warning: case-sensitive exchange. word=state, exchange=3:states
warning: case-sensitive exchange. word=summer, exchange=s:summers
warning: case-sensitive exchange. word=summer, exchange=3:summers
warning: case-sensitive exchange. word=Sunday, exchange=s:sundays
warning: case-sensitive exchange. word=synoptic, exchange=s:synoptics
warning: case-sensitive exchange. word=tar, exchange=i:tarring
warning: case-sensitive exchange. word=Thursday, exchange=s:thursdays
warning: case-sensitive exchange. word=transformer, exchange=s:transformers
warning: case-sensitive exchange. word=Trident, exchange=s:tridents
error: oov exchange. word=trip, exchange=s:trips
error: oov exchange. word=trip, exchange=3:trips
error: oov exchange. word=trumpeter, exchange=0:trumpete
warning: case-sensitive exchange. word=Tuesday, exchange=s:tuesdays
warning: case-sensitive exchange. word=twin, exchange=s:twins
warning: case-sensitive exchange. word=twin, exchange=3:twins
error: oov exchange. word=unblemished, exchange=0:unblemish
error: oov exchange. word=unexpected, exchange=0:unexpect
error: oov exchange. word=ungrudging, exchange=0:ungrudge
error: oov exchange. word=unnoticed, exchange=0:unnotice
error: oov exchange. word=unstinting, exchange=0:unstint
error: oov exchange. word=unthreatening, exchange=0:unthreaten
error: oov exchange. word=up, exchange=s:ups
error: oov exchange. word=upbraid, exchange=0:upbray
error: oov exchange. word=vine, exchange=s:vines
warning: case-sensitive exchange. word=vicar, exchange=s:vicars
warning: case-sensitive exchange. word=walkman, exchange=s:walkmans
warning: case-sensitive exchange. word=ware, exchange=i:waring
warning: case-sensitive exchange. word=Wednesday, exchange=s:wednesdays
warning: case-sensitive exchange. word=wilt, exchange=3:wilts
warning: case-sensitive exchange. word=winter, exchange=s:winters
warning: case-sensitive exchange. word=winter, exchange=3:winters
error: bad exchange. word=worst, exchange=i:
error: bad exchange. word=worst, exchange=p:

Missing File named "bnc-lemma.txt"

Great work first of all! I was toying around with this.
To be honest I had trouble getting your example to work.

Environment

system: win7 x64
IDE: Wing IDE
python version: Python 2.7.10

Report

def test4():

An exception is thrown, when running linguist.py . See image below.

The file named "bnc-lemma.txt" doesn't exists.

How To Convert `stardict.csv` To `stardict.db`?

This piece works well:

	srcname = ur"bnc-words.csv"
	dstname = ur"bnc-words.sqlite"
	
	convert_dict(dstname, srcname)

Differ from the file stardict.csv which was extracted from stardict.7z:

	srcname = ur"stardict.csv"
	dstname = ur"stardict.sqlite"
	
	convert_dict(dstname, srcname)


thrown an MemoryError:

thrown same error when running a command-line,:

csv转mysql报错

  File "D:\workspace\dictionary\ECDICT\stardict.py", line 570, in delete_all
    with self.__conn as c:
AttributeError: __enter__

python小白,这个问题是什么原因

编程接口使用的问题

我这么用

import stardict
dict = stardict.StarDict(r'C:\Users\i\Downloads\简明增强-css\concise-enhanced.mdx.db', verbose = True)
result = dict.query('hi')
print(result)

为什么没有查询结果啊?

cursor not closed in stardict.py

In "stardict.py", cursors are not closed after using, not sure whether there will be memory leak issue.

But in sqlite3 c source code, the "close" function is not empty pysqlite_cursor_close:
(void)pysqlite_statement_reset(self->statement);
Py_CLEAR(self->statement);

However, I think it is better to close cursors ASAP, saving memory when running on cheaper cloud VMs.

多音词的音标不支持多音标

非常感谢制作这个非常棒的词典!
只是目前多音词的音标不支持多音标,是否考虑支持呢?
比如单词 wind 在表示不同词意时候有 [wind][waind] 两个发音;而单词 record 在词性不同时候有 ['rekɔ:d][ri'kɔ:d] 两个发音,等等。

When to release a new version?

Great work! One year has already passed by the latest release version. Do you have any plan to release a new version? Thanks.

有些词的exchange中的内容似乎有问题, 是bug吗?

我想用exchange的0的内容去掉一个词的时态

mirroring的exchange内容0:mirrore/1:i/s:mirrorings, 这个mirrore有问题吧?
还有不少词有类似问题, 比如strolled的exchange内容0:strol/1:pd, 这个strol不是一个词啊.

这是bug吗?

我查了一下, 必应版对应的内容也是一样的, 应该所有版本都有类似问题

能否提供一个微小的样例?

字典太大了,预览起来很麻烦。能不能提供一个只包含几十个单词的预览版,方便其他人阅读字典的格式?

DictMySQL中的几个BUG

  1. 没有commit函数,convert_dict会报错

  2. delete_all中:
    self.__cursor.execute(sql1)
    self.__conn.commit()
    需要改成
    with self.__conn as c:
    c.execute(sql1)
    不知道为什么

  3. 写入mysql数据库的时候会有几种warning:
    Warning: Incorrect string value
    Warning: Data truncated for column

根据csv文件,3分钟实现一个完整的命令行词典(含发音,模糊搜索等)

大概想法很简单:

  • fzf用于界面及模糊搜索;
  • sqlite3用于索引和查词;
  • say(mac only)用于发音

实现很简单:

先把csv导入到sqlite3的db文件~/Documents/dict/ecdict.db

mkdir ~/Documents/dict
sqlite3 ~/Documents/dict/ecdict.db
sqlite>.mode csv
sqlite>.import ecdict.csv dict

生成索引,后续用于给fzf搜索

sqlite3 ~/Documents/dict/ecdict.db 'select word from dict;' >  ~/Documents/dict/all.txt

实现shell命令,写到~/bin/ecdict中,并chmod +x ~/bin/ecdict

#!/bin/sh

function __dict_search() {
	echo $(sqlite3 ~/Documents/dict/ecdict.db "select word,phonetic,definition,translation,tag,frq,exchange from dict where word = '$1';" | awk -F '|' '{printf "%s [%s]\\n\\n%s\\n\\n%s\\n\\n%s\\n\\nfreq:%s\\n\\n%s", $1,$2,$3,$4,$5,$6,$7}')
}
__dict_search "$@"

贴到~/.bashrc或者~/.profile之类的rc文件里,souce一下就能使用ec来做搜索了

function _ecdict() {
	cmd='ecdict {}'
	cat ~/Documents/dict/all.txt| fzf --bind "enter:execute(say {} &> /dev/null &)" --preview="$cmd" --preview-window=top:80%
}

alias ec=_ecdict

效果很好,回车可以发音。

本项目的单词释义来源和自己做词典包的问题请教

  1. 本项目的单词释义是哪里搞来的?感觉有些单词释义的质量不太好
  2. 让金山词霸的本地词典也可以被别的程序访问,有办法吗?
  3. 我想抓取金山词霸或百度翻译的单词释义,不知道要用本项目的哪个文件来跑所有的单词?这种过量访问服务器的方式会不会被金山词霸或百度翻译屏蔽啊?
  4. 为了获得一个大而全的词典包,还需要从金山词霸或百度翻译外的哪些地方获取单词释义?

补充释义

treadmill 单词另外还有跑步机和走步机的含义

建议修改错误,建议加入天文学数据

韦大你好:
在论坛发现 The little dict 用了你的数据,有几处需要修改,防止以讹传讹。
修改 digitalrepresentati,,,on 为digitalrepresentation:
digitalrepresentati,,,on
n. 数位表示法,,,,,0,0,,,

建议修改

excitated,,,v.
vbl. 激发,,,,,0,0,,,
electroncephaloscop,,,e
n. 电脑波测量器,,,,,0,0,,,
frndamental,,,"n. 基本原理,基音,基谐波
a. 基本的,重要的,",,,,,0,0,,,

建议修改 左括号
aardvarks,ˈɑ:dvɑ:ks,-s form of aardvark\nn. nocturnal burrowing mammal of the grasslands of Africa that feeds on termites; sole extant representative of the order Tubulidentata,n. 土豚( aardvark的名词复数),,,,,0,0,0:aardvark/1:s3,,

建议加入:https://github.com/leosongwei/cl-astrodict

谢谢!很喜欢你的字典。

查找包含“特定单词”的词组

目前的match函数只能查询以特定单词开始的条目,be good at 用be可以查询到,可是用good查不到,希望实现查找包含“特定单词”的词组

match返回的结果不太理想

严格来讲senario这个单词是错的,正确形式是scenario

import stardict
import os
my_dict = stardict.StarDict('stardict.db', verbose=True)
print('my_dict.match--------', my_dict.match('senario'))

返回
my_dict.match-------- [(2710465, 'senario'), (2710466, 'senarius'), (2710467, 'Senarmont'), (2710468, 'Senarmont compensator'), (2710469, 'senarmont plate'), (2710470, 'Senarmont polarimeter'), (2710471, 'Senarmont prism'), (2710472, 'senarmontite'), (2710473, 'senaru'), (2710474, 'senary')]
这里面没有正确形式scenario,这个结果不太理想,用hunspell感觉不错,如下

>>> from hunspell import Hunspell
>>> h = Hunspell();
>>> h.suggest('senario')
('scenario', 'arisen')

StartDict sqlite multi thread exception

sqlite3.ProgrammingError: SQLite objects created in a thread can only be used in thread xxxx

StartDict sqlite class showes above exception with multi thread.
simply I just change "self.__conn = sqlite3.connect(self.__dbname, isolation_level = "IMMEDIATE",check_same_thread = False)", to add last parameter

for lookups/query, it works ok, but for writing, there may be issue.

补充单词

查 submode 时发现字典中没有收录

翻译应该是子模式

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.