Comments (6)
文档有说过,中英混合的最多只支持2个字符;超过2个,单独切分就可以了没必要组在一起了。
Best Regards
hightman/海鳗
微信/微博:hightman
Github:https://github.com/hightman
在 2016年2月29日,下午10:16,iracheng [email protected] 写道:
自定义了一个词库,下面是词条内容
WORD TF IDF ATTR
京基ab 1.00 1.00 @^@
京基1 1.00 1.00 @^@
京基a 1.00 1.00 @^@
京基1ab 1.00 1.00 @^@
京基1a 1.00 1.00 @^@
京基100 1.00 1.00 @^@测试代码:
set_charset('utf8'); //编码 $so->set_dict('/home/ira/www/farm.ira.orantrip.com/tmp/article/all.xdb'); $so->set_ignore(false); $so->set_ignore(true); //忽略标点符号 $so->send_text($text); print_r($so->get_words('@')); ?>回传内容:
Array
(
[0] => Array
(
[word] => 京基1
[times] => 1
[weight] => 1
[attr] => @
)[1] => Array
(
[word] => 京基a
[times] => 1
[weight] => 1
[attr] => @
)[2] => Array
(
[word] => 京基1a
[times] => 1
[weight] => 1
[attr] => @
)[3] => Array
(
[word] => 京基ab
[times] => 1
[weight] => 1
[attr] => @
)
)需要被分词出来的京基100没有被分出来,英文数字总和大于2的词条也没有被分出,是否有什么设置可以处理这个问题?谢谢。
—
Reply to this email directly or view it on GitHub #29.
from scws.
目的是想要分析地名或是建築物的名稱,如果切分的話無法判斷目標的內容是否有出現,像是「昂坪360」、「天际100」、「京基100」,實現搜索的比對沒辦法對應出來,是否有設置能夠擴充支持的字符數量?謝謝。
from scws.
目前没有。
Best Regards
hightman/海鳗
微信/微博:hightman
Github:https://github.com/hightman
在 2016年3月1日,下午3:31,iracheng [email protected] 写道:
目的是想要分析地名或是建築物的名稱,如果切分的話無法判斷目標的內容是否有出現,像是「昂坪360」、「天际100」、「京基100」,實現搜索的比對沒辦法對應出來,是否有設置能夠擴充支持的字符數量?謝謝。
—
Reply to this email directly or view it on GitHub #29 (comment).
from scws.
应该以自定义词典优先级为准吧?中英文混编的词也很多的,比如:好123,4399游戏,300英雄,163邮箱,2016传奇,荣威550,本田XR-V,大众Polo,神仙道2016,小米note,Wifi万能钥匙,量贩ktv
如果这些词出现在字典里,感觉应该要识别出来才对
另外还有个问题就是不支持空格,比如 iphone 6s,小米5s Plus,等等。。希望能改进支持。。
from scws.
+1
from scws.
应该以自定义词典优先级为准吧?中英文混编的词也很多的,比如:好123,4399游戏,300英雄,163邮箱,2016传奇,荣威550,本田XR-V,大众Polo,神仙道2016,小米note,Wifi万能钥匙,量贩ktv
如果这些词出现在字典里,感觉应该要识别出来才对
另外还有个问题就是不支持空格,比如 iphone 6s,小米5s Plus,等等。。希望能改进支持。。
觉得意义不大,4399游戏切成4399+游戏也不影响搜索
from scws.
Related Issues (20)
- php7.3扩展编译出错
- ubuntu18安装后执行命令报错 HOT 5
- php ffi 支持的dll怎么编译
- 请问如何使用pecl安装scws extension? HOT 2
- 项目停止维护了吗?词库还停留在16年,太老旧了把,啥时候更新 HOT 4
- php8.0.0 编译错误 1.2.3 HOT 3
- 自定义词典貌似无效 HOT 1
- 请问下目前scws-gen-dict是否支持将 xdb转换为txt格式
- 如何自定义rules.ini HOT 2
- 大佬,php8+的编译能不能适配一下~~~ HOT 2
- php-8.1.7编译php扩展时在make时出错 HOT 1
- _xtree_node_search() 函数中compare string的实现有bug? HOT 3
- 编译报错may be used uninitialized in this function HOT 1
- 分词不成功,只要是中文都是一个个字分开了,所有中文都识别成了un属性 HOT 2
- 请问,分词过程中能否设置只对中文进行分词吗? HOT 1
- top_word结构中attr的怪现像 HOT 7
- 直接git clone下来的代码,编译php8.0扩展的时候报错了 HOT 4
- php8.1 分词碰到空格 或者 特殊的符号啥的 比如 ++ 后面的词就不会继续分了 HOT 1
- 建议:给xattr参数加const
- 建议:统一xdb与xtree的结构
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from scws.