Giter Club home page Giter Club logo

nlpir's Introduction

NLPIR##

NLPIR存放了NLPIR大数据语义增强分析平台的相关的文件:

  • License:存放的授权文件,每个月定时更新
  • LicenseClient:授权注册机客户端,适用于商用授权用户使用;共享用户可以忽略
  • NLPIR SDK:NLPIR20项功能的二次开发接口,支持各种操作系统与开发语言;
  • NLPIR-ICTCLAS-Lucene:NLPIR-ICTCLAS针对Lucene的接口
  • NLPIR-Parser:NLPIR-Parser是NLPIR强大的客户端,无需上网,无需开发即可处理各类文档
  • paper:相关系统发表的论文
  • protege-CN:protege中文版本的知识图谱可视化编辑工具

可以通过以下方式联系到我们: 大数据搜索与挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心) 地址:北京海淀区中关村南大街5号 100081 电话:13681251543(商务助手电话) Email: [email protected] MSN: [email protected]; 网站: http://www.nlpir.org (自然语言处理与信息检索共享平台) http://www.bigdataBBS.com (大数据论坛) 微博:http://www.weibo.com/drkevinzhang/ 微信公众号:大数据千人会 Beijing Engineering Research Center of Massive Language Information Processing and Cloud Computing Application Beijing Institute of Technology Add: No.5, South St.,Zhongguancun,Haidian District,Beijing,P.R.C PC:100081 Tel: 13681251543(Assistant) Email: [email protected] MSN: [email protected]; Website: http://www.nlpir.org (Natural Language Processing and Information Retrieval Sharing Platform) http://www.bigdataBBS.com (Big Data Forum) Twitter:http://www.weibo.com/drkevinzhang/ Subscriptions: Thousands of Big Data Experts

nlpir's People

Contributors

dr-kevin-zhang avatar lingjoin-luofang avatar phylieac avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

nlpir's Issues

sentimentAnalysis授权无效

在eclipse中导入“NLPIR SDK\SentimentAnalysis\project\SentimentAnalysis_java”目录下的工程后运行提示初始化失败,error文件中显示“License file sentimentAnalysisData\Data\sentiment.user can not open!”
使用license文件夹下的授权文件替换后仍有此错误。
授权文件可能存在问题。

get errors when build ICTCLASTest.csproj

ubuntu 15.04, use xbuild(mono)
when I run xbuild ICTCLASTest.csproj in NLPIR/NLPIR SDK/NLPIR-ICTCLAS/projects/ICTCLAS_C#, I get

XBuild Engine Version 12.0
Mono, Version 3.2.8.0
Copyright (C) 2005-2013 Various Mono authors

Build started 6/20/2016 11:06:04 AM.
__________________________________________________
Project "/home/suiyuan2009/Downloads/NLPIR/NLPIR SDK/NLPIR-ICTCLAS/projects/ICTCLAS_C#/ICTCLASTest.csproj" (default target(s)):
    Target PrepareForBuild:
        Configuration: Debug Platform: AnyCPU
    Target ResolveProjectReferences:
/usr/lib/mono/xbuild/12.0/bin/Microsoft.Common.targets:  warning : Referenced Project ../../Global/Global.csproj not found, ignoring.
    Target GenerateSatelliteAssemblies:
    No input files were specified for target GenerateSatelliteAssemblies, skipping.
    Target GenerateTargetFrameworkMonikerAttribute:
    Skipping target "GenerateTargetFrameworkMonikerAttribute" because its outputs are up-to-date.
    Target CoreCompile:
        Tool /usr/bin/dmcs execution started with arguments: /noconfig /debug:full /debug+ /optimize- /out:obj/Debug/Lingjoin.ICTCLASTest.exe ICTCLAS.cs Properties/AssemblyInfo.cs Program.cs /target:exe /define:"DEBUG;TRACE" /reference:/usr/lib/mono/4.0/System.dll /reference:/usr/lib/mono/4.0/System.Configuration.dll /reference:/usr/lib/mono/4.0/System.Xml.Linq.dll /reference:/usr/lib/mono/4.0/System.Data.DataSetExtensions.dll /reference:/usr/lib/mono/4.0/Microsoft.CSharp.dll /reference:/usr/lib/mono/4.0/System.Data.dll /reference:/usr/lib/mono/4.0/System.Xml.dll /reference:/usr/lib/mono/4.0/System.Core.dll /warn:4
ICTCLAS.cs(3,16): error CS0234: The type or namespace name `Global' does not exist in the namespace `Lingjoin'. Are you missing an assembly reference?
ICTCLAS.cs(20,28): error CS0246: The type or namespace name `Base' could not be found. Are you missing an assembly reference?
ICTCLAS.cs(71,33): error CS0115: `Lingjoin.ICTCLASTest.ICTCLAS.InitFunctions()' is marked as an override but no suitable method found to override
ICTCLAS.cs(151,32): error CS0115: `Lingjoin.ICTCLASTest.ICTCLAS.DllFileName' is marked as an override but no suitable property found to override
ICTCLAS.cs(156,32): error CS0115: `Lingjoin.ICTCLASTest.ICTCLAS.AuthorizationFileName' is marked as an override but no suitable property found to override
    Task "Csc" execution -- FAILED
    Done building target "CoreCompile" in project "/home/suiyuan2009/Downloads/NLPIR/NLPIR SDK/NLPIR-ICTCLAS/projects/ICTCLAS_C#/ICTCLASTest.csproj".-- FAILED
Done building project "/home/suiyuan2009/Downloads/NLPIR/NLPIR SDK/NLPIR-ICTCLAS/projects/ICTCLAS_C#/ICTCLASTest.csproj".-- FAILED

Build FAILED.

Warnings:

/home/suiyuan2009/Downloads/NLPIR/NLPIR SDK/NLPIR-ICTCLAS/projects/ICTCLAS_C#/ICTCLASTest.csproj (default targets) ->
/usr/lib/mono/xbuild/12.0/bin/Microsoft.Common.targets (ResolveProjectReferences target) ->

    /usr/lib/mono/xbuild/12.0/bin/Microsoft.Common.targets:  warning : Referenced Project ../../Global/Global.csproj not found, ignoring.

Errors:

/home/suiyuan2009/Downloads/NLPIR/NLPIR SDK/NLPIR-ICTCLAS/projects/ICTCLAS_C#/ICTCLASTest.csproj (default targets) ->
/usr/lib/mono/xbuild/12.0/bin/Microsoft.CSharp.targets (CoreCompile target) ->

    ICTCLAS.cs(3,16): error CS0234: The type or namespace name `Global' does not exist in the namespace `Lingjoin'. Are you missing an assembly reference?
    ICTCLAS.cs(20,28): error CS0246: The type or namespace name `Base' could not be found. Are you missing an assembly reference?
    ICTCLAS.cs(71,33): error CS0115: `Lingjoin.ICTCLASTest.ICTCLAS.InitFunctions()' is marked as an override but no suitable method found to override
    ICTCLAS.cs(151,32): error CS0115: `Lingjoin.ICTCLASTest.ICTCLAS.DllFileName' is marked as an override but no suitable property found to override
    ICTCLAS.cs(156,32): error CS0115: `Lingjoin.ICTCLASTest.ICTCLAS.AuthorizationFileName' is marked as an override but no suitable property found to override

     1 Warning(s)
     5 Error(s)

Time Elapsed 00:00:02.0011590

It seems that Referenced Project ../../Global/Global.csproj not found is the problem.

KeyExtract组件的nMaxKeyLimit参数返回数量

比如一个句子分出10个单词,nMaxKeyLimit设为10,返回结果可能会只有两个nr词性的Keywords。
在某种条件下可能比较关注其它词性,比如动词。请问有相应的接口来实现过滤功能吗?

关于NLPIR SDK中的sentiment情感组件

张老师您好!

最近在使用您的NLPIR SDK做一些小系统,感觉棒极了!
由于服务器使用的是linux环境,一直使用的都是.so的库文件
但是我发现这个文件夹下
NLPIR\NLPIR SDK\Sentiment\lib
并没有提供对应的linux版本
请问您能提供一下吗?谢谢您啦!

还有就是我把授权文件复制到Data文件夹下之后,还是提示
License file DocExtractor.user can not open!
该怎么办解决呢?

libLJSentimentAnalysis情感分析返回结果都是0

使用linux64下的.so文件,无论输入什么,输出都是如下:
EMOTION_HAPPY/0
EMOTION_GOOD/0
EMOTION_ANGER/0
EMOTION_SORROW/0
EMOTION_FEAR/0
EMOTION_EVIL/0
EMOTION_SURPRISE/0

请教一下是不是我的使用姿势有问题= =!

建议张教授提供个人版的授权

现在提供完全免费和商用授权,这中间有很多个人的爱好者(如我),虽然出不起商用费用,但是愿意承担力所能及的费用,如包年费,作为个人开发使用,免得总是受过期的困扰。
还可以组织研究生建立一个群,给付费用户提供部分技术支持和测试版试用。仅是建议。

可以抽空把整个项目整理一下吗?

  1. 既然把不同组件分开了,就完全可以创建多个仓库啊!
  2. Data文件夹是公共的,所有组件都会用到,那就拿出来单独维护一份啊,不要每个组件里都带一份!
  3. Data文件夹里能只留下有用的文件吗?那些20141212.log20141222.err之类测试的日志文件和那些过期的授权文件就不要放在这里了好吗?用gitignore忽略掉啊!
  4. 项目首页那个NLPIR-ICTCLAS2016版本文件夹是什么鬼。。。里面只有一个链接指向其他的一个文件夹。。。这种就完全没有必要了啊!
  5. git作为版本管理程序,在git里还看到SentimentAnalysisSentimentNew是要怎样。。。这不是同一个组件吗??!为何要分成两个文件夹?
  6. 文档的更新能跟上吗?下载的2016版,文档却是2014版。。。。

本身GitHub是作为开源软件社区的,在上面放不开源的商业软件。。。虽然也有免费提供使用。。。但是总感觉哪里怪怪的。。。
但是其实也不是不可以。。。但是最起码也规范一点好吗?不要乱弄啊!弄得一团糟也影响形象啊是不是?
我是从官网上看到这个软件的,官网上显示的是2016最新版本下载,但是当我下载之后里面却是2014的版本。。。我去、、这管理也太不规范了吧!!!忽悠人呐!!!

情感组件sentimentNew如何使用

我先试了C#版本,但是说明文档的内容和文件夹中有出入,弄了半天也没成功
又试了project文件夹里的java工程,但是总是初始化失败
不知道是什么问题?求指导,万分感谢

建议更新下 mac 下的动态库

张教授您好,目前mac下的动态库在 ios 目录下,而且,id 很古怪。

DeepClassifier/lib/ios/libDeepClassifier.so:
    ../../../bin/Classifier/libDeepClassifier.so (compatibility version 0.0.0, current version 0.0.0)
    /usr/lib/libc++.1.dylib (compatibility version 1.0.0, current version 120.1.0)
    /usr/lib/libSystem.B.dylib (compatibility version 1.0.0, current version 1225.1.1)
DocExtractor/lib/ios/libDocExtractor.so:
    ../../../bin/DocExtractor/libDocExtractor.so (compatibility version 0.0.0, current version 0.0.0)
    /usr/lib/libc++.1.dylib (compatibility version 1.0.0, current version 120.1.0)
    /usr/lib/libSystem.B.dylib (compatibility version 1.0.0, current version 1225.1.1)
NLPIR-ICTCLAS/lib/ios/libNLPIR.so:
    ../../../bin/ICTCLAS/libNLPIR.so (compatibility version 0.0.0, current version 0.0.0)
    /usr/lib/libc++.1.dylib (compatibility version 1.0.0, current version 120.1.0)
    /usr/lib/libSystem.B.dylib (compatibility version 1.0.0, current version 1225.1.1)

一来,目录应该叫 darwin 比较合适 (参照jna叫法),或者叫 macosx 也可以啊;同时,文件名,在mac下一般是 .dylib,虽然.so也能认。
二来,在编译链接的时候,找这个目录也很困难。您可以在编译的时候处理,也可以在现在的基础上处理。可以使用命令 install_name_tool -id <name> <lib> 来指定,如install_name_tool -id libNLPIR.so NLPIR-ICTCLAS/lib/ios/libNLPIR.so.

missing files

Dear sir
I can't find out "../data/rulelist.xml", "../data/DataFile" , plz help me

E:\software\NLPIR-master\NLPIR SDK\Classify\sample\C++\main.cpp
line 16:
if (!classifier_init("../data/rulelist.xml", "../data/DataFile"))

发现DocExtractor处理后有个别字繁简自动转码问题

使用上述API,处理几个人名,发现我的名字,如”张成龙“,经提取后,变成“张成龍",只有一个字转为繁体,还有个别其他字也会出现。
文字是保存在文本文件中读取时发生的。
我用python通过ctypes调用库函数。

sentiment.user文件无法打开

使用最新的sentiment.user文件出现如下错误:
License file sentimentAnalysisData\Data\sentiment.user can not open!
而使用大数据论坛上的sentiment授权文件出现错误为:
Not valid license or your license expired! Please feel free to contact the author!

所以,应该不是授权文件没有找到的问题吧。另外我也已经尝试吧Data文件移到根目录,仍然是无法打开的错误。

多次调用情感分析接口报错 Invalid memory access

本想偷懒用于多个句子的情感分析,但是突然多次调用情感分析的方法,会出现如下的错误,而单次调用则不会报错。
Exception in thread "main" java.lang.Error: Invalid memory access
at com.sun.jna.Native.invokePointer(Native Method)
at com.sun.jna.Function.invokePointer(Function.java:470)
at com.sun.jna.Function.invokeString(Function.java:651)
at com.sun.jna.Function.invoke(Function.java:395)
at com.sun.jna.Function.invoke(Function.java:315)
at com.sun.jna.Library$Handler.invoke(Library.java:212)
at com.sun.proxy.$Proxy1.NLPIR_ParagraphProcess(Unknown Source)

502 Bad gateway

您好,
从昨晚(即5-26)开始,访问服务还有登录账户都出现了502的报错,想请问是什么原因呢?

谢谢

关于提取关键字SDK,错误提示“KeyExtractor初始化失败!”

  1. 使用目录LicenseClient/win64/LicenseClient.exe验证授权文件,文件有效,并放在工程Data文件下,但依然出现初始化文件。(相关文件路径有修改,使用IDE是Intellij idea)
  2. 初始化函数的第三个参数需要传入参数吗?
   static {
		File dataFile = new File("03_NLPIR\\KeyExtract\\Data");
		if ( CLibraryKeyExtractor.instance.KeyExtract_Init(dataFile.getAbsolutePath(), 1, "") ) {
			System.out.println("KeyExtractor初始化成功");
		} else {
			System.out.println("KeyExtractor初始化失败");
			System.exit(-1);
		}
	    }

SentimentAnalysis情感分析返回结果都是0

使用LJSentimentAnalysis情感分析返回结果都是0

查看了以往issue,是否需要更新对应的数据?

此外,SentimentAnalysis使用ImportUserDict载入词典后,是与原有模型一起起作用吗?谢谢!

这两个组件里的函数的问题

请问NLPIR分词组件里的NLPIR_NWI_开头的函数和NewWordFinder新词发现组件里的NWF_Batch_开头的函数有什么区别和联系嘞😶?
两个组件里include文件夹里的头文件的注释是一样的😒。。。完全一样😔。。。(我就不说NLPIR_NWI_AddMem函数和NWF_Batch_AddMem函数给的注释是从上面复制下来的😌,参数名和意义和函数不符合了😖0.0)

摘要组件linux下错误

windows下java调用LJSummary.dll可以正常使用,linux 64位下使用libLJSummary.so报错,使用DS_Init初始化为false,DS_GetLastErrMsg打印结果为空

分词之后段落发生变化

我在windows平台下使用NLPIR进行分词,使用默认的NLPIR_FileProcess函数,POS选择为1,

NLPIR_FileProcess("C01.txt", "C01.sgemented.txt", 1);

然后分词后生成的C01.segmented.txt和分词之前的C01.txt的行数不同(段落数不同),有一些段落被合并了。

我使用的文件的编码是UTF-8, 换行符号使用LF或者CR/LF结果都是一样。

请问这是为何呢?
谢谢

情感分析组件无输出结果

按照文档上面的部署方法,运行示例代码:

#ifdef _WIN64
#pragma comment(lib, "../lib/win64/LJSentimentAnalysis.lib")
#else
#pragma comment(lib, "../lib/win32/LJSentimentAnalysis.lib")
#endif

#include <cstdio>
#include <string>
#include <vector>
#include <io.h>
#include <fstream>
#include <sstream>
#include "LJSentimentAnalysis.h"

using namespace std;

const string rootDir = "../";

int main(void)
{
	if (LJST_Inits(rootDir.c_str(), 0, "") == 0)
	{
		printf("初始化失败");
		printf("按任意键继续...");
		getchar();
		return 0;
	}


	/**
	* 根据内容获得情感分析
	*/
	// sentimentAnalysis.LJST_ImportUserDict(sentimentAnalysis.RootDir + "test.txt", true);//导入词典
	char *result = new char[1024];//分析结果
	memset(result, 0, sizeof(char) * 1024);
	string content = "被查封7周之后,全球最大BT网站“海盗湾”又重新活过来了 | Pirate Bay(海盗湾)是全球最大的 BT 种子分享下载网站,去年 12 月因为遭到瑞典当局查封关闭服务长达 7 周时间。近日海盗湾以熟悉的thepiratebay.se域名继续上线运行,并在网站上用凤凰取代了海盗旗。";
	//根据内容获得情感分析
	LJST_GetParagraphSent(content.c_str(), result);
	printf("根据文本内容分析结果:\n%s", result);//输出分析结果
	delete[] result;

	/**
	* 根据文本文件获得情感分析
	*/
	//result = new StringBuilder();
	//sentimentAnalysis.LJST_GetFileSent(sentimentAnalysis.RootDir + "content.txt", result);
	// printf("根据文本文件分析结果:\n" + result);//输出分析结果

	LJST_Exits();

	printf("结束");
	printf("按任意键继续...");
	getchar();
	return 0;
}

但是返回结果全为0

根据文本内容分析结果:
EMOTION_HAPPY/0
EMOTION_GOOD/0
EMOTION_ANGER/0
EMOTION_SORROW/0
EMOTION_FEAR/0
EMOTION_EVIL/0
EMOTION_SURPRISE/0
结束按任意键继续...

尽管换了其他文本的结果都是一样,请问这是为什么呢?谢谢!

Sentiment Analysis初始化失败

请教各位大神,我按照Sentiment Analysis情感分析组件使用手册运行结果显示:
windows 7
amd64
SentimentAnalysis初始化失败
[2016-08-19 17:22:48] License file sentimentAnalysisData\Data\sentiment.user can not open!
Cannot write log file sentimentAnalysisData\20160819.err!
请问这是什么原因?授权失败吗?该怎样解决呢?希望各位大神不吝指教!!

使用SentimentAnalysis_java出現錯誤

最近使用SentimentAnalysis_java組件出現以下錯誤
windows 8.1
amd64
SentimentAnalysis初始化失败
[2016-03-18 14:51:53] License file sentimentAnalysisData\Data\sentiment.user can not open!
Cannot write log file sentimentAnalysisData\20160318.err!

不知道是否是授權過期?(完全按照使用手冊上操作,但資料夾與手冊對照位置皆有所出入,不知道是否是操作失當導致)

又是sentimentAnalysis授权失效

大家好,又出现了之前的那个问题。

使用最新版的sentiment.user文本提示““License file Data\sentiment.user can not open!””,使用历史版本中的sentiment.user则提示"Not valid license or your license expired! Please feel free to contact the author!"

是否又需要更新license文件?我是2015年9月18日测试的,得到了上面的结果。
期待您的回答。谢谢!

ictclas UserDictPrior

张教授, 分词ictclas中如何设置用户词典优先呢?
config.xml设置UserDictPrior为true,没有得到期望结果。
望解惑!谢谢!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.