祖籍/n 浙江省/ns 温州市/ns ，/wd 1975年/t 2月/t 28日/t 出生/vi 于/p 浙江/ns 温州/ns ，/wd 歌手/n 。/wj 1987年/t 考上/v 浙江/ns 温州/ns 清/a 县/n 小/a 百花/n 越剧团/n ，/wd 在/p 团里/n 唱/v 小生/n _

结巴中文分词的结果是：

祖籍/n浙江省/ns温州市/ns，/x1975/m年/m2/m月/m28/m日出/v生于/v浙江/ns温州/ns，/x歌手/n。/x1987/m年/m考上/v浙江/ns温州/ns清县/ns小/n百花/n越剧团/nt，/x在/p团里/n唱/v小生/n（分词及词性标注完成，耗时：1.96300005913秒）

测试二：

测试的语句是：工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作

NLPIR/ICTCLAS2013的结果是：

工/n 信/n 处女/n 干事/n 每月/r 经过/p 下属/v 科室/n 都/d 要/v 亲口/d 交代/v 24/m 口/q 交换机/n 等/udeng 技术性/n 器件/n 的/ude1 安装/vn 工作/vn _

结巴中文分词的结果是：

工信处/n女干事/n每月/r经过/p下属/v科室/n都/d要/v亲口/n交代/n24/m口/n交换机/n等/u技术性/n器件/n的/uj安装/v工作/vn（分词及词性标注完成，耗时：1.93799996376秒。）

从以上的两个句子的分词来看结巴中文分词的结果都略好于NLPIR/ICTCLAS2013的结果，但是不能排除这两个是特例的可能性。而且可以看出结巴中文分词似乎是采取长词优先的方法所以会在长词错分成短词的情况下性能要好，但是也无法评价如果是其他的实验条件下这是否是个好的处理方式。

2 安装Python下的NLPIR/ICTCLAS2014

在32位，Windows7 ，Python2.7下安装最新的NLPIR/ICTCLAS2014。

具体步骤：

（1）下载链接http://ictclas.nlpir.org/downloads

（2）参照安装流程 http://1988eiying.blog.163.com/blog/static/7232177620141233525469/，解压之后目录如下：

（3）将【Data】整个文件夹拷贝到【sample】--【pythonsample】下

（4）将【lib】文件夹里的各个型号的dll 拷贝到【pythonsample】 --【nlpir】里，替换原来的旧的dll，文件名字要对应更改，如拷过来的是win32下的NLPIR.dll，要对应的改成NLPIR32.dll 放到【pythonsample】 --【nlpir】里

（5）打开【pythonsample】里的nlpir.py ，将libFile = './nlpir/NLPIR64.dll' 这一句里的dll改成对应自己系统版本的dll，例如是32位的，就改成libFile= './nlpir/NLPIR32.dll'

（6）将Data，nlpir，__init__.py,nlpir.py拷贝到项目代码下，运行nlpir.py测试是否可以分词

（7）在ICTCLAS2014Test.py中import nlpir用于实测，与结巴中文分词进行比较

#coding=utf-8
'''''
Created on 2014-3-19
测试NLPIR/ICTCLAS2014分词工具
@author: liTC
'''
import nlpir
import time
t1=time.time()
#f=open("t_with_splitter.txt","r")#读取文本
#string=f.read().decode("utf-8")
string='工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
words =nlpir.Seg(string) #进行分词
result="" #记录最终结果的变量
for w in words:
result+= w[0]+"/"+w[1]#加词性标注
print result
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成，耗时："+str(t2-t1)+"秒。") #反馈结果

测试一：

测试的语句是：“祖籍浙江省温州市，1975年2月28日出生于浙江温州，歌手。1987年考上浙江温州清县小百花越剧团，在团里唱小生。”

NLPIR/ICTCLAS2014的结果是：

祖籍/n浙江省/ns温州市/ns，/wd1975年/t2月/t28日/t出生/vi于/p浙江/ns温州/ns，/wd歌手/n。/wj1987年/t考上/v浙江/ns温州/ns清/a县/n小/a百花/n越剧团/n，/wd在/p团里/n唱/v小生/n。/wj(分词及词性标注完成，耗时：0.00100016593933秒)

测试二：

测试的语句是：工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作

NLPIR/ICTCLAS2014的结果是：

工/n信/n处女/n干事/n每月/r经过/p下属/v科室/n都/d要/v亲口/d交代/v24/m口/q交换机/n等/udeng技术性/n器件/n的/ude1安装/vn工作/vn(分词及词性标注完成，耗时：0.00200009346008秒。)

从以上的两个句子的分词来看NLPIR/ICTCLAS2014相对于NLPIR/ICTCLAS2013结果几乎没有变化，结巴中文分词的结果都略好于NLPIR/ICTCLAS2014的结果，但是NLPIR/ICTCLAS2014要比结巴中文分词至少快1000倍，如果用于科研结巴中文分词或许可以获得容忍，但是要是用于产品，绝对是选NLPIR/ICTCLAS2014。

三去停用词

def StopwordsRm(self,words):
result=''
print words
wordList=[word for word in words.split('#')]
print wordList[:20]
stopwords = {}.fromkeys([ line.rstrip()for line in open(conf.PreConfig.CHSTOPWORDS)])
cleanTokens= [w for w in wordList ifw not in stopwords]
print cleanTokens[:20]
for c in cleanTokens:
result+=c+"#"
print result
returnresult

在这个地方我遇到了一个很烦人的问题，那就是 Python的中文解码问题，在最开始的一个小时里我在在去停用词之后一直看到的结果是这样的：

\xe3\x80\x90/\xe6\x97\xa5\xe6\x9c\x9f/\xe3\这种东西没说的肯定是解码造成的，于是开始找解决的方法。

后来找到CSDN上http://blog.csdn.net/samxx8/article/details/6286407

感觉说的很详细，于是便开始尝试里面介绍的方法。

在经过一些尝试以后我发现，虽然这并不影响最后的得到分词和去除停用词的结果，但是是没有办法解决在print wordList[:20]和print cleanTokens[:20]出现的乱码让我很不爽。所以我决定继续尝试一下。在网上查找一下这个问题，发现好像很多人都曾经遇到过，并且给出来一些解决方案。从大家的博客内容了可以总结出几个问题，Python对中文支持不是很好，Python 2.x对中文的支持不好，windows默认字符集下Python2.x经常会出现乱码情况，windows下的eclipse里面写的python 2.x程序对中文支持很不好。后来我还是找到了解决方案，那就是：