write down,forget

python下的两个分词工具

<Category: NLP> 查看评论

http://code.google.com/p//
基于的MMSEG中文分词算法Python实现,正向最大匹配+多个规则。

需要安装psyco,有点费劲,下面是使用方法:

http://code.google.com/p/-cpp/
https://github.com/pluskid/pymmseg-cpp/

pymmseg-cpp安装
解压到C:\25\Lib\site-packages

输出结果

添加自定义字典words.dic

输出

# -*- coding: cp936 -*-
# -*- coding: utf-8 -*-

svn co http://codespeak.net/svn/psyco/dist/ psyco-dist
python setup.py build -c mingw32 install
http://psyco.sourceforge.net/psycoguide/binaries.html

32位系统
wget http://pymmseg-cpp.googlecode.com/files/pymmseg-cpp-linux-i386-1.0.1.tar.gz
tar vxzf pymmseg-cpp-linux-i386-1.0.1.tar.gz
mv pymmseg /usr/local/lib/python2.5/site-packages/

http://www.develer.com/oss/GccWinBinaries

本文来自: python下的两个分词工具