PHP分词工具,SCWS安装

简介

SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。

这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词

下载SCWS源码包

# wget http://www.xunsearch.com/scws/down/scws-1.2.2.tar.bz2
# tar jxvf scws-1.2.2.tar.bz2
# cd scws-1.2.2

编译安装

# ./configure --prefix=/wwjie/scws
# make && make install

安装词库

# wget http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2
# wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
# tar xvjf scws-dict-chs-gbk.tar.bz2
# tar xvjf scws-dict-chs-utf8.tar.bz2

安装PHP扩展

# cd ./phpext
# phpize 
# ./configure --with-php-config=/usr/local/php5410/bin/php-config
# make && make install

编辑php.ini 添加如下内容

[scws]
;
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 extension = scws.so 指定绝对路径。
extension = scws.so
scws.default.charset = utf8
scws.default.fpath = /wwjie/scws/etc

使用

<?php
$so = scws_new();
$so->set_charset('gbk');
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
$so->send_text("我是一个中国人,我会C++语言,我也有很多T恤衣服");
while ($tmp = $so->get_result())
{
  print_r($tmp);
}
$so->close();

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注