“懒人”的做法——用PHP简易实现中文分词,“懒人”的做法——用PHP简易实现中文分词
【 tulaoshi.com - PHP 】
作者: Maco
(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/php/)
hehe, 用javascript:;">PHP去做中文分词并不是一个太明智的举动, :p
下面是我根据网上找的一个字典档, 简易实现的一个分词程序.
(注: 字典档是gdbm格式, key是词 value是词频, 约4万个常用词)
完整的程序演示及下载请参见: http://root.twomice.net/my_php4/dict/chinese_segment.php
<?php
//中文分词系统简易实现办法
//切句单位:凡是ascii值<128的字符
//常见双字节符号:《》,。、?“”;:!¥…… %$#@^&*()[]{}|\/"'
//可以考虑加入超常见中文字: 的 和 是 不 了 啊 (不过有特殊字比如 "打的" "郑和" .. :p)
//计算时间
function getmicrotime(){
list($usec, $sec) = explode(" ",microtime());
return ((float)$usec + (float)$sec);
}
$time_start = getmicrotime();
//词典类
class ch_dictionary {
var $_id;
function ch_dictionary($fname = "") {
if ($fname != "") {
$this-load($fname);
}
}
// 根据文件名载入字典 (gdbm数据档案)
function load($fname) {
$this-_id = dba_popen($fname, "r", "gdbm");
if (!$this-_id) {
echo "failed to open the dictionary.($fname)<brn";
exit;
}
}
// 根据词语返回频率, 不存在返回-1
function find($word) {
$freq = dba_fetch($word, $this-_id);
if (is_bool($freq)) $freq = -1;
return $freq;
}
}
// 分词类: (逆向)
// 先将输入的字串正向切成句子, 然后一句一句的分词, 返回由词组成的数组.
class ch_word_split {
var $_mb_mark_list; // 常见切分句子的全角标点
var $_word_maxlen; // 单个词最大可能长度(汉字字数)
var $_dic; // 词典...
var $_ignore_mark; // true or false
function ch_word_split () {
$this-_mb_mark_list = array(","," ","。","!","?",":","……","、","“","”","《","》","(",")");
$this-_word_maxlen = 12; // 12个汉字
$this-_dic = NULL;
$this-_ignore_mark = true;
}
// 设定字典
function set_dic($fname) {
$this-_dic = new ch_dictionary($fname);
}
function set_ignore_mark($set) {
if (is_bool($set)) $this-_ignore_mark = $set;
}
// 将字串切成句子再加以切分成词
function string_split($str, $func = "") {
$ret = array();
if ($func ==
来源:http://www.tulaoshi.com/n/20160129/1489985.html
看过《“懒人”的做法——用PHP简易实现中文分词》的人还看了以下文章 更多>>