MMSeg是一个开放源代码的中文分词软件包。中文分词就是将连续的字序列切分成词的过程。例如句子:
资源描述框架是一个用于表达关于万维网上的资源的信息的语言。
MMSeg切分的结果为:
资源_描述_框架_是_一个_用于_表达_关于_万_维_网上_的_资源_的_信息_的_语言_。_
MMSeg使用Java开发。
注: MMSeg是在2007年04月01日刚刚发布的,关于它的相关的文档正在积极的准备中 ^_^
MMSeg只是实现了Chih-Hao Tsai的MMSEG算法,这是一个来源于网络的分词算法。我照抄了算法开始的部分:
MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm
Published: 1996-04-29
Updated: 1998-03-06
Document updated: 2000-03-12
License: Free for noncommercial use
Copyright 1996-2006 Chih-Hao Tsai (Email: hao520 at yahoo.com )
您可以在Chih-Hao Tsai's Technology Page找到算法的原文。
如果您只想了解一下MMSeg分词算法的基本原理可以看看MMSeg分词算法简述。
如果您想将MMSeg和Lucene集成可以看看将MMSeg和Lucene集成示例。
该软件包还没有正式发布,不过您可以在
这里下载
一个预览版。
您下载之后要将文件解压,然后导入到eclipse中。
由于MMSeg在开发的过程中使用了JUnit,所以需要在类路径中包含与之相关的jar文件,否则无法运行测试用例。
如果您不关心测试用例也可以不理会相关的错误直接运行org.solol.mmseg.core.MMSeg就可以在控制台看到分词的效果。