JavaScript must be enabled in order for you to view this page. However, it seems JavaScript is either disabled or not supported by your browser. To view this page, enable JavaScript by changing your browser options, then Try again! .

我的论坛
Google 网上论坛 Beta 版
Do Best Developer
访问此论坛
 

Welcome

MMSeg是一个开放源代码的中文分词软件包。中文分词就是将连续的字序列切分成词的过程。例如句子:

资源描述框架是一个用于表达关于万维网上的资源的信息的语言。

MMSeg切分的结果为:

资源_描述_框架_是_一个_用于_表达_关于_万_维_网上_的_资源_的_信息_的_语言_。_

MMSeg使用Java开发。

注: MMSeg是在2007年04月01日刚刚发布的,关于它的相关的文档正在积极的准备中 ^_^

Resources

MMSeg只是实现了Chih-Hao Tsai的MMSEG算法,这是一个来源于网络的分词算法。我照抄了算法开始的部分:

MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm

Published: 1996-04-29
Updated: 1998-03-06
Document updated: 2000-03-12
License: Free for noncommercial use
Copyright   1996-2006 Chih-Hao Tsai (Email: hao520 at yahoo.com )

您可以在Chih-Hao Tsai's Technology Page找到算法的原文。

如果您只想了解一下MMSeg分词算法的基本原理可以看看MMSeg分词算法简述

如果您想将MMSeg和Lucene集成可以看看将MMSeg和Lucene集成示例

Download

该软件包还没有正式发布,不过您可以在 这里下载一个预览版。

您下载之后要将文件解压,然后导入到eclipse中。

由于MMSeg在开发的过程中使用了JUnit,所以需要在类路径中包含与之相关的jar文件,否则无法运行测试用例。

如果您不关心测试用例也可以不理会相关的错误直接运行org.solol.mmseg.core.MMSeg就可以在控制台看到分词的效果。

Forum

如果在使用的过程中有什么疑问或建议,可以通过如下的论坛与我和其他MMSeg的使用者交流。

Google 网上论坛 Beta 版
订阅 MMSeg
电子邮件:
访问此论坛