发布于 2016-07-07 07:28:51 | 338 次阅读 | 评论: 0 | 来源: 网友投递
jcseg 基于mmseg算法的中文分词器
jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组建,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。
Jcseg 1.9.9更新如下:
1. 上传到了maven中心仓库,依赖地址如下(终于特么上maven了,1.9.8已经同步到了maven中心仓库,1.9.9还在同步中):
* 1), jcseg (全部模块)
<dependency> <groupId>org.lionsoul</groupId> <artifactId>jcseg</artifactId> <version>1.9.9</version> </dependency>
* 2), jcseg-core:
<dependency> <groupId>org.lionsoul</groupId> <artifactId>jcseg-core</artifactId> <version>1.9.9</version> </dependency>
* 3), jcseg-analyzer (lucene或者solr):
<dependency> <groupId>org.lionsoul</groupId> <artifactId>jcseg-analyzer</artifactId> <version>1.9.9</version> </dependency>
* 4), jcseg-elasticsearch
<dependency> <groupId>org.lionsoul</groupId> <artifactId>jcseg-elasticsearch</artifactId> <version>1.9.9</version> </dependency>
* 5), jcseg-server (独立的应用服务器)
<dependency> <groupId>org.lionsoul</groupId> <artifactId>jcseg-server</artifactId> <version>1.9.9</version> </dependency>
2. JcsegTaskConfig更改构造方法如下:
JcsegTaskConfig() //不做任何内部初始化 JcsegTaskConfig(boolean autoLoad) //是否自动寻找配置文件 JcsegTaskConfig(String proFile) //指定配置文件初始化 JcsegTaskConfig(InputStream is) //指定输入流初始化
3. JcsegTaskConfig或者jcseg.properties中的词库路劲支持设置为null。
4. ADictionary词库基类增加如下载入词库方法:
load(File file) //从File中载入全部词条 load(String file) //从指定文件路劲中载入全部词条 load(InputStream is) //从输入流中载入全部词条 loadDirectory(String lexDir) //载入一个词库目录下的全部词条 loadClassPath() //从classpath中载入全部词条
5. jcseg-core-{version}.jar中自动打包了一份jcseg.properties和全部的词库,从此只需要jcseg-core-{version}.jar文件即可运行,无需任何依赖,同时也可以在jcseg-core-{version}.jar目录下存放一份jcseg.properties配置文件来自定义全部选项,例如:最大切分长度,自定义词库路径等。
6. 词库优化,增加一些新词条。
版本仓库地址:
https://github.com/lionsoul2014/jcseg
http://git.oschina.net/lionsoul/jcseg