add mynlp

2025-05-09 23:51:34 +08:00 · 2019-09-03 19:18:39 +08:00 · 2019-09-03 19:18:39 +08:00 · bea37293ad
commit bea37293ad
parent 1caf64f4ac
9 changed files with 173 additions and 0 deletions
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@ -11,6 +11,7 @@
 * 【extra】        Sftp得put方法增加进度支持（issue#518@Github）
 * 【core】        ArrayUtil增加distinct方法
 * 【http】         去除log模块依赖，Cookie中去除日志提示，body方法传入JSON对象废弃，未来移除json模块依赖
 * 【extra】        添加MyNLP支持（issue#519@Github）
 ### Bug修复
--- a/hutool-extra/pom.xml
+++ b/hutool-extra/pom.xml
@ -200,5 +200,11 @@
 			<version>1.2</version>
 			<optional>true</optional>
 		</dependency>
 		<dependency>
 			<groupId>com.mayabot.mynlp</groupId>
 			<artifactId>mynlp-segment</artifactId>
 			<version>3.0.0</version>
 			<optional>true</optional>
 		</dependency>
 	</dependencies>
 </project>
--- a/hutool-extra/src/main/java/cn/hutool/extra/tokenizer/engine/TokenizerFactory.java
+++ b/hutool-extra/src/main/java/cn/hutool/extra/tokenizer/engine/TokenizerFactory.java
@ -10,6 +10,7 @@ import cn.hutool.extra.tokenizer.engine.ikanalyzer.IKAnalyzerEngine;
 import cn.hutool.extra.tokenizer.engine.jcseg.JcsegEngine;
 import cn.hutool.extra.tokenizer.engine.jieba.JiebaEngine;
 import cn.hutool.extra.tokenizer.engine.mmseg.MmsegEngine;
 import cn.hutool.extra.tokenizer.engine.mynlp.MynlpEngine;
 import cn.hutool.extra.tokenizer.engine.word.WordEngine;
 import cn.hutool.log.StaticLog;
@ -77,6 +78,11 @@ public class TokenizerFactory {
 		} catch (NoClassDefFoundError e) {
 			// ignore
 		}
 		try {
 			return new MynlpEngine();
 		} catch (NoClassDefFoundError e) {
 			// ignore
 		}
 		throw new TokenizerException("No tokenizer found ! Please add some tokenizer jar to your project !");
 	}
 }
--- a/hutool-extra/src/main/java/cn/hutool/extra/tokenizer/engine/mynlp/MynlpEngine.java
+++ b/hutool-extra/src/main/java/cn/hutool/extra/tokenizer/engine/mynlp/MynlpEngine.java
@ -0,0 +1,44 @@
 package cn.hutool.extra.tokenizer.engine.mynlp;
 import com.mayabot.nlp.segment.Lexer;
 import com.mayabot.nlp.segment.Lexers;
 import com.mayabot.nlp.segment.Sentence;
 import cn.hutool.core.util.StrUtil;
 import cn.hutool.extra.tokenizer.Result;
 import cn.hutool.extra.tokenizer.TokenizerEngine;
 /**
 * MYNLP 中文NLP工具包分词实现<br>
 * 项目地址：https://github.com/mayabot/mynlp/
 * 
 * @author looly
 *
 */
 public class MynlpEngine implements TokenizerEngine {
 	private Lexer lexer;
 	/**
 	 * 构造
 	 */
 	public MynlpEngine() {
 		this.lexer = Lexers.core();
 	}
 	/**
 	 * 构造
 	 * 
 	 * @param lexer 分词器接口{@link Lexer}
 	 */
 	public MynlpEngine(Lexer lexer) {
 		this.lexer = lexer;
 	}
 	@Override
 	public Result parse(CharSequence text) {
 		final Sentence sentence = this.lexer.scan(StrUtil.str(text));
 		return new MynlpResult(sentence);
 	}
 }
--- a/hutool-extra/src/main/java/cn/hutool/extra/tokenizer/engine/mynlp/MynlpResult.java
+++ b/hutool-extra/src/main/java/cn/hutool/extra/tokenizer/engine/mynlp/MynlpResult.java
@ -0,0 +1,50 @@
 package cn.hutool.extra.tokenizer.engine.mynlp;
 import java.util.Iterator;
 import com.mayabot.nlp.segment.Sentence;
 import com.mayabot.nlp.segment.WordTerm;
 import cn.hutool.extra.tokenizer.Result;
 import cn.hutool.extra.tokenizer.Word;
 /**
 * MYNLP 中文NLP工具包分词结果实现<br>
 * 项目地址：https://github.com/mayabot/mynlp/
 * 
 * @author looly
 *
 */
 public class MynlpResult implements Result {
 	private Iterator<WordTerm> result;
 	/**
 	 * 构造
 	 * 
 	 * @param sentence 分词结果（中文句子）
 	 */
 	public MynlpResult(Sentence sentence) {
 		this.result = sentence.iterator();
 	}
 	@Override
 	public boolean hasNext() {
 		return result.hasNext();
 	}
 	@Override
 	public Word next() {
 		return new MynlpWord(result.next());
 	}
 	@Override
 	public void remove() {
 		result.remove();
 	}
 	@Override
 	public Iterator<Word> iterator() {
 		return this;
 	}
 }
--- a/hutool-extra/src/main/java/cn/hutool/extra/tokenizer/engine/mynlp/MynlpWord.java
+++ b/hutool-extra/src/main/java/cn/hutool/extra/tokenizer/engine/mynlp/MynlpWord.java
@ -0,0 +1,45 @@
 package cn.hutool.extra.tokenizer.engine.mynlp;
 import com.mayabot.nlp.segment.WordTerm;
 import cn.hutool.extra.tokenizer.Word;
 /**
 * mmseg分词中的一个单词包装
 * 
 * @author looly
 *
 */
 public class MynlpWord implements Word {
 	private WordTerm word;
 	/**
 	 * 构造
 	 * 
 	 * @param word {@link WordTerm}
 	 */
 	public MynlpWord(WordTerm word) {
 		this.word = word;
 	}
 	@Override
 	public String getText() {
 		return word.getWord();
 	}
 	@Override
 	public int getStartOffset() {
 		return this.word.offset;
 	}
 	@Override
 	public int getEndOffset() {
 		return getStartOffset() + word.word.length();
 	}
 	@Override
 	public String toString() {
 		return getText();
 	}
 }
--- a/hutool-extra/src/main/java/cn/hutool/extra/tokenizer/engine/mynlp/package-info.java
+++ b/hutool-extra/src/main/java/cn/hutool/extra/tokenizer/engine/mynlp/package-info.java
@ -0,0 +1,8 @@
 /**
 * MYNLP 中文NLP工具包分词实现<br>
 * 项目地址：https://github.com/mayabot/mynlp/
 * 
 * @author Looly
 * @since 4.6.5
 */
 package cn.hutool.extra.tokenizer.engine.mynlp;
--- a/hutool-extra/src/test/java/cn/hutool/extra/tokenizer/TokenizerUtilTest.java
+++ b/hutool-extra/src/test/java/cn/hutool/extra/tokenizer/TokenizerUtilTest.java
@ -3,6 +3,7 @@ package cn.hutool.extra.tokenizer;
 import java.util.Iterator;
 import org.junit.Assert;
 import org.junit.Ignore;
 import org.junit.Test;
 import cn.hutool.core.collection.CollUtil;
@ -12,6 +13,7 @@ import cn.hutool.extra.tokenizer.engine.ikanalyzer.IKAnalyzerEngine;
 import cn.hutool.extra.tokenizer.engine.jcseg.JcsegEngine;
 import cn.hutool.extra.tokenizer.engine.jieba.JiebaEngine;
 import cn.hutool.extra.tokenizer.engine.mmseg.MmsegEngine;
 import cn.hutool.extra.tokenizer.engine.mynlp.MynlpEngine;
 import cn.hutool.extra.tokenizer.engine.word.WordEngine;
 /**
@ -86,6 +88,16 @@ public class TokenizerUtilTest {
 		Assert.assertEquals("这两个 方法 的 区别 在于 返回值", resultStr);
 	}
 	@Test
 	@Ignore
 	public void mynlpTest() {
 		// 此单元测试需要JDK8，默认忽略
 		TokenizerEngine engine = new MynlpEngine();
 		Result result = engine.parse(text);
 		String resultStr = CollUtil.join((Iterator<Word>)result, " ");
 		Assert.assertEquals("这 两个 方法 的 区别 在于 返回 值", resultStr);
 	}
 	private void checkResult(Result result) {
 		String resultStr = CollUtil.join((Iterator<Word>)result, " ");
 		Assert.assertEquals("这 两个 方法 的 区别 在于 返回 值", resultStr);
--- a/pom.xml
+++ b/pom.xml
@ -89,6 +89,7 @@
 				<configuration>
 					<source>${compile.version}</source>
 					<target>${compile.version}</target>
 					<verbose>true</verbose>
 				</configuration>
 			</plugin>
 			<!-- Javadoc -->