大数据工具：IKAnalyzer分词工具介绍与使用

日期：2024-11-01 作者：caijiyuan caijiyuan 评论：0 移动：http://22pru.gawce.com/news/9142.html

核心提示：简介为什么要分词呢，当大数据处理中要提取语句的特征值，进行向量计算。所有我们要用开源分词工具把语句中的关键词提取出来。IK

简介

为什么要分词呢，当大数据处理中要提取语句的特征值，进行向量计算。所有我们要用开源分词工具把语句中的关键词提取出来。

IK Analyzer是什么呢，就是我们需要的这个工具，是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的，结合词典分词和文法分析算法的中文分词组件。IK有很多版本，在2012版本中，IK实现了简单的分词歧义排除算法。

我们为什么选择IK作为我们的分词工具呢，这里我们简单介绍一下。这里我们采用了网上的一些介绍。

1、IK才用了特有的“正向迭代最细粒度切分算法”，支持细粒度和智能分词两种切分模式。

2、在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。

3、2012版的只能分词模式支持简单的分词排歧义处理和数量词合并输出。

4、用了多子处理器分析模式，支持英文字母数字中文词汇等

5、优化词典存储，更小的内存占用。

在pom.xml中加入如下配置即可

扩展词典：为的是让需要切分的字符串的词语根据扩展词典里的词，不要切分开来。

例如：扩展词典中有：中国的中国台湾。那么原本会切分成：中国的中国台湾在东海。会切分成：中国的中国台湾在东海

停止词典：对比停止词典，直接删掉停止词典中出现的词语

项目：maven工程

resource目录下三个配置文件

标签： 工具数据

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐行业资讯

点击排行

• Python与SEO，三大SEO网站查询工具关键词查询采	• 友益ocr提取图片文字工具 v1.0 免费版
• mage.space：AI图像内容生成工具，输入你想要图	• 大学四年自学走来，这些私藏的实用工具／学习网
• 抖音自动采集工具，快速获取粉丝ID，轻松提高粉	• 如何用工具来查询关键词的热度
• AnyTXT Searcher(文本内容搜索工具) v1.2.481.0	• 当下流行的AI搜索工具测评
• 原创度检测工具-免费原创度检测软件-在线伪原创	• 亚马逊Ai工具深度测评，怎么解决listing流量困