ElasticSearch插件更新

carrot2文本聚类插件 https://github.com/medcl/elasticsearch-carrot2 支持es版本到0.20.x ik分词插件 https://github.com/medcl/elasticsearch-analysis-ik 1.集成最新的ik中文分词 IK Analyzer 2012 FF 版本:http://linliangyi2007.iteye.com/blog/1703916 2.分词模式可配,支持细粒度和智能分词两种切分模式 配置如下(elasticsearch.yml):

ESCC#1 ElasticSearch国内开发者线下交流活动

第一届elasticsearch国内开发者线下交流活动圆满结束了,尽管当天外面下着小雪,还是到场了30几位童鞋,甚至有不远从天津远道而来的,感谢大家的捧场,另外还要大力感谢人人网的饶兄,是他提供的场地。 这次线下交流吧,说是线下交流,其实主要是我给大家做培训,希望下次再搞线下交流,一定要多一点人分享,好东西,要分享。 下面是培训的内容,第一部分是基础的关于ES的介绍,后面的部分是ES分布式架构设计和调优的一些东西。 以前是参加过各种交流活动,但是组织这个线下交流活动还是头一次,哈哈,最后应该合影留念的,哎,搞忘记了。 示例程序及fiddler调试记录下载: misc Elastic Search Training#1 (Brief Tutorial)-ESCC#1 ElasticSearch Training#2 (Advanced Concepts)-ESCC#1

Multi Field Type 介绍及使用方法

洋洋洒洒写了几千字,结果发布提交丢了,很郁闷。 捡起来重新写吧,尼玛。 翻译了一下multi-field,在线在这里http://www.elasticsearch.cn/guide/reference/mapping/multi-field-type.html 以后翻译的文章都贴到博客里面吧,省的藏得太深,大家都找不到。 博客里面会补充详细的使用方法。 下面是multi-field的介绍:

发布俩elasticsearch插件

中文简繁体转换: https://github.com/medcl/elasticsearch-analysis-stconvert 简体和繁体互相转换,比如可以通过简体来查找繁体的文档内容,或者通过繁体来在简体文档里面查找,或者不区分简繁体实现查询功能。 字符转数字: https://github.com/medcl/elasticsearch-analysis-string2int 思路很简单,如果你的term或者field都是中文的短语,并且唯一的term很多,在做facet的时候,内存占用将会非常高,一般来说,做facet的字段的值,都是不经常变的,可以理解为常量,或者理解为实体(entity),当内存不够的情况下,会大大影响查询的效率,另外集群内带宽开销也是大大的,但是如果转换成数字来存储,即把相同的词语或者短语,通过词典,映射为唯一的数字id,然后使用数字来做标示,内存使用量会急剧下降,在客户实际的使用中,使用string2int之前,做facet查询,需要耗费10G+以上的filedcache,使用string2int之后,内存可在100M内,效果非常明显,另外查询速度也是从几十秒甚至几分钟或者直接出不来,直接变成到ms级别,效果很不错。

elasticsearch插件carrot2发布,版本1.0

carrot2是一个对搜索结果聚合的开源项目,做了一个插件,用来实现elasticsearch搜索结果的聚合,carrot2调用的是mahout的库,本插件支持几个简单的参数配置,先发个版本,有时间再改进。 github地址: https://github.com/medcl/elasticsearch-carrot2/downloads 安装方法: 1.下载stopword词典配置文件(https://github.com/downloads/medcl/elasticsearch-carrot2/config.zip),解压到config目录 2.下载安装插件

3.重启ElasticSearch 4.安装完毕