write down,forget
分类 Category : Diving Into ElasticSearch

ElasticSearch插件更新

<Category: Diving Into ElasticSearch, 小道消息> Comments Off on ElasticSearch插件更新

carrot2文本聚类插件
https://github.com/medcl/elasticsearch-carrot2
支持es版本到0.20.x

ik分词插件
https://github.com/medcl/elasticsearch-analysis-ik
1.集成最新的ik中文分词
IK Analyzer 2012 FF 版本:http://linliangyi2007.iteye.com/blog/1703916
2.分词模式可配,支持细粒度和智能分词两种切分模式
配置如下(elasticsearch.yml):
阅读这篇文章的其余部分 »

本文来自: ElasticSearch插件更新

ESCC#1 ElasticSearch国内开发者线下交流活动

<Category: Diving Into ElasticSearch, 小道消息> Comments Off on ESCC#1 ElasticSearch国内开发者线下交流活动

第一届elasticsearch国内开发者线下交流活动圆满结束了,尽管当天外面下着小雪,还是到场了30几位童鞋,甚至有不远从天津远道而来的,感谢大家的捧场,另外还要大力感谢人人网的饶兄,是他提供的场地。
这次线下交流吧,说是线下交流,其实主要是我给大家做培训,希望下次再搞线下交流,一定要多一点人分享,好东西,要分享。
下面是培训的内容,第一部分是基础的关于ES的介绍,后面的部分是ES分布式架构设计和调优的一些东西。
以前是参加过各种交流活动,但是组织这个线下交流活动还是头一次,哈哈,最后应该合影留念的,哎,搞忘记了。

示例程序及fiddler调试记录下载:
misc




Elastic Search Training#1 (Brief Tutorial)-ESCC#1

ElasticSearch Training#2 (Advanced Concepts)-ESCC#1

本文来自: ESCC#1 ElasticSearch国内开发者线下交流活动

Multi Field Type 介绍及使用方法

<Category: Diving Into ElasticSearch> Comments Off on Multi Field Type 介绍及使用方法

洋洋洒洒写了几千字,结果发布提交丢了,很郁闷。
捡起来重新写吧,尼玛。

翻译了一下multi-field,在线在这里http://www.elasticsearch.cn/guide/reference/mapping/multi-field-type.html
以后翻译的文章都贴到博客里面吧,省的藏得太深,大家都找不到。
博客里面会补充详细的使用方法。
下面是multi-field的介绍:

阅读这篇文章的其余部分 »

本文来自: Multi Field Type 介绍及使用方法

发布俩elasticsearch插件

<Category: Diving Into ElasticSearch> Comments Off on 发布俩elasticsearch插件

中文简繁体转换:
https://github.com/medcl/elasticsearch-analysis-stconvert
简体和繁体互相转换,比如可以通过简体来查找繁体的文档内容,或者通过繁体来在简体文档里面查找,或者不区分简繁体实现查询功能。

字符转数字:
https://github.com/medcl/elasticsearch-analysis-string2int
思路很简单,如果你的term或者field都是中文的短语,并且唯一的term很多,在做facet的时候,内存占用将会非常高,一般来说,做facet的字段的值,都是不经常变的,可以理解为常量,或者理解为实体(entity),当内存不够的情况下,会大大影响查询的效率,另外集群内带宽开销也是大大的,但是如果转换成数字来存储,即把相同的词语或者短语,通过词典,映射为唯一的数字id,然后使用数字来做标示,内存使用量会急剧下降,在客户实际的使用中,使用string2int之前,做facet查询,需要耗费10G+以上的filedcache,使用string2int之后,内存可在100M内,效果非常明显,另外查询速度也是从几十秒甚至几分钟或者直接出不来,直接变成到ms级别,效果很不错。

本文来自: 发布俩elasticsearch插件

elasticsearch-analysis-pinyin发布

<Category: Diving Into ElasticSearch> Comments Off on elasticsearch-analysis-pinyin发布

github地址:https://github.com/medcl/elasticsearch-analysis-pinyin

这个插件主要是集成了著名的Pinyin4j(http://pinyin4j.sourceforge.net/),可以实现在es里面很方便的进行中文拼音转换。
阅读这篇文章的其余部分 »

本文来自: elasticsearch-analysis-pinyin发布

elasticsearch插件carrot2发布,版本1.0

<Category: Diving Into ElasticSearch> Comments Off on elasticsearch插件carrot2发布,版本1.0

carrot2是一个对搜索结果聚合的开源项目,做了一个插件,用来实现elasticsearch搜索结果的聚合,carrot2调用的是mahout的库,本插件支持几个简单的参数配置,先发个版本,有时间再改进。
github地址:
https://github.com/medcl/elasticsearch-carrot2/downloads

安装方法:
1.下载stopword词典配置文件(https://github.com/downloads/medcl/elasticsearch-carrot2/config.zip),解压到config目录
2.下载安装插件

3.重启ElasticSearch
4.安装完毕

阅读这篇文章的其余部分 »

本文来自: elasticsearch插件carrot2发布,版本1.0

elasticsearch插件carrot2开发

<Category: Diving Into ElasticSearch> Comments Off on elasticsearch插件carrot2开发

elasticsearch开发carrot2插件

ideaj新建项目,省略102字。
阅读这篇文章的其余部分 »

本文来自: elasticsearch插件carrot2开发

使用nginx做elasticsearch的proxy

<Category: Diving Into ElasticSearch> Comments Off on 使用nginx做elasticsearch的proxy

搭建的http://s.medcl.net使用的是nginx来做elasticsearch的proxy反向代理,如何做的呢?
nginx与elasticsearch配置
阅读这篇文章的其余部分 »

本文来自: 使用nginx做elasticsearch的proxy

elasticsearch禁用dynamic mapping

<Category: Diving Into ElasticSearch> Comments Off on elasticsearch禁用dynamic mapping

同名字段的问题,不好避免,干脆禁用dynamic mapping,但是又不能全局的禁用,一般情况下,dynamic mapping还是很帅的,那怎样对个别的索引进行关闭呢?
阅读这篇文章的其余部分 »

本文来自: elasticsearch禁用dynamic mapping

ElasticSearch不同类型下同名字段排序错误

<Category: Diving Into ElasticSearch> Comments Off on ElasticSearch不同类型下同名字段排序错误

小异常,记录一把。 阅读这篇文章的其余部分 »

本文来自: ElasticSearch不同类型下同名字段排序错误