write down,forget

发布俩elasticsearch插件

<Category: Diving Into ElasticSearch> 查看评论

中文简繁体转换:
https://github.com/medcl/elasticsearch-analysis-
简体和繁体互相转换,比如可以通过简体来查找繁体的文档内容,或者通过繁体来在简体文档里面查找,或者不区分简繁体实现查询功能。

字符转数字:
https://github.com/medcl/elasticsearch-analysis-
思路很简单,如果你的term或者field都是中文的短语,并且唯一的term很多,在做facet的时候,内存占用将会非常高,一般来说,做facet的字段的值,都是不经常变的,可以理解为常量,或者理解为实体(entity),当内存不够的情况下,会大大影响查询的效率,另外集群内带宽开销也是大大的,但是如果转换成数字来存储,即把相同的词语或者短语,通过词典,映射为唯一的数字id,然后使用数字来做标示,内存使用量会急剧下降,在客户实际的使用中,使用string2int之前,做facet查询,需要耗费10G+以上的filedcache,使用string2int之后,内存可在100M内,效果非常明显,另外查询速度也是从几十秒甚至几分钟或者直接出不来,直接变成到ms级别,效果很不错。

本文来自: 发布俩elasticsearch插件