write down,forget

Jubatus单机测试

<Category: 推荐系统, 数据挖掘>

https://github.com/jubatus/

http://jubat.us/en/tutorial.html 照着这个教程简单在单机上试用了一下,待继续研究
阅读这篇文章的其余部分

本文来自: Jubatus单机测试

mongodb&mongodb-river(elasticsearch)部署

<Category: Diving Into ElasticSearch>

#下载编译好的版本

阅读这篇文章的其余部分

本文来自: mongodb&mongodb-river(elasticsearch)部署

淘宝阿里妈妈广告屏蔽hosts

<Category: 未分类>

阅读这篇文章的其余部分

本文来自: 淘宝阿里妈妈广告屏蔽hosts

[转] T检验、F检验和统计学意义(P值或sig值)

<Category: 统计>

1,T检验和F检验的由来

一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。

阅读这篇文章的其余部分

本文来自: [转] T检验、F检验和统计学意义(P值或sig值)

[转]libSVM 简易入门

<Category: 数据挖掘, 机器学习>

简单易懂,libsvm最佳入门。

阅读这篇文章的其余部分

本文来自: [转]libSVM 简易入门

How ElasticSearch Tried to Scaling Lucene

<Category: Diving Into ElasticSearch>

拖拖拉拉,终于完成了。

介绍了elasticsearch核心的几个分布式设计概念,对于了解elasticsearch非常有用。

这部分内容是lukas-vlcek 根据shay 的slide Road to a Distributed Search Engine 整理的。

我翻译了下。
链接在此:
http://www.elasticsearch.cn/guide/concepts/scaling-lucene/

Scaling Lucene

本文来自: How ElasticSearch Tried to Scaling Lucene

logstash,nginx日志,grok pattern调试

<Category: 小道消息>

#Nginx日志格式定义

阅读这篇文章的其余部分

本文来自: logstash,nginx日志,grok pattern调试

ElasticSearch插件更新

<Category: Diving Into ElasticSearch, 小道消息>

carrot2文本聚类插件
https://github.com/medcl/elasticsearch-carrot2
支持es版本到0.20.x

ik分词插件
https://github.com/medcl/elasticsearch-analysis-ik
1.集成最新的ik中文分词
IK Analyzer 2012 FF 版本:http://linliangyi2007.iteye.com/blog/1703916
2.分词模式可配,支持细粒度和智能分词两种切分模式
配置如下(elasticsearch.yml):
阅读这篇文章的其余部分

本文来自: ElasticSearch插件更新

nginx限速

<Category: DevOPS, Web>

nginx限制ip并发数和访问频率以及下载速度

限制并发

nginx版本1.1.8 之后
ngx_http_limit_zone_module 
改名为:
ngx_http_limit_conn_module

http://nginx.org/en/docs/http/ngx_http_limit_conn_module.html#limit_conn

limit_zone指令改成limit_conn_zone了
阅读这篇文章的其余部分

本文来自: nginx限速

往graphite灌数据

<Category: DevOPS>

http://graphite.readthedocs.org/en/0.9.10/feeding-carbon.html
找了半天,总算找到文档地址了,汗。

Getting your data into Graphite is very flexible. There are three main methods for sending data to Graphite: Plaintext, Pickle, and AMQP.

The plaintext protocol:
格式如下:

cargo默认监听端口2003,用nc测试一下

The pickle protocol:
这个协议,支持多个监控数据的提交,监听端口2004
格式

例子:

本文来自: 往graphite灌数据