write down,forget
adidas eqt support ultra primeknit vintage white coming soon adidas eqt support ultra boost primeknit adidas eqt support ultra pk vintage white available now adidas eqt support ultra primeknit vintage white sz adidas eqt support ultra boost primeknit adidas eqt adv support primeknit adidas eqt support ultra boost turbo red white adidas eqt support ultra boost turbo red white adidas eqt support ultra boost turbo red adidas eqt support ultra whiteturbo adidas eqt support ultra boost off white more images adidas eqt support ultra boost white tactile green adidas eqt support ultra boost beige adidas eqt support ultra boost beige adidas eqt support refined camo drop adidas eqt support refined camo drop adidas eqt support refined running whitecamo adidas eqt support 93 primeknit og colorway ba7506 adidas eqt running support 93 adidas eqt support 93

新浪微博数据集抓取脚本

<Category: Python, 乱搞>

分享个刚写的python脚本,用来抓取新浪微博的数据,其实这个脚本写了很久了,之前用这个脚本抓了几十G的数据,扔硬盘里一直没有用,前阵子win8刚出来,头脑一热就装了,还全格式化了那块盘,后面想要用的时候,才发现忘记把里面抓到数据拷出来了,悲催啊,还好脚本还在,今天完善了下,共享给大家,主要有如下功能:
支持多线程下载
用户id通过文件加载
按时间分目录
通过用户id取模划分子目录(如果你的id够多的话,避免单个文件夹下太多文件)
支持参数配置skip_count
支持下载完之后自动关机

支持命令行参数配置,具体查看帮助: -h
打包下载
阅读这篇文章的其余部分

本文来自: 新浪微博数据集抓取脚本

gitpage试玩并绑定域名

<Category: 乱搞>

试玩下gitpage并绑定域名 创建medcl.gihub.com,注:必须是这种格式的repo:你的用户名.github.com。

DNS添加一条A记录
github.medcl.com 207.97.227.245

ok,访问下看看
http://github.medcl.com/
http://medcl.github.com/
http://github.medcl.com/ElasticSearch.Net/

参考:
http://pages.github.com/
http://kyle.xlau.org/2010/12/29/github-CNAME.html

本文来自: gitpage试玩并绑定域名

vForum2011第一场Q/A问答

<Category: 虚拟化>

下午由于平台技术分享,错过了vForum2011的演讲,不过还是赶上了在线的“VMware技术专家专场技术交流”,这个必须赞,像这种直接的技术交流效果是最好的,大家问的问题也比较实际,学到不少,这份Q/A记录下。
ppt下载地址:http://vforum.cloudcommunity.com.cn/?mod=down_doc&id=62

http://vforum.cloudcommunity.com.cn/docs/1321368602__%E5%88%86%E4%BC%9A%E5%9C%BA1-%E8%99%9A%E6%8B%9F%E5%8C%96%E7%9A%84%E9%9D%A9%E5%91%BD%20%20-%20VMware%E4%BA%91%E8%AE%A1%E7%AE%97%E5%9F%BA%E7%A1%80%E6%9E%B6%E6%9E%84%E5%A5%97%E4%BB%B6%E6%A6%82%E8%A7%88%20%20.zip

阅读这篇文章的其余部分

本文来自: vForum2011第一场Q/A问答

vmware动态添加磁盘

<Category: Diving Into ElasticSearch, 搜索>

阅读这篇文章的其余部分

本文来自: vmware动态添加磁盘

elasticsearch里的search_type

<Category: Diving Into ElasticSearch>

elasticsearch里面的search_type共有如下几种:
The type of the search operation to perform. Can be
dfs_query_then_fetch,
dfs_query_and_fetch,
query_then_fetch,
query_and_fetch. 【removed,since:http://groups.google.com/group/elasticsearch/browse_thread/thread/7aa5ea823afb499/d9e3cf3a1e1f6964】
Defaults to query_then_fetch.

form google group:“
You get proper sorted results when you use query_then_fetch (across all top
“size” results), if you use query_and_fetch, then each shard return the size
requested hits, and then they are sorted between them.

直接看代码里面吧,里面都有注释。

本文来自: elasticsearch里的search_type

[转]使用webalizer来分析nginx日志

<Category: Linux>

webalizer是一个高效的、免费的web服务器日志分析程序。其分析结果是HTML文件格式,从而可以很方便的通过web服务器进行浏览。Internet上的很多站点都使用webalizer进行web服务器日志分析。Webalizer具有以下一些特性: 1.是用C写的程序,所以其具有很高的运行效率。在主频为200Mhz的机器上,webalizer每秒钟可以分析10000条记录,所以分析一个40M大小的日志文件只需要15秒。
2.webalizer支持标准的一般日志文件格式(Common Logfile Format);除此之外,也支持几种组合日志格式(Combined Logfile Format)的变种,从而可以统计客户情况以及客户操作系统类型。并且现在webalizer已经可以支持wu-ftpd xferlog日志格式以及squid日志文件格式了。
3.支持命令行配置以及配置文件。
4.可以支持多种语言,也可以自己进行本地化工作。
5.支持多种平台,比如UNIX、linux、NT, OS/2 和 MacOS等

Webalizer配置
webalizer的默认配置文件为/etc/webalizer.conf,当启动Webalizer时没有使用“-f“选项时,Webalizer就会寻找文件/etc/webalizer.conf,也可以使用“-f”来指定配置文件(当服务器有虚拟主机时,就需要配置多份不同的webalizer配置文件,不同的虚拟主机的webalizer使用不同的配置文件。
Webalizer.conf配置文件中需要修改的配置选项如下:
LogFile /data1/logs/access.log
LogType clf
指定的日志类型
用来指示配置文件的路径信息,webalizer会将该日志文件作为输入进行统计分析;
OutputDir /data0/htdocs/blog/logs
用来指示生成的统计报表的保存目录,在前面我们使用alias,使得用户可以使用http://www.medcl.com/logs/来访问统计报表。
HostName www.medcl.com
用来指示主机名,统计报表中会引用该主机名。
其他选项就无需修改,配置文件修改完毕以后,就需要在定时webalizer,每天生成当日的统计分析。
以root身份运行:crontab -e 进入定时运行任务编辑状态,加入如下任务:
00 0 * * * /usr/bin/webalizer
这样的话,系统将会在0点,开始统计当日的访问情况

本文来自: [转]使用webalizer来分析nginx日志

elasticsearch技术交流群,欢迎加入

<Category: 小道消息>

新建了2个qq群,欢迎大家一起交流elasticsearch方面的相关内容。
群1:190605846(已满)
群2:211682609(欢迎)2012/05/28更新
另外,已经刚申请了elasticsearch.cn域名,打算组建一个elasticsearch在国内的交流社区,整理收集相关的资料文档,方便新手学习elasticsearch和促进elasticsearch在国内的推广。

第一步,打算先将官方的站点的文档翻译下,毕竟目前还没有比那更完善的文档了,由于文档比较多,所以在这里希望能招募有共同想法的童鞋一起来完成这项伟大的工作。

有什么想法请留意或加QQ群吧。
you know for search , :)

本文来自: elasticsearch技术交流群,欢迎加入

vmware ippool

<Category: VMware>

vCenter Server ippool配置

如果要设置VApp的IP为自动分配,需要事先设置DataCenter的IP Pool,VApp是什么可以看这里:http://itknowledgeexchange.techtarget.com/virtualization-pro/what-are-ip-pools-and-vapps/

注意,每一个DataCenter只能用一个IPPool配置。

还需要设置虚拟机的Option下VApp Options设置,设置Enabled为true。

另外,在VApp Settings设置里面,如果要设置Ip Allocation Policy的类型为下面的两种,必须先设置Advanced里面的IP Allocation,这个我找了半天,汗。

设置Ip Allocation Schema之后,前面IPAllocationPolicy对应的选项就可以选了。

本文来自: vmware ippool

Diving Into ElasticSearch(10)精确控制之Routing使用

<Category: Diving Into ElasticSearch>

前面一篇介绍parent-child的使用,我们来回顾一下:

1.先建好mapping和索引几条数据

2.获取一下这几条数据看看

结果:

没有问题,我们再试试后面的

结果:

嘿嘿,发现了么,居然是404,你可以继续试试后面的id为3的也是404,id为4的可以出来

试试:http://localhost:9200/news/comment/2?parent=1(索引时的path)

哈哈,貌似不行o.(ps:其实kimchy可以实现这个url pattern,但是目前没有)

那正确的方式是怎样的呢?

答案就在routing,ES帮助:http://www.elasticsearch.org/guide/reference/mapping/routing-field.html

使用我写的partial_update插件也是支持routing的,如下:

结果:

发散一下,parent=2试试:

结果:

很明细,/news/comment/4存在两条记录,routing的出现,使ES的id的唯一性丢失了,并且删除索引记录的时候也必须带上routing才行,此外,查询的结果中可能会出现重复的_id。

再看看查询的操作,查询的时候可以指定routing,默认不区分routing,即全部扫描:

总之,一旦你决定使用routing,你必须保证对这些routing做到心中有数。

补充一下:
什么是routing,为什么用routing,正常情况下,索引是根据type和id通过hash取模的方式来存储到不同的shard里面的,查询的时候则是在整个shard组里面做的,即每个shard都要参与查询,然后合并各个查询结果,想想,如果shard多了之后,其实有些shard里面可能根本就没有我们需要的数据,这样就浪费了很多不必要的查询操作,routing就是可以按照一定的规则,建索引的时候,就可以指定数据存放在哪个shard里面,这样查询的时候,同理,通过routing规则就能够保证有的放矢,只在一个shard里面去进行查询,而不是到处撒网,这样不就快多了吗?当然用routing也有缺点,由于索引存放位置由我们自己控制,并且由于routing值不均匀,肯定会造成索引数据不均匀,即某几个shard里面什么数据也没有,某几个shard里面数据扎堆,数据扎堆的shard肯定对性能有影响,so,怎么用,自己决定!

本文来自: Diving Into ElasticSearch(10)精确控制之Routing使用

Diving Into ElasticSearch(9)Parent-Child特性使用

<Category: Diving Into ElasticSearch>

介绍下ElasticSearch里Parent-Child特性的使用。

//首先创建一系列新闻的索引,这里我们将hot类型作为parent-chid关系里面的parent。

阅读这篇文章的其余部分

本文来自: Diving Into ElasticSearch(9)Parent-Child特性使用