Gitorious

试用了下Gitorious,是github enterprise的很好的替代品,大部分操作和github基本一致,github以人的repo为主,Gitorious更强调project以及team,作为内部的源码管理平台实在很合适。 推荐使用bitnami的installer来安装 http://bitnami.com/stack/gitorious/ 安装很简单,唯一需要注意的是,必须设置一个domain,用ip不行 如果想换一下域名,在配置“/opt/gitorious-2.4.12-1/apps/gitorious/htdocs/config/gitorious.yml”里面替换就行了 另外本地hosts文件配置一下域名的解析,这步应该是可选的。 这下gitolite可以功成身退了。

发布个插件:elasticsearch-river-email

最近发现vps上面跑的用来收邮件的python脚本占用了30%的cpu,并且一直就有写个邮件river的想法,不过一直没有付诸行动,今天下班抽空完成了这个插件,理论支持的协议: /** now support: imap imaps pop3s pop3 */ 不过只有时间测试了pop3协议,正常收取。 地址:https://github.com/medcl/elasticsearch-river-email 创建river的方式:

RTF已经包含该插件,并测试通过: https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsearch/plugins/river-email

mongodb-river重新同步数据

elasticsearch的mongodb-river没有提供对一个库重新同步数据的方法,在很多情况下我们需要这么做,比如修改了elasticsearch的mapping,这个时候,就只能重建数据,所以需要重新从mongodb里面pull数据,然后重建索引,怎么办? 其实我们只需要清除mongodb-river记录的同步信息就行了,然后mongodb就能自动重新初始化,就跟新安装的一样。 1.第一步,查看那些信息需要删除,所有的信息都在_river索引里面

返回结果,类似这样的,就是记录数据同步的位置信息了

怎么处理呢?干掉就行,这个记录其实也就是一条elasticsearch的索引文档数据,找到index,type,id删除就行了。 我这里全部删除了,你可别照着来

第二步,目标索引如果需要修改mapping,删除数据,等等 第三步,重新创建river配置信息,啥,没有备份,慢慢哭去吧 到这里,数据应该就可以马上看到了,速度非常快。

Jubatus集群测试

http://jubat.us/en/tutorial_distributed.html

随着往训练数据的增加,正确率直线上升,牛逼啊,一边训练,一边还能继续进行预测,互不影响。