流计算是什么东东?

  貌似现在正在流行流计算,流计算或流式计算主要用来做实时数据分析,如实时交易数据,广告,查询等, 我们知道一般用Hadoop来做离线分析都需要一定的延时,并且必须等数据收集处理完等一系列若干的操作,等报告结果出来之后,黄花菜都凉了,而流计算则刚好填补这一块的空白,流计算对正在发生的事件产生的数据进行实时分析,而FlumeBase就是这样一个项目,它建立在Flume(cloudra的分布式日志收集系统)之上,并提供类sql的查询方式(rtsql)。 Flumebase允许用户动态的插入查询到flume日志收集环境,这些查询请求会对进来的日志进行抽查处理,只要是符合查询条件的,就会进行相应的处理,如持续监控、数据格式转换、过滤等各种任务。 https://github.com/cloudera/flume https://github.com/flumebase/flumebase http://blog.flumebase.org/?p=14 http://flumebase.org/documentation/0.2.0/UserGuide.html#d0e7 http://www.docin.com/p-152156266.html 类似的开源流计算框架还有yahoo的s4,s4貌似比flume要成熟不少,不过都值得关注。 http://s4.io/ s4最开始是为yahoo个性化广告产品而开发的一个产品,号称能够每秒处理上千个事件。http://docs.s4.io/manual/overview.html

[转]Amdahl’s law (阿姆达尔定律)的演化和思考

From:http://manio.org/progress-and-thoughts-of-amdahls-law-286.html G.M.Amdahl在1967年提出了Amdahl’s law,针对并行处理的scalability给出了一个模型,指出使用并行处理的提速由问题的可并行的部分所决定。这个模型为并行计算系统的设计者提供了指导。 其形式如下: f为问题中可被并行处理的部分的比例,m为并行处理机的数量,Speedup为并行后相比串行时的提速。

ElasticSearch的Gateway及存储原理

ES里有一个叫做gateway的东西,今天抽空理一下,前面翻译ES的一篇博文叫做“搜索引擎与时间机器”,既然里面谈到了时间机器,就免不了需要穿越时空的的门咯,I guess,也许gateway这名字就是这么来的,其实在ES里面,gateway的主要职责是用来对数据进行长持久化(持久化了之后加上版本信息,不就可以自由的往还于过去未来之间了吗?),另外,整个集群重启之后可以通过gateway重新恢复数据。

Advanced Hadoop Tuning & Optimisation

周末去参加了Milind Bhandarkar的【Hadoop应用程序性能调优案例分析】,顺便参观了Yahoo的研发中心,现场到的人不少,收获也蛮多的,Milind Bhandarkar介绍了hadoop的配置、调优以及一些在Yahoo的经验技巧,还介绍了一个叫Hadoop Vaidya的诊断分析框架,附ppt下载地址。 下面也是找的hadoop调优的一个ppt,学习in’。 PPT on Advanced Hadoop Tuning n Optimisation View more presentations or Upload your own. http://hadoop.apache.org/common/docs/r0.20.1/vaidya.html#Purpose

Cassandra 0.7 蓄势待发

Cassandra 0.7beta已经出了,0.7的正式发布估计也是很快了,我们先来看看这次0.7带来了什么新的变化吧。 1.支持二级索引,superColumn下的columns终于可以直接查询了,(10万Columns记录SuperColumn读取居然要10多分钟,汗!) 2.row记录压缩时不需要读入到内存 3.large row的支持 4.Keyspace等相关配置可以动态修改了,不需要重启服务 5.配置文件变化storage.xml->cassandra.yaml 6.支持truncate一次清空ColumnFamily的数据 7.支持Hadoop的输出格式 8.通过rowcache提高8倍读取速度(太重要了) 9.新的数据分区方式:ByteOrderedPartitioner 10.新的数据类型:IntegerType 11.添加preload_row_cache选项 12.默认使用framed transport (早应该了) 13.range slices 查询的优化及multi_get_count的支持 14.row keys 使用 bytes类型,提高性能 15.sstable新增版本管理 等等。。 还有一些其他的优化或调整可以看下面的详细信息 State of Cassandra, August 2010 View more presentations from jbellis. JPA 1.0 ORM […]

Cassandra Vs Voldemort

  By Diego Erdody on May 07, 2010 Translated by Jametong  目的 在Medallia,我们的系统目前有一个关键组件是运行在一个开源的关系型数据库上.由于此组件主要通过主键来查询数据库的条目,我们想尝试将此组件切换到一个键值存储系统上,以利用键值系统提供的多种好处,包含分布式复制、负载均衡以及失败切换.对此组件进行重构以实现纵向扩展是我们的一个目标,附带的其它好处是,可以缓解我们目前较高的磁盘存储需求. 最近,我们花了部分时间来研究这项技术(以及部分其他技术改进,Medallia激动人心的时刻!),考察了多个不同选项.长话短说,最终落在以下两个选择上:Apache Cassandra与Project Voldemort. 这两个项目看似是他们所在开源类别中最成熟的了,都可以提供内置的分散化集群支持,包含分区、容错性以及高可用性.两者都是基于Amazon的Dynamo论文,主要的差异是,Voldemort遵循简单的键值模型,而Cassandra使用了基于BigTable持久化模型的面向列的模型.两者都支持读一致性,也就是读操作总是返回最新的数据,这一点是我们业务所需要的.