memcached安装

http://memcached.org/ wget http://memcached.googlecode.com/files/memcached-1.4.7.tar.gz tar vxzf memcached-1.4.7.tar.gz cd memcached-1.4.7 ./configure 提示: checking for libevent directory… configure: error: libevent is required. You can get it from http://www.monkey.org/~provos/libevent/ //安装libevent cd .. wget http://www.monkey.org/~provos/libevent-2.0.13-stable.tar.gz tar vxzf libevent-2.0.13-stable.tar.gz cd libevent-2.0.13-stable ./configure make make install

Advanced Hadoop Tuning & Optimisation

周末去参加了Milind Bhandarkar的【Hadoop应用程序性能调优案例分析】,顺便参观了Yahoo的研发中心,现场到的人不少,收获也蛮多的,Milind Bhandarkar介绍了hadoop的配置、调优以及一些在Yahoo的经验技巧,还介绍了一个叫Hadoop Vaidya的诊断分析框架,附ppt下载地址。 下面也是找的hadoop调优的一个ppt,学习in’。 PPT on Advanced Hadoop Tuning n Optimisation View more presentations or Upload your own. http://hadoop.apache.org/common/docs/r0.20.1/vaidya.html#Purpose

Cassandra 0.7 蓄势待发

Cassandra 0.7beta已经出了,0.7的正式发布估计也是很快了,我们先来看看这次0.7带来了什么新的变化吧。 1.支持二级索引,superColumn下的columns终于可以直接查询了,(10万Columns记录SuperColumn读取居然要10多分钟,汗!) 2.row记录压缩时不需要读入到内存 3.large row的支持 4.Keyspace等相关配置可以动态修改了,不需要重启服务 5.配置文件变化storage.xml->cassandra.yaml 6.支持truncate一次清空ColumnFamily的数据 7.支持Hadoop的输出格式 8.通过rowcache提高8倍读取速度(太重要了) 9.新的数据分区方式:ByteOrderedPartitioner 10.新的数据类型:IntegerType 11.添加preload_row_cache选项 12.默认使用framed transport (早应该了) 13.range slices 查询的优化及multi_get_count的支持 14.row keys 使用 bytes类型,提高性能 15.sstable新增版本管理 等等。。 还有一些其他的优化或调整可以看下面的详细信息 State of Cassandra, August 2010 View more presentations from jbellis. JPA 1.0 ORM […]

Bloom Filter

收集的相关资料,学习一下。 From:焦萌, http://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx http://blog.csdn.net/jiaomeng/archive/2007/01/27/1495500.aspx HelloDba  http://www.hellodba.net/2009/04/bloom_filter.html

Cassandra Vs Voldemort

  By Diego Erdody on May 07, 2010 Translated by Jametong  目的 在Medallia,我们的系统目前有一个关键组件是运行在一个开源的关系型数据库上.由于此组件主要通过主键来查询数据库的条目,我们想尝试将此组件切换到一个键值存储系统上,以利用键值系统提供的多种好处,包含分布式复制、负载均衡以及失败切换.对此组件进行重构以实现纵向扩展是我们的一个目标,附带的其它好处是,可以缓解我们目前较高的磁盘存储需求. 最近,我们花了部分时间来研究这项技术(以及部分其他技术改进,Medallia激动人心的时刻!),考察了多个不同选项.长话短说,最终落在以下两个选择上:Apache Cassandra与Project Voldemort. 这两个项目看似是他们所在开源类别中最成熟的了,都可以提供内置的分散化集群支持,包含分区、容错性以及高可用性.两者都是基于Amazon的Dynamo论文,主要的差异是,Voldemort遵循简单的键值模型,而Cassandra使用了基于BigTable持久化模型的面向列的模型.两者都支持读一致性,也就是读操作总是返回最新的数据,这一点是我们业务所需要的.