Advanced Hadoop Tuning & Optimisation

周末去参加了Milind Bhandarkar的【Hadoop应用程序性能调优案例分析】,顺便参观了Yahoo的研发中心,现场到的人不少,收获也蛮多的,Milind Bhandarkar介绍了hadoop的配置、调优以及一些在Yahoo的经验技巧,还介绍了一个叫Hadoop Vaidya的诊断分析框架,附ppt下载地址。 下面也是找的hadoop调优的一个ppt,学习in’。 PPT on Advanced Hadoop Tuning n Optimisation View more presentations or Upload your own. http://hadoop.apache.org/common/docs/r0.20.1/vaidya.html#Purpose

Hadoop分布式文件系统:架构和设计要点

原:http://hadoop.apache.org/common/docs/current/hdfs_design.html【英文】 一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在千兆至T字节,一个单一HDFS实例应该能支撑数以千万计的文件。4、 HDFS应用对文件要求的是write-one-read-many访问模型。一个文件经过创建、写,关闭之后就不需要改变。这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能。典型的如MapReduce框架,或者一个web crawler应用都很适合这个模型。5、移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效,这在数据达到海量级别的时候更是如此。将计算移动到数据附近,比之将数据移动到应用所在显然更好,HDFS提供给应用这样的接口。6、在异构的软硬件平台间的可移植性。

Hadoop报Name node is in safe mode 错误

运行hadoop程序时,有时候会报以下错误: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode 在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。 解决办法:

HBase的安装配置

下载HBase最新版本:http://www.apache.org/dyn/closer.cgi/hadoop/hbase 解压到/home/user/hbase $ cd /home/user/hbase  设置JDK目录,需1.6版本 $ vim conf/hbase-env.sh   export JAVA_HOME=/usr/local/jdk 修改你的HBase服务器名 $ vi conf/regionservers 启动hbase $ bin/start-hbase.sh 启动后可以在 logs/目录下看到不少logs文件 也可以输入以下指令进入HQL指令模式 $ bin/hbase shell 关闭HBase服务 $ bin/stop-hbase.sh