记录生活
分类 Category : Hadoop

Hadoop 集群配置(centos\CDH3)

<Category: Hadoop> 发表评论

ref:http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/

https://docs.cloudera.com/display/DOC/CDH3+Installation

记录下,许久不弄hadoop,都生疏了。
阅读这篇文章的其余部分 »

本文来自: Hadoop 集群配置(centos\CDH3)

Advanced Hadoop Tuning & Optimisation

<Category: Hadoop, nosql, 分布式> 发表评论

周末去参加了Milind Bhandarkar的【Hadoop应用程序性能调优案例分析】,顺便参观了Yahoo的研发中心,现场到的人不少,收获也蛮多的,Milind Bhandarkar介绍了hadoop的配置、调优以及一些在Yahoo的经验技巧,还介绍了一个叫Hadoop Vaidya的诊断分析框架,附ppt下载地址
下面也是找的hadoop调优的一个ppt,学习in'。

PPT on Advanced Hadoop Tuning n Optimisation

View more presentations or Upload your own.

本文来自: Advanced Hadoop Tuning & Optimisation

Hadoop分布式文件系统:架构和设计要点

<Category: Hadoop, 云里雾里> 发表评论

原:http://.apache.org/common/docs/current/_design.html【英文】

一、前提和设计目标
1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。
2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。
3HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在千兆至T字节,一个单一HDFS实例应该能支撑数以千万计的文件。
4HDFS应用对文件要求的是write-one-read-many访问模型。一个文件经过创建、写,关闭之后就不需要改变。这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能。典型的如MapReduce框架,或者一个web crawler应用都很适合这个模型。
5、移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效,这在数据达到海量级别的时候更是如此。将计算移动到数据附近,比之将数据移动到应用所在显然更好,HDFS提供给应用这样的接口。
6、在异构的软硬件平台间的可移植性。
阅读这篇文章的其余部分 »

本文来自: Hadoop分布式文件系统:架构和设计要点

Hadoop报Name node is in safe mode 错误

<Category: Hadoop, 云里雾里> 发表评论

运行hadoop程序时,有时候会报以下错误:
org.apache..dfs.SafeModeException: Cannot delete /user//input. Name node is in safe mode

在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。

解决办法:

hadoop dfsadmin -safemode leave

本文来自: Hadoop报Name node is in safe mode 错误

Cloudera Desktop安装配置

<Category: Hadoop, 云里雾里> 发表评论

目前karmic的Cloudera Desktop还没有出来,so,使用jaunty的源,如下:

deb http://archive.cloudera.com/debian jaunty-testing contrib
deb-src http://archive.cloudera.com/debian jaunty-testing contrib

其他安装步骤参照:http://archive.cloudera.com/desktop/packages_pseudo.html
安装完,访问:http://yourserverip:8088/即可
提示说,只在Firefox3上测试过,用ie打开果然惨不忍睹啊。

如果报错:Exception communicating with MR JobTracker at localhost:9290: Could not connect to localhost:9290
1.其实cloudera已经将配置文件放在etc/hadoop下了,如下操作:

mv /etc/hadoop/conf /etc/hadoop/conf_back
mv /etc/hadoop/conf.pseudo-desktop/ conf

2.重启Hadoop各服务
ubuntu请运行: sudo passwd root
设置root密码,否则启动会报没有权限

for service in /etc/init.d/hadoop-0.20-*
do
sudo $service restart
done
 
/etc/init.d/cloudera-desktop restart

本文来自: Cloudera Desktop安装配置

HBase的安装配置

<Category: Hadoop, 云里雾里> 发表评论

下载HBase最新版本:http://www.apache.org/dyn/closer.cgi/hadoop/hbase

解压到/home/user/

$ cd /home/user/hbase 

设置JDK目录,需1.6版本
$ vim conf/hbase-env.sh
  export JAVA_HOME=/usr/local/jdk

修改你的HBase服务器名
$ vi conf/regionservers

启动hbase
$ bin/start-hbase.sh

启动后可以在 logs/目录下看到不少logs文件

也可以输入以下指令进入HQL指令模式
$ bin/hbase shell

关闭HBase服务
$ bin/stop-hbase.sh

本文来自: HBase的安装配置