clouderaCDH3国内源

贡献一个cloudra CDH3 国内源 #如何使用呢?

how 2 run hadoop streaming job over brisk

–error— [root@platformD testmr]# ./job.sh rmr: cannot remove /test_output: No such file or directory. File: /tmp/testmr/-Dbrisk.job.tracker=10.129.6.36:8012 does not exist, or is not readable

流计算是什么东东?

  貌似现在正在流行流计算,流计算或流式计算主要用来做实时数据分析,如实时交易数据,广告,查询等, 我们知道一般用Hadoop来做离线分析都需要一定的延时,并且必须等数据收集处理完等一系列若干的操作,等报告结果出来之后,黄花菜都凉了,而流计算则刚好填补这一块的空白,流计算对正在发生的事件产生的数据进行实时分析,而FlumeBase就是这样一个项目,它建立在Flume(cloudra的分布式日志收集系统)之上,并提供类sql的查询方式(rtsql)。 Flumebase允许用户动态的插入查询到flume日志收集环境,这些查询请求会对进来的日志进行抽查处理,只要是符合查询条件的,就会进行相应的处理,如持续监控、数据格式转换、过滤等各种任务。 https://github.com/cloudera/flume https://github.com/flumebase/flumebase http://blog.flumebase.org/?p=14 http://flumebase.org/documentation/0.2.0/UserGuide.html#d0e7 http://www.docin.com/p-152156266.html 类似的开源流计算框架还有yahoo的s4,s4貌似比flume要成熟不少,不过都值得关注。 http://s4.io/ s4最开始是为yahoo个性化广告产品而开发的一个产品,号称能够每秒处理上千个事件。http://docs.s4.io/manual/overview.html

Hive derby lock及目录权限错误

FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Cannot get a connection, pool error Could not create a validated object, cause: A read-only user or a user in a read-only database is not permitted to disable read-only mode on a connection. NestedThrowables: org.apache.commons.dbcp.SQLNestedException: […]

热门话题,时间及空目录的处理

  先查看hadoop目录的文件数,然后再决定是不是在input里面加上该目录 [dev@platformB dailyrawdata]$  hadoop fs -ls /trendingtopics |wc -l 3 计算时间的方法 [dev@platformB dailyrawdata]$ lastdate=20110619 [dev@platformB dailyrawdata]$ echo $lastdate 20110619 [dev@platformB dailyrawdata]$ echo date –date “-d $lastdate + 1day” +”%Y%m%d” 20110620 [dev@platformB dailyrawdata]$ echo D9=date –date “now -20 day” +”%Y%m%d” […]

hadoop thrift client

http://code.google.com/p/hadoop-sharp/ 貌似不给力,pass http://wiki.apache.org/hadoop/HDFS-APIs http://wiki.apache.org/hadoop/MountableHDFS http://wiki.apache.org/hadoop/Hbase/Stargate http://hadoop.apache.org/hdfs/docs/r0.21.0/hdfsproxy.html 统统不给力啊,走thrift吧,看了下svn,cocoa之类的都有现成的了,为啥没有c#,faint