新浪微博数据集抓取脚本

分享个刚写的python脚本,用来抓取新浪微博的数据,其实这个脚本写了很久了,之前用这个脚本抓了几十G的数据,扔硬盘里一直没有用,前阵子win8刚出来,头脑一热就装了,还全格式化了那块盘,后面想要用的时候,才发现忘记把里面抓到数据拷出来了,悲催啊,还好脚本还在,今天完善了下,共享给大家,主要有如下功能: 支持多线程下载 用户id通过文件加载 按时间分目录 通过用户id取模划分子目录(如果你的id够多的话,避免单个文件夹下太多文件) 支持参数配置skip_count 支持下载完之后自动关机 支持命令行参数配置,具体查看帮助: -h 打包下载

热门话题,时间及空目录的处理

  先查看hadoop目录的文件数,然后再决定是不是在input里面加上该目录 [dev@platformB dailyrawdata]$  hadoop fs -ls /trendingtopics |wc -l 3 计算时间的方法 [dev@platformB dailyrawdata]$ lastdate=20110619 [dev@platformB dailyrawdata]$ echo $lastdate 20110619 [dev@platformB dailyrawdata]$ echo date –date “-d $lastdate + 1day” +”%Y%m%d” 20110620 [dev@platformB dailyrawdata]$ echo D9=date –date “now -20 day” +”%Y%m%d” […]