新浪微博数据集抓取脚本

分享个刚写的python脚本,用来抓取新浪微博的数据,其实这个脚本写了很久了,之前用这个脚本抓了几十G的数据,扔硬盘里一直没有用,前阵子win8刚出来,头脑一热就装了,还全格式化了那块盘,后面想要用的时候,才发现忘记把里面抓到数据拷出来了,悲催啊,还好脚本还在,今天完善了下,共享给大家,主要有如下功能: 支持多线程下载 用户id通过文件加载 按时间分目录 通过用户id取模划分子目录(如果你的id够多的话,避免单个文件夹下太多文件) 支持参数配置skip_count 支持下载完之后自动关机 支持命令行参数配置,具体查看帮助: -h 打包下载

python,遍历目录生成html文件列表

使用方法:walk.py>index.html 另外一种,使用pyh来生成(比较慢).

urllib2的delete操作

http://apps.hi.baidu.com/share/detail/23498106

python正则的中文处理

匹配中文时,正则表达式规则和目标字串的编码格式必须相同

UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe4 in position 18: ordinal not in range(128) print text报错 解释:控制台信息输出窗口是按照ascii编码输出的(英文系统的默认编码是ascii),而上面代码中的字符串是Unicode编码的,所以输出时产生了错误。 改成 print(word.encode(‘utf8’))即可

python发送邮件

range与xrange的区别

python里的range与xrange,都可以进行用来进行迭代处理,但是两者却是不一样的,区别如下: for x in range(100):会返回1个包含了100个整数的list对象,并进行迭代分别返回给x for x in xrange(100):也会返回100个整数,不过没有一次返回一个集合,而是依次返回一个变量,然后赋值给x,所以也只占一个整数变量所需的内存的就行了,相对来说,由于每次都要分配内存,性能也有些影响,所以怎么使用要看情况哦。 总结,range创建代价大,消耗内存多,xrange占用内存小,每次请求的效率低一些,有点像.NET里的String和StringBuilder了