write down,forget
标签 Tag : Python

发布个jubatus-classifier脚本

<Category: 数据挖掘> Comments Off on 发布个jubatus-classifier脚本

地址:https://github.com/medcl/jubatus-classifier
修改自官方的例子,将一些参数提取出来了。

简单介绍一下怎么使用,
第一步,启动服务,参照前面两篇即可:

Jubatus单机测试

Jubatus集群测试

配置文件:config.json

阅读这篇文章的其余部分 »

本文来自: 发布个jubatus-classifier脚本

新浪微博数据集抓取脚本

<Category: Python, 乱搞> 1 条评论

分享个刚写的python脚本,用来抓取新浪微博的数据,其实这个脚本写了很久了,之前用这个脚本抓了几十G的数据,扔硬盘里一直没有用,前阵子win8刚出来,头脑一热就装了,还全格式化了那块盘,后面想要用的时候,才发现忘记把里面抓到数据拷出来了,悲催啊,还好脚本还在,今天完善了下,共享给大家,主要有如下功能:
支持多线程下载
用户id通过文件加载
按时间分目录
通过用户id取模划分子目录(如果你的id够多的话,避免单个文件夹下太多文件)
支持参数配置skip_count
支持下载完之后自动关机

支持命令行参数配置,具体查看帮助: -h
打包下载
阅读这篇文章的其余部分 »

本文来自: 新浪微博数据集抓取脚本

python,遍历目录生成html文件列表

<Category: Python> Comments Off on python,遍历目录生成html文件列表

使用方法:walk.py>index.html

另外一种,使用pyh来生成(比较慢).
阅读这篇文章的其余部分 »

本文来自: python,遍历目录生成html文件列表

urllib2的delete操作

<Category: Python> Comments Off on urllib2的delete操作

http://apps.hi.baidu.com/share/detail/23498106

本文来自: urllib2的delete操作

python string padding left

<Category: Python, 小道消息> Comments Off on python string padding left

make string(ex. ‘3’, ’32’) left padded with zeroes (ex. ‘003’, ‘032’)

HOWTO:

本文来自: python string padding left

python正则的中文处理

<Category: Python> Comments Off on python正则的中文处理

匹配中文时,正则表达式规则和目标字串的编码格式必须相同

UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe4 in position 18: ordinal not in range(128)

print text报错
解释:控制台信息输出窗口是按照ascii编码输出的(英文系统的默认编码是ascii),而上面代码中的字符串是Unicode编码的,所以输出时产生了错误。
改成 print(word.encode(‘utf8’))即可
阅读这篇文章的其余部分 »

本文来自: python正则的中文处理

hadoop thrift client

<Category: Hadoop> Comments Off on hadoop thrift client

http://code.google.com/p/hadoop-sharp/
貌似不给力,pass

http://wiki.apache.org/hadoop/HDFS-APIs
http://wiki.apache.org/hadoop/MountableHDFS
http://wiki.apache.org/hadoop/Hbase/Stargate
http://hadoop.apache.org/hdfs/docs/r0.21.0/hdfsproxy.html

统统不给力啊,走thrift吧,看了下svn,cocoa之类的都有现成的了,为啥没有c#,faint
阅读这篇文章的其余部分 »

本文来自: hadoop thrift client

python下的两个分词工具

<Category: NLP> Comments Off on python下的两个分词工具

http://code.google.com/p/pychseg/
基于的MMSEG中文分词算法Python实现,正向最大匹配+多个规则。

需要安装psyco,有点费劲,下面是使用方法:

http://code.google.com/p/pymmseg-cpp/
https://github.com/pluskid/pymmseg-cpp/
阅读这篇文章的其余部分 »

本文来自: python下的两个分词工具

python发送邮件

<Category: Python> Comments Off on python发送邮件

本文来自: python发送邮件

[转]RabbitMQ介绍及Python客户端的使用–[怎么用兔子喂蟒]

<Category: 高性能> 4 条评论

转一篇介绍RabbitMQ的好文,来源:
http://blog.ftofficer.com/2010/03/translation-rabbitmq-python-rabbits-and-warrens

阅读这篇文章的其余部分 »

本文来自: [转]RabbitMQ介绍及Python客户端的使用–[怎么用兔子喂蟒]