write down,forget
adidas eqt support ultra primeknit vintage white coming soon adidas eqt support ultra boost primeknit adidas eqt support ultra pk vintage white available now adidas eqt support ultra primeknit vintage white sz adidas eqt support ultra boost primeknit adidas eqt adv support primeknit adidas eqt support ultra boost turbo red white adidas eqt support ultra boost turbo red white adidas eqt support ultra boost turbo red adidas eqt support ultra whiteturbo adidas eqt support ultra boost off white more images adidas eqt support ultra boost white tactile green adidas eqt support ultra boost beige adidas eqt support ultra boost beige adidas eqt support refined camo drop adidas eqt support refined camo drop adidas eqt support refined running whitecamo adidas eqt support 93 primeknit og colorway ba7506 adidas eqt running support 93 adidas eqt support 93
标签 Tag : Python

发布个jubatus-classifier脚本

<Category: 数据挖掘> Comments Off on 发布个jubatus-classifier脚本

地址:https://github.com/medcl/jubatus-classifier
修改自官方的例子,将一些参数提取出来了。

简单介绍一下怎么使用,
第一步,启动服务,参照前面两篇即可:

Jubatus单机测试

Jubatus集群测试

配置文件:config.json

阅读这篇文章的其余部分 »

本文来自: 发布个jubatus-classifier脚本

新浪微博数据集抓取脚本

<Category: Python, 乱搞> 1 条评论

分享个刚写的python脚本,用来抓取新浪微博的数据,其实这个脚本写了很久了,之前用这个脚本抓了几十G的数据,扔硬盘里一直没有用,前阵子win8刚出来,头脑一热就装了,还全格式化了那块盘,后面想要用的时候,才发现忘记把里面抓到数据拷出来了,悲催啊,还好脚本还在,今天完善了下,共享给大家,主要有如下功能:
支持多线程下载
用户id通过文件加载
按时间分目录
通过用户id取模划分子目录(如果你的id够多的话,避免单个文件夹下太多文件)
支持参数配置skip_count
支持下载完之后自动关机

支持命令行参数配置,具体查看帮助: -h
打包下载
阅读这篇文章的其余部分 »

本文来自: 新浪微博数据集抓取脚本

python,遍历目录生成html文件列表

<Category: Python> Comments Off on python,遍历目录生成html文件列表

使用方法:walk.py>index.html

另外一种,使用pyh来生成(比较慢).
阅读这篇文章的其余部分 »

本文来自: python,遍历目录生成html文件列表

urllib2的delete操作

<Category: Python> Comments Off on urllib2的delete操作

http://apps.hi.baidu.com/share/detail/23498106

本文来自: urllib2的delete操作

python string padding left

<Category: Python, 小道消息> Comments Off on python string padding left

make string(ex. ‘3’, ’32’) left padded with zeroes (ex. ‘003’, ‘032’)

HOWTO:

本文来自: python string padding left

python正则的中文处理

<Category: Python> Comments Off on python正则的中文处理

匹配中文时,正则表达式规则和目标字串的编码格式必须相同

UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe4 in position 18: ordinal not in range(128)

print text报错
解释:控制台信息输出窗口是按照ascii编码输出的(英文系统的默认编码是ascii),而上面代码中的字符串是Unicode编码的,所以输出时产生了错误。
改成 print(word.encode(‘utf8’))即可
阅读这篇文章的其余部分 »

本文来自: python正则的中文处理

hadoop thrift client

<Category: Hadoop> Comments Off on hadoop thrift client

http://code.google.com/p/hadoop-sharp/
貌似不给力,pass

http://wiki.apache.org/hadoop/HDFS-APIs
http://wiki.apache.org/hadoop/MountableHDFS
http://wiki.apache.org/hadoop/Hbase/Stargate
http://hadoop.apache.org/hdfs/docs/r0.21.0/hdfsproxy.html

统统不给力啊,走thrift吧,看了下svn,cocoa之类的都有现成的了,为啥没有c#,faint
阅读这篇文章的其余部分 »

本文来自: hadoop thrift client

python下的两个分词工具

<Category: NLP> Comments Off on python下的两个分词工具

http://code.google.com/p/pychseg/
基于的MMSEG中文分词算法Python实现,正向最大匹配+多个规则。

需要安装psyco,有点费劲,下面是使用方法:

http://code.google.com/p/pymmseg-cpp/
https://github.com/pluskid/pymmseg-cpp/
阅读这篇文章的其余部分 »

本文来自: python下的两个分词工具

python发送邮件

<Category: Python> Comments Off on python发送邮件

本文来自: python发送邮件

[转]RabbitMQ介绍及Python客户端的使用–[怎么用兔子喂蟒]

<Category: 高性能> 4 条评论

转一篇介绍RabbitMQ的好文,来源:
http://blog.ftofficer.com/2010/03/translation-rabbitmq-python-rabbits-and-warrens

阅读这篇文章的其余部分 »

本文来自: [转]RabbitMQ介绍及Python客户端的使用–[怎么用兔子喂蟒]