从GeoIP免费库里生成IP到省市编号的组合

需求 生成一份从大陆地区的IP到省市编号的映射列表,用于数据分析。 准备工作 统计局提供的标准行政区划代码 http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/,身份证前6位的编号。 从 http://dev.maxmind.com/geoip/geoip2/geolite2/ 下载CSV格式的城市数据库 新浪首页提供一个IP查询接口,可以输出TSV,JSONP,JSON的IP信息 Incoming search terms:black4hyfogvxegeneral8nhgeoip 城市列表GeoLite2 csv文件golden9grkeepbcflifegmclongeriprmistakefv4planningr2qsort8rkwatchkjaLink to this post!

Brief Intro to Mallory

MiTM(Man in The Middle) is a good way analysing protocols, especially when there’s an SSL. http://en.wikipedia.org/wiki/Man-in-the-middle_attack To analyse HTTP/HTTPS protocol, we have Charles Proxy. Posts on my blog can be found https://sskaje.me/tag/charles-proxy/ (there’s another MiTM proxy, ‘mitmproxy’, https://github.com/mitmproxy/mitmproxy and http://mitmproxy.org/, will try later.) For others, mallory is recommended. Mallory Mallory is an extensible TCP/UDP man … Continue reading “Brief Intro to Mallory”

Solving Small Files Problem on CDH4

This morning when I open my Cloudera Manager, it shows the NameNode server is ‘Concerning’ with a message like ‘The DataNode has xxx blocks. Warning threshold: 200,000 block(s).’. I tried to google this, said that there might be too many files on HDFS, as DataNode’s default block size is 128MB on my CDH4, a single … Continue reading “Solving Small Files Problem on CDH4”

12306刷票记

我也记不清啥时候动了写bot刷票这个念头的。原因很简单,我一直认为作为一个以代码谋生的不合格程序员,只有把生产工具用好,才能增加自己存在的价值。 首先说明一下主要开发环境:Windows 7,PHP 5.3,php_curl。 翻到了 第一条关于刷票的微博,附了图 很不低调地炫耀。 要刷票,首先自然得熟悉目标系统,所谓踩点。firefox+firebug,抓了一个标准流程的请求:登录、查票、订票。确认订单一开始没敢点,怕会有什么影响,后来去注册了几个测试号,然后尝试了确认订单的操作。流程本身不复杂,但是提交参数有点太多,一步一步来。 回到图1,登录,其实核心在验证码。 Link to this post!