从写出的第一个网络爬虫到现在,已有半年。
使用过 urllib,学过 requests,速成过 aiohttp,到现在入门的 scrapy。从必备的 get,到使用 post,理解了 query string parameters,知道了 form data,涉猎了 csrf,亦看过各种 response code……。因 thread process 为难,更糟心 coroutine,还有那 lock queue,namespace,因此也结缘 redis,偶遇 mongo。还有 re,xpath 与 css selector…
这些,差不多就是我所学的全部了。不适用总会遗忘,写几篇总结速记这些天来的感悟。
- 从 url 谈起
- 结识
urllib
与requests
- 数据的提取
- 加速!
- 内存溢出与数据保存
- 架构的思考
哦,对了,我比较喜欢新的东西~所以 python 版本呢,默默地不说话。
半年时间过去,还是只写了一篇,我想,应该不会有后续了…
End 16.09.06