盒子
盒子

网络爬虫:总结

从写出的第一个网络爬虫到现在,已有半年。

使用过 urllib,学过 requests,速成过 aiohttp,到现在入门的 scrapy。从必备的 get,到使用 post,理解了 query string parameters,知道了 form data,涉猎了 csrf,亦看过各种 response code……。因 thread process 为难,更糟心 coroutine,还有那 lock queuenamespace,因此也结缘 redis,偶遇 mongo。还有 rexpathcss selector

这些,差不多就是我所学的全部了。不适用总会遗忘,写几篇总结速记这些天来的感悟。

  • 从 url 谈起
  • 结识urllibrequests
  • 数据的提取
  • 加速!
  • 内存溢出与数据保存
  • 架构的思考

哦,对了,我比较喜欢新的东西~所以 python 版本呢,默默地不说话。


半年时间过去,还是只写了一篇,我想,应该不会有后续了…

End 16.09.06