Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。它也可以用于广泛的目的,从数据挖掘、监控到自动测试等。
v2.13.0 更新内容如下:
- asyncio reactor 现在默认启用
- 用
start()
(async) 代替start_requests()
(sync),并更改了迭代方式。 - 添加了
allow_offsite
request meta key - 不支持异步 spider output 的 Spider 中间件已被弃用
- 为通用 spider 中间件添加了一个基类
更多详情可查看完整的更新日志。