XXL-CRAWLER v1.3.0,分布式爬虫框架


Release Notes

  • 1、开源协议:由 GPLv3 调整为 Apache2.0 开源协议;
  • 2、版本升级:依赖版本升级,如jsoup、htmlunit、selenium等;
  • 3、代码重构:优化代码结构,提升系统可维护性;

简介

XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性;

特性

  • 1、简洁:API直观简洁,可快速上手;
  • 2、轻量级:底层实现仅强依赖jsoup,简洁高效;
  • 3、模块化:模块化的结构设计,可轻松扩展
  • 4、面向对象:支持通过注解,方便的映射页面数据到PageVO对象,底层自动完成PageVO对象的数据抽取和封装返回;单个页面支持抽取一个或多个PageVO
  • 5、多线程:线程池方式运行,提高采集效率;
  • 6、分布式支持:通过扩展 "RunData" 模块,并结合Redis或DB共享运行数据可实现分布式。默认提供LocalRunData单机版爬虫。
  • 7、JS渲染:通过扩展 "PageLoader" 模块,支持采集JS动态渲染数据。原生提供 Jsoup(非JS渲染,速度更快)、HtmlUnit(JS渲染)、Selenium+Phantomjs(JS渲染,兼容性高) 等多种实现,支持自由扩展其他实现。
  • 8、失败重试:请求失败后重试,并支持设置重试次数;
  • 9、代理IP:对抗反采集策略规则WAF;
  • 10、动态代理:支持运行时动态调整代理池,以及自定义代理池路由策略;
  • 11、异步:支持同步、异步两种方式运行;
  • 12、扩散全站:支持以现有URL为起点扩散爬取整站;
  • 13、去重:防止重复爬取;
  • 14、URL白名单:支持设置页面白名单正则,过滤URL;
  • 15、自定义请求信息,如:请求参数、Cookie、Header、UserAgent轮询、Referrer等;
  • 16、动态参数:支持运行时动态调整请求参数;
  • 17、超时控制:支持设置爬虫请求的超时时间;
  • 18、主动停顿:爬虫线程处理完页面之后进行主动停顿,避免过于频繁被拦截;

文档地址

  • 中文文档

技术交流

  • 社区交流

相關推薦

2022-10-20

Scrapy 是一套纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。它也可以用于广泛的目的,从数据挖掘、监控到自动测试等。 v2.7.0 更新内容如下 添加了 Py

2023-05-11

式应用进行专门设计,同时做好模块切分,兼顾快速适应分布式改造,核心所有模块发布到Maven仓库中,通过选配不同的模块快速搭建出一个系统,设计目标是将日常项目开发中,尤其是中小型项目中的一些高频诉求进行覆盖,

2023-07-22

的 BUG; 一款 Go 语言基于GoFrame、Vue3.x、AntDesign、MySQL等框架精心打造的一款模块化、插件化、高性能的前后端分离架构敏捷开发框架,可快速搭建前后端分离后台管理系统,本着简化开发、提升开发效率的初衷,框架自研了一

2022-09-11

v1.3.0 更新内容: 1、新增Excel导出功能; 2、优化框架自定义组件; 3、新增系统设置模块; 4、修复近期用户反馈的BUG; 项目介绍 一款 Java 语言基于 SpringBoot2.x、Layui、Thymeleaf、MybatisPlus、Shiro、MySQL 等框架精心打造的一款模

2023-07-27

无法重置待定任务状态 节点下线时无法取消任务 爬虫列表中无法加载节点数据 导出数据乱码问题 功能优化 爬虫文件导出 调整任务获取时间为1秒 FileDriver关闭时异常捕获 自动清理30天以前任务 首页

2023-06-18

致任务卡住 无法监控数据源状态 Git拉取错误 当爬虫不存在时应用崩溃问题 数据集问题 功能优化 默认显示最新列表数据 任务完成后关闭Runner 批量写入日志 配置日志TTL 更多数据源 环境变量

2022-09-21

行了以下优化,方便用户更好的使用北极星的单机限流和分布式限流能力 将限流规则从服务信息中独立为单独的功能栏; 在匹配计算方式上,我们支持了精确、正则、不等于、包好、不包含五种计算方式,更贴合用户实际

2022-09-05

开发用于现实世界人脸修复的实用算法。 目前 GFPGAN V1.3.0 发布了,带来如下改动: 添加 V1.3 模型,它可以产生更自然的恢复结果,并且在非常低质量/高质量的输入上产生更好的结果。 添加“双线性”架构,这是清洁架

2022-10-31

Next Terminal v1.3.0 已经发布,HTML5 的远程桌面网关 此版本更新内容包括: 优化了前端页面 优化了接入终端页面 优化了实时监控和录屏查看页面 修复了使用 socks5 代理时资产状态检测失败的bug 修复了终端无法复制粘贴的

2023-02-05

Marsh v1.3.0 已经发布,微服务开发脚手架 此版本更新内容包括: 升级 solon 为 2.0.0 升级 snack3 为 3.2.53 升级 water 为 2.10.0 升级 rock 为 2.6.0 升级 grit 为 1.5.0 详情查看:https://gitee.com/noear/marsh/releases/v1.3.0

2024-03-19

yuqing v1.3.0 已经发布,舆情监控系统 此版本更新内容包括: 1.修复了若干bug 2.新增公众号预警功能 3.新增监控预警功能 4.新增移动端页面 详情查看:https://gitee.com/stonedtx/yuqing/releases/v1.3.0

2022-11-08

卷王问卷考试系统 v1.3.0 版本发布。 经过一年多的发展,卷王系统在问卷编辑、逻辑设置、数据校验、数据导出等很多方面的功能体验超过了问卷星这些主流的商业调查问卷系统。 并且卷王系统提供了多种途径的部署方式,

2023-02-21

CLI 的 Windows 软件包管理器,有点像 apt-get。Chocolatey CLI 1.3.0 发布,更新内容如下: 弃用的功能 弃用 WebPI 替代源 不再使用 choco install 命令中的 nupkg 或 nuspec 的直接路径 弃用 apikey 命令中的 -remove 选项 弃用 choco config list

2023-11-03

无法解决的,目前将继续尝试用我们传统的桌面版Googlebot爬虫抓取这些网站,并将每年对名单进行几次重新评估。 Search Console 的变化方面,Google宣布将关闭Google搜索控制台设置页面中的索引爬虫信息。Google解释说:"由于所有在