XXL-CRAWLER v1.3.0,分布式爬虫框架


Release Notes

  • 1、开源协议:由 GPLv3 调整为 Apache2.0 开源协议;
  • 2、版本升级:依赖版本升级,如jsoup、htmlunit、selenium等;
  • 3、代码重构:优化代码结构,提升系统可维护性;

简介

XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性;

特性

  • 1、简洁:API直观简洁,可快速上手;
  • 2、轻量级:底层实现仅强依赖jsoup,简洁高效;
  • 3、模块化:模块化的结构设计,可轻松扩展
  • 4、面向对象:支持通过注解,方便的映射页面数据到PageVO对象,底层自动完成PageVO对象的数据抽取和封装返回;单个页面支持抽取一个或多个PageVO
  • 5、多线程:线程池方式运行,提高采集效率;
  • 6、分布式支持:通过扩展 "RunData" 模块,并结合Redis或DB共享运行数据可实现分布式。默认提供LocalRunData单机版爬虫。
  • 7、JS渲染:通过扩展 "PageLoader" 模块,支持采集JS动态渲染数据。原生提供 Jsoup(非JS渲染,速度更快)、HtmlUnit(JS渲染)、Selenium+Phantomjs(JS渲染,兼容性高) 等多种实现,支持自由扩展其他实现。
  • 8、失败重试:请求失败后重试,并支持设置重试次数;
  • 9、代理IP:对抗反采集策略规则WAF;
  • 10、动态代理:支持运行时动态调整代理池,以及自定义代理池路由策略;
  • 11、异步:支持同步、异步两种方式运行;
  • 12、扩散全站:支持以现有URL为起点扩散爬取整站;
  • 13、去重:防止重复爬取;
  • 14、URL白名单:支持设置页面白名单正则,过滤URL;
  • 15、自定义请求信息,如:请求参数、Cookie、Header、UserAgent轮询、Referrer等;
  • 16、动态参数:支持运行时动态调整请求参数;
  • 17、超时控制:支持设置爬虫请求的超时时间;
  • 18、主动停顿:爬虫线程处理完页面之后进行主动停顿,避免过于频繁被拦截;

文档地址

  • 中文文档

技术交流

  • 社区交流

相關推薦

2022-10-20

Scrapy 是一套纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。它也可以用于广泛的目的,从数据挖掘、监控到自动测试等。 v2.7.0 更新内容如下 添加了 Py

2023-05-11

式应用进行专门设计,同时做好模块切分,兼顾快速适应分布式改造,核心所有模块发布到Maven仓库中,通过选配不同的模块快速搭建出一个系统,设计目标是将日常项目开发中,尤其是中小型项目中的一些高频诉求进行覆盖,

2023-07-22

的 BUG; 一款 Go 语言基于GoFrame、Vue3.x、AntDesign、MySQL等框架精心打造的一款模块化、插件化、高性能的前后端分离架构敏捷开发框架,可快速搭建前后端分离后台管理系统,本着简化开发、提升开发效率的初衷,框架自研了一

2024-07-02

e/releases/v1.3.0a GT-HMI(Human Machine Interface) 国产开源 GUI 框架及永久免费设计软件。它提供创建具有易于使用的图形元素,精美的视觉效果和低内存占用的嵌入式 GUI 所需的一切。针对国内市场及用户需求,使用习惯进行了优化

2022-09-11

v1.3.0 更新内容: 1、新增Excel导出功能; 2、优化框架自定义组件; 3、新增系统设置模块; 4、修复近期用户反馈的BUG; 项目介绍 一款 Java 语言基于 SpringBoot2.x、Layui、Thymeleaf、MybatisPlus、Shiro、MySQL 等框架精心打造的一款模

2024-08-01

绍 酷瓜云课堂,依托腾讯云基础服务架构,采用 C 扩展框架 Phalcon 开发,致力互联网课程点播,互联网课程直播,局域网课程点播,局域网课程直播,垂直于在线教育解决方案。 系统功能 实现了点播、直播、考试、专栏、面

2023-07-27

无法重置待定任务状态 节点下线时无法取消任务 爬虫列表中无法加载节点数据 导出数据乱码问题 功能优化 爬虫文件导出 调整任务获取时间为1秒 FileDriver关闭时异常捕获 自动清理30天以前任务 首页

2023-06-18

致任务卡住 无法监控数据源状态 Git拉取错误 当爬虫不存在时应用崩溃问题 数据集问题 功能优化 默认显示最新列表数据 任务完成后关闭Runner 批量写入日志 配置日志TTL 更多数据源 环境变量

2024-09-22

go-fastdfs 是一个基于 http 协议的分布式文件系统,它基于大道至简的设计理念,一切从简设计,使得它的运维及扩展变得更加简单,它具有高性能、高可靠、无中心、免维护等优点。   go-fastdfs 分布式文件系统 v1.4.6 发布,

2024-09-28

go-fastdfs 是一个基于 http 协议的分布式文件系统,它基于大道至简的设计理念,一切从简设计,使得它的运维及扩展变得更加简单,它具有高性能、高可靠、无中心、免维护等优点。 go-fastdfs 分布式文件系统 v1.4.7 发布,增加(删

2024-10-16

go-oam v1.3.0 已经发布,运维资产管理系统 此版本更新内容包括: 1.完善权限控制功能,权限控制到按钮级别,右侧导航菜单根据权限动态展示 2.优化和修复bug 3.增加主机连通性测试 4.增加linux启动脚本 完整的更新日志: https:/

2022-09-21

行了以下优化,方便用户更好的使用北极星的单机限流和分布式限流能力 将限流规则从服务信息中独立为单独的功能栏; 在匹配计算方式上,我们支持了精确、正则、不等于、包好、不包含五种计算方式,更贴合用户实际

2022-09-05

开发用于现实世界人脸修复的实用算法。 目前 GFPGAN V1.3.0 发布了,带来如下改动: 添加 V1.3 模型,它可以产生更自然的恢复结果,并且在非常低质量/高质量的输入上产生更好的结果。 添加“双线性”架构,这是清洁架

2022-10-31

Next Terminal v1.3.0 已经发布,HTML5 的远程桌面网关 此版本更新内容包括: 优化了前端页面 优化了接入终端页面 优化了实时监控和录屏查看页面 修复了使用 socks5 代理时资产状态检测失败的bug 修复了终端无法复制粘贴的