jsoup 1.17.1 发布,Java HTML 解析器


jsoup 1.17.1 现已发布,支持 request-level 身份验证、属性名称和值源范围、stream( ) 可迭代支持以及大量其他改进和错误修复。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。

下载地址:https://jsoup.org/download

具体更新内容包括:

改进

  • Request-Level Authentication:在 Jsoup.connect() 中添加了对 request-level 身份验证的支持,从而启用对代理和服务器的身份验证。更多的。
  • Elements DOM Mutators:在列表中,添加了对Elements#set(int, Element)Elements#remove(int)Elements#remove(Object)Elements#clear()Elements#removeAll()Elements#retainAll()Elements#removeIf()Elements#replaceAll()的直接支持。这些方法会更新原始 DOM 以及Elements列表。更多的。
  • Stream Interface:引入了NodeIterator类,使用 Iterator 接口进行高效节点树遍历。已添加 StreamElement#stream()Node#nodeStream()方法,以实现流畅的节点遍历可组合流管道。更多的。
  • XML OutputSettings :将OutputSettings语法更改为XML时自动将 xhtmlEscapeMode设置为默认值。
  • is() Selector:添加了:is(selector list)pseudo-selector 来查找与选择器列表中的任何选择器匹配的元素。这增强了大型 ORed 选择器的可读性。更多的。
  • JPMS Module Support:重新打包支持 native JPMS 模块的库。更多的。
  • Source Position Fidelity:启用跟踪时提高源位置的保真度。现在可以通过Range.isImplicit()跟踪隐式创建或关闭的元素。更多的。
  • Attribute Source Positions:当源跟踪打开时,启用属性名称和值的源位置。Attribute#sourceRange()提供范围。更多的。
  • 虚拟线程:通过将内部ConstrainableInputStream替换为ControllableInputStream,提高了 Java 21+ 虚拟线程下的性能。更多的。
  • XML Mimetype Support:在Jsoup.connect()中扩展了 XML mimetype 支持,以包含任何 XML mimetype。更多的。

Bug 修复

  • XML Data Nodes:修复了使用XML语法输出时解析为数据节点的 HTML 元素未正确发出为CDATA节点的错误。更多的。
  • Immediate Parent Selector:更正了 Immediate Parent selector>可以匹配根上下文元素上方的元素的错误。更多的。
  • Empty Doctype :修复了W3CDom中如果 jsoup 输入文档包含空 doctype 则转换将失败的错误。doctype 现在被丢弃,转换继续。
  • SVG Elements Cleaning:修复了清理包含 SVG 元素或其他具有保留大小写名称的外来元素的文档时的 incorrect nesting。更多的。
  • Unknown Self-Closing Tags:在清理文档时保留输入中未知 self-closing tags 的输出样式。更多的。

Build Improvements

  • Local Test Proxy:添加了用于代理集成测试的本地测试代理实现。更多的。
  • HTTPS Request Tests:添加了使用本地自签证书的 HTTPS 请求支持测试。包括代理测试。更多的。

Changes

  • Response BodyStreamConnection.Response.bodyStream()返回的 InputStream现在是一个普通的BufferedInputStream。查看更多。

详情可查看更新说明:https://github.com/jhy/jsoup/releases/tag/jsoup-1.17.1


相關推薦

2022-08-25

jsoup 1.15.3 现已发布,包括针对潜在 XSS 攻击的安全修复,以及其他改进,包括更具描述性的验证错误消息。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于

2023-12-31

jsoup 1.17.2 现已发布。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。 下载地址:https://jsoup.org/download 具体更新内容包括: 改进 Attrib

2023-10-22

,相约开源PHP办公室,我们一起聊 AI!>>> jsoup 1.16.2 现已发布。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。 下载地址:https://jsoup.org/

2023-05-06

jsoup 1.16.1 现已发布。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。 下载地址:https://jsoup.org/download 具体更新内容包括: Improvements

2023-02-21

jsoup 1.15.4 现已发布,其中包括了一些改进,尤其是在 pretty-printing HTML 时;以及一些错误的修正。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作

2023-03-06

Pandoc 3.1.1 发布了,Pandoc 是一个通用标记转换 Haskell 库,用于从一种标记格式转换为另一种,同时也是一个使用该库的命令行工具,它可以转换 28 种标记格式。 此版本带来如下更改: TSV 阅读器:不将制表符当作空格 ( #8661 )

2023-07-09

YMP 是一个非常简单、易用的轻量级 Java 应用开发框架,涵盖 AOP、IoC、WebMVC、ORM、Validation、Plugin、Serv、Cache 等特性,主要技术特点: 采用组件化、模块方式打包,可按需装配,灵活可扩展; 采用微内核实现 AutoScan、AOP、

2023-02-13

Fastcms 是基于 SpringBoot 前后端分离技术,且具有插件化架构的 CMS 系统,系统具有高扩展性,易维护性,可以快速搭建网站,微信小程序,是开发微信营销插件的基石 Fastcms 是真正意义上的插件化开源项目,支付,搜索,订单催

2023-07-11

持从项目外部加载源代码来生成字段注释 (包括标准规范发布的 jar 包)。 支持生成多种格式文档:Markdown、HTML5、Asciidoctor、Postman collection、Open Api 3.0+。 轻易实现在 Spring Boot 服务上在线查看静态 HTML5 api 文档。 开放文档数据

2022-10-27

目前PHP8.2已经进入RC阶段,按计划还有一个月就会发布正式版。而PHP8.3的决议也早已开始推进了。 本文为大家介绍一个最新通过的决议,也是PHP8.3的第一个决议:内置JSON验证函数。 这项决议在2022-08-14发起,2022-10-07 投票完成

2022-07-06

OpenAPI Generator v6.0.1 现已发布。OpenAPI Generator 可用于在给定 OpenAPI 规范(v2, v3)的情况下自动生成 API 客户端库、server stubs、文档以及配置。 v6.0.1 是一个包含增强功能的补丁版本,修复了涵盖 20 种编程语言的错误。有关更改

2022-10-16

为 Apache2.0 开源协议; 2、版本升级:依赖版本升级,如jsoup、htmlunit、selenium等; 3、代码重构:优化代码结构,提升系统可维护性; 简介 XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步

2022-09-09

feilong 3.2.1 发布了,让Java开发更简便的工具库 让你从大量重复的底层代码中脱身,提高开发效率; 让你的代码更简炼,易写、易读、易于维护; 文档地址: http://feilong-core.mydoc.io/ maven 依赖配置: <dependency> <groupI

2023-03-27

MyExcel,是一个集导入、导出、加密 Excel 等多项功能的 Java 工具包。 MyExcel 采用声明式语法来构建、读取 Excel,屏蔽 POI 的具体操作细节(对 POI 无感知),以开发常用的技术替代,使得构建(从简单到高度复杂 Excel)以及读取 E