txtai 5.3 发布,AI 驱动的语义搜索应用


AI 驱动的语义搜索应用 txtai 已发布 5.3 版本,此版本添加了嵌入引导和提示驱动的搜索,以及多种训练语言模型的方法。

提示驱动的搜索是 txtai 中会话搜索的一大进步,它可以将复杂的提示传递给 txtai ,以自定义返回搜索结果的方式。另外,现在支持从头开始培训语言模型。支持屏蔽语言建模 (MLM)、因果语言建模 (CLM) 和替换标记检测(ELECTRA 风格),同属微型模型工作的一部分。

txtai 是一个人工智能驱动的搜索引擎,可以在文本的各个部分上建立一个 AI 驱动的索引。 txtai 支持构建文本索引以执行相似性搜索并创建基于问 - 答的系统。此外,txtai 还具有用于 zero-shot 分类的功能。

新功能

  • 将语言建模任务添加到 HFTrainer ( #403 )
  • 添加语言建模示例笔记本(#408 
  • 将常见问题解答部分添加到文档 ( #413 )
  • 将语言生成任务添加到 HFTrainer ( #414 )
  • 向 HFTrainer 添加替换标记检测任务(#415 
  • 添加用于文本生成的生成器管道 ( #416 )
  • 添加用于 LLM 的嵌入引导和提示驱动搜索的笔记本 ( #418 )

改进

  • 标准化 BM25 和 TF-IDF 分数(#401 
  • 如果在 Google Colab 中运行,请添加注释以重新启动内核 - 谢谢@hsm207!( #410 )
  • 启动 API 和找不到配置文件时添加清除错误(#412 
  • 提取器管道 2.0 ( #417 )
  • 使文本参数对于应用程序中的提取器管道是可选的(#420 

Bug修复

  • 修复 ORDER BY 区分大小写的问题(#405 

 更新公告:https://github.com/neuml/txtai/releases/tag/v5.3.0

 


相關推薦

2022-09-29

txtai 5.0 已发布,这是一个重要的新版本,增加了语义图,以及启用外部集成,还包含一些改进和错误修复。 txtai 是一个人工智能驱动的搜索引擎,可以在文本的各个部分上建立一个 AI 驱动的索引。 txtai 支持构建文本索引以

2022-10-20

txtai 5.1 已发布,此版本为翻译管道添加了新的模型支持、在转录管道和 ARM Docker 镜像中支持 OpenAI Whisper、升级和改进主题建模,包括使用 BM25/TF-IDF 索引来驱动主题模型。 txtai 是一个人工智能驱动的搜索引擎,可以在文本的

2022-12-22

txtai 5.2 已发布,此版本添加了 TextToSpeech 和 Cross-Encoder 管道。embeddings.batchtransform方法的性能得到了显着提高,从而加快了构建语义图的速度。Embeddings 现在可以使用默认配置,允许创建没有参数的 Embeddings 实例,例如 Pipelines。

2022-08-17

txtai 4.6 已发布,这是 txtai 的第 25 个版本,发布于项目 2 周年纪念日之际。txtai 4.6 是一个大型但向后兼容的版本,此版本在嵌入和工作流之间添加了更好的集成;还添加了许多重要的性能改进和错误修复。 txtai 是一个人工

2023-08-17

Redis 7.2.0 现已发布,这是首个 Unified Redis Release。此版本包含一系列广泛的新功能,以及对人工智能计划功能支持的重大投资。 公告称,这是“影响最深远的版本。在每一项增强功能中,你都能感受到一个强烈的主题:让开发人

2023-10-14

VMware Greenplum 7 现已正式发布。Greenplum 是一个统一分析和人工智能 (AI) 平台,旨在帮助企业充分利用其数据资源。VMware Greenplum 核心是以开源 PostgreSQL 项目为基础,其独特之处在于将商业智能(BI)和人工智能(AI)功能无缝集成

2022-11-17

OpenSearch 2.4.0 已正式发布。公告写道,此版本带来了对 Windows 的支持、安全分析、新的地理空间功能,以及针对搜索、分析和可观测性用例的多项升级。 OpenSearch 2.4.0 是 2022 年的最后一个次要更新版本,它扩展了 OpenSearch 项目工

2022-06-03

Vivaldi 的核心理念之一就是让用户可以自由定制浏览器。在 Vivaldi 5.3 中,官方进一步推动了这一理念的实践,带来了诸多新功能与改进。Vivaldi 5.3 更新内容如下: 可编辑工具栏 此前,Vivaldi 推出了部分工具栏自定义模式,让

2022-06-23

Zulip Server 5.3 现已发布。Zulip 是一个开源团队协作工具,一款专为实时和异步对话而设计的现代团队聊天应用程序,支持快速搜索、拖放文件上传、图像预览、组私人消息、可听通知、错过电子邮件消息提醒与桌面应用等。 具

2022-05-28

Mastodon v3.5.3 发布了。Mastodon 是一个免费的开源社交网络程序,一个商业平台的替代方案,避免了单个公司垄断沟通的风险。无论选择哪个服务器,都可以与其他人进行互动。通过运行自己的 Mastodon 实例,可无缝地参与到社交网

2023-07-08

的大会主题演讲中,华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0和昇腾AI云服务。其中,盘古大模型3.0围绕“行业重塑”“技术扎根”“开放同飞”三大创新方向,持续打造核心竞争力,为行业客户、伙伴及开发者提

2023-03-30

PicList 是一个云存储管理和图片上传工具,可以进行包括云端目录查看、文件搜索、批量上传下载和删除文件,复制多种格式文件链接和文件预览等操作。 开源地址和软件官网 Github: https://github.com/Kuingsmile/PicList Gitee: https

2023-08-18

案、想故事。 上周清华大学新闻与传播学院沈阳团队发布《大语言模型综合性能评估报告》,报告显示,百度文心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越

2023-09-08

增加了完整的云存储管理功能,包括云端目录查看、文件搜索、批量上传下载和删除文件,复制多种格式文件链接和图片/markdown/文本/视频预览等,另外还有更加强大的相册和多项功能新增或优化。 开源地址和软件官网 Githu