领英开源 Feathr,企业级高性能特征存储


领英(LinkedIn)近日宣布开源 Feathr,这是领英为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储。

特征存储是一个用于管理机器学习特征的数据管理系统,包括特征工程代码和特征数据。它是一个中央存储库,用于存储记录的、设计的和访问权限控制的特征,可以在整个团队的许多不同的 ML 模型中使用。它从各种来源获取数据,并执行定义的转换、聚合、验证和其他操作来创建特征。特征存储库注册了可用的特征,并使它们准备好被 ML 训练管道和推理服务所检索和消费。

在领英,有几十个应用程序使用 Feathr 来定义特征,计算它们的训练,在生产中部署它们,并在团队中分享它们。报告显示,与以前针对特定应用的特征管道解决方案相比,有了 Feathr,团队在模型训练工作流程中添加新特征所需的时间大大减少,运行时的性能也有所提高。

领英在公告中表示:“几年前,我们注意到一个模式:团队因维护其特征准备管道的成本增加而负担过重,这损害了他们在创新和改进其应用程序方面的生产力。需要从许多来源汇集时间敏感的数据,以时间点正确的方式将特征与训练标签连接起来,并将特征持久化到存储中以获得低延迟的在线服务。他们还需要确保以相同的方式为训练和推理环境准备特征,以防止训练服务的偏差。”

准备和管理特征一直是大规模运行我们的 ML 应用中最耗时的部分之一。

Feathr 作为一个抽象层,为用户提供了一个用于定义特征的通用特征命名空间,以及一个用于计算、服务和从 ML 工作流中 "按名称" 寻址的通用平台。Feathr 还带来了对特征转换的高级支持,使用户能够在原始数据集的基础上试验新特征。

Feathr 的抽象为特征创建了生产者消费者角色。生产者定义特征并将它们注册到 Feathr,消费者访问/导入特征组到他们的 ML 模型工作流中。

领英团队正在继续开发围绕 Feathr 的生态,提供新的基础设施和工具,包括为特征工程启用 CI/CD。有了它,客户将能够创建广泛共享的 ML 功能的升级版本,然后针对依赖该功能的现有模型进行测试。

 


相关文章

2022-09-27

Feathr 是领英为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储,并已在生产环境中使用多年,该项目于今年 4 月正式开源。 突出的特点 UI:添加数据源详细页面 添加 aerospike sink 支持在 Local Spark 环境中

2022-11-23

Feathr 是领英为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储,并已在生产环境中使用多年,该项目于今年 4 月正式开源。 重要变化: 将派生功能的执行引擎改为 Spark SQL,所以对于没有运行最新样本 notebook

2023-03-09

Feathr 是领英(LinkedIn)为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储,并已在生产环境中使用多年,该项目于 2022 年 4 月正式开源。 Feathr 1.0 近日正式发布,具有以下新功能: 新功能 Feathr 沙盒:Feathr

2022-04-20

。 事件起因于微软旗下全球最大的职业社交网络平台领英(LinkedIn)和小型数据分析公司 HiQ 之间的诉讼。一直以来,HiQ 都依赖于爬取 LinkedIn 用户在网络上可公开访问的信息来实现商业模式。但随着越来越多的企业开始爬

2023-03-17

续版本迭代,现已发布 v1.0.0 版本,在高性能、高安全、企业级特性、可扩展性、功能、应用开发等六个方面已全面具备生产环境可使用的完整能力。 高性能 openGemini 针对物联网、运维监控等领域海量数据管理和分析诉求

2022-11-06

,在2022云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。 开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。

2022-11-05

的里程碑版本,重点推出符合分布式数据库金融标准下的企业级和国产化适配,共包括八大核心特性,全面提升 PolarDB-X 分布式数据库在金融、通讯、政务等行业的普适性。 架构简介 PolarDB-X 采用 Shared-nothing 与存储分离计算

2023-01-11

PU 周期减少了 22%。 另一位开发者分享了他以该项变化为特征的基准测试结果,由此可见性能优化明显: 更多细节查看 PR 描述。

2022-04-14

AMD 在其 GPUOpen 平台上开源了 “HIP-RT” —— 一个新的 HIP 光线追踪库。HIP-RT 使得在 HIP 语言环境中编写光线追踪应用变得非常简单,其库和 API 的设计易于使用,且易于集成到任何现有的 HIP 应用程序中。 当前一代显卡

2022-11-09

— 每个角色、物体和景观都有描述形状、光照和颜色等特征的“资产”,可能会增加数百 GB 的数据。 为了减少游戏的整体包大小,这些资产平时会被压缩。当游戏运行加载时,资产会被传输到系统内存中,CPU 负责解压缩数据

2023-03-22

to Networks 等公司的 20 多位 CISO 和 CTO 合作,总结了因依赖开源软件而引入的 10 大安全和运营风险。 “尽管软件供应链严重依赖 OSS,但该行业缺乏一致的方式来理解和衡量 OSS 的风险。OSS 中的风险管理从许可证管理开始,然后

2023-03-01

数据治理服务,从而在云原生环境下构建和管理高可靠、高性能、可扩展和安全的数据基础设施。同时,该项目正式组建开源社区,并将基于国际开源社区的规则进行经营。 跬智信息(Kyligence)由首个来自中国的 Apache 顶级开

2023-03-09

SQL开源升级发布,主要集中在数据透明加密、增量备份等企业级特性和数据分片管理、性能线性扩展等分布式特性方面。 作为 PostgreSQL 技术领域的年度盛事,阿里云积极参与,与PostgreSQL行业大咖、学术精英、技术专家

2022-09-16

开源办公套件 LibreOffice 7.4.1 已发布,这是 LibreOffice 7.4 的第一个维护版本,在LibreOffice 7.4 发布三周后推出,修复在此期间发现的各种错误。 根据 RC1 和 RC2 的变更日志,7.4.1 小型维护更新总共解决了 80 个错误。 tdf#91764&nb