领英开源 Feathr,企业级高性能特征存储


领英(LinkedIn)近日宣布开源 Feathr,这是领英为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储。

特征存储是一个用于管理机器学习特征的数据管理系统,包括特征工程代码和特征数据。它是一个中央存储库,用于存储记录的、设计的和访问权限控制的特征,可以在整个团队的许多不同的 ML 模型中使用。它从各种来源获取数据,并执行定义的转换、聚合、验证和其他操作来创建特征。特征存储库注册了可用的特征,并使它们准备好被 ML 训练管道和推理服务所检索和消费。

在领英,有几十个应用程序使用 Feathr 来定义特征,计算它们的训练,在生产中部署它们,并在团队中分享它们。报告显示,与以前针对特定应用的特征管道解决方案相比,有了 Feathr,团队在模型训练工作流程中添加新特征所需的时间大大减少,运行时的性能也有所提高。

领英在公告中表示:“几年前,我们注意到一个模式:团队因维护其特征准备管道的成本增加而负担过重,这损害了他们在创新和改进其应用程序方面的生产力。需要从许多来源汇集时间敏感的数据,以时间点正确的方式将特征与训练标签连接起来,并将特征持久化到存储中以获得低延迟的在线服务。他们还需要确保以相同的方式为训练和推理环境准备特征,以防止训练服务的偏差。”

准备和管理特征一直是大规模运行我们的 ML 应用中最耗时的部分之一。

Feathr 作为一个抽象层,为用户提供了一个用于定义特征的通用特征命名空间,以及一个用于计算、服务和从 ML 工作流中 "按名称" 寻址的通用平台。Feathr 还带来了对特征转换的高级支持,使用户能够在原始数据集的基础上试验新特征。

Feathr 的抽象为特征创建了生产者消费者角色。生产者定义特征并将它们注册到 Feathr,消费者访问/导入特征组到他们的 ML 模型工作流中。

领英团队正在继续开发围绕 Feathr 的生态,提供新的基础设施和工具,包括为特征工程启用 CI/CD。有了它,客户将能够创建广泛共享的 ML 功能的升级版本,然后针对依赖该功能的现有模型进行测试。

 


相關推薦

2022-09-27

Feathr 是领英为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储,并已在生产环境中使用多年,该项目于今年 4 月正式开源。 突出的特点 UI:添加数据源详细页面 添加 aerospike sink 支持在 Local Spark 环境中

2022-11-23

Feathr 是领英为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储,并已在生产环境中使用多年,该项目于今年 4 月正式开源。 重要变化: 将派生功能的执行引擎改为 Spark SQL,所以对于没有运行最新样本 notebook

2023-03-09

Feathr 是领英(LinkedIn)为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储,并已在生产环境中使用多年,该项目于 2022 年 4 月正式开源。 Feathr 1.0 近日正式发布,具有以下新功能: 新功能 Feathr 沙盒:Feathr

2023-06-15

LT 还提供了灵活的分布式训练部署以满足不同的需求。 开源地址:https://github.com/alibaba/graphlearn-for-pytorch 文档地址:https://graphlearn-torch.readthedocs.io/en/latest/index.html 背景介绍 图神经网络作为一种图数据上表示学习的方法已

2022-04-20

。 事件起因于微软旗下全球最大的职业社交网络平台领英(LinkedIn)和小型数据分析公司 HiQ 之间的诉讼。一直以来,HiQ 都依赖于爬取 LinkedIn 用户在网络上可公开访问的信息来实现商业模式。但随着越来越多的企业开始爬

2023-10-14

在帮助企业充分利用其数据资源。VMware Greenplum 核心是以开源 PostgreSQL 项目为基础,其独特之处在于将商业智能(BI)和人工智能(AI)功能无缝集成在同一平台上。 公告指出,VMware Greenplum 7 彰显了对创建和演进一个内在安全、

2023-03-17

续版本迭代,现已发布 v1.0.0 版本,在高性能、高安全、企业级特性、可扩展性、功能、应用开发等六个方面已全面具备生产环境可使用的完整能力。 高性能 openGemini 针对物联网、运维监控等领域海量数据管理和分析诉求

2022-11-06

,在2022云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。 开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。

2023-07-25

信部国家开源托管平台项目。Gitee 于 2017 年上线发布针对企业级的研发效能平台 Gitee 企业版。截至目前,Gitee 已经服务 1000 万开发者用户、26 万家企业(含 1200 家中大型私有化部署企业)以及 2000 多家高等院校。 开源PHP自 2020

2024-02-23

规模排名全球第二位。但从结构看,通用算力占了大半,高性能算力占比有待提升。浪潮信息高级副总裁刘军表示,高质量算力采用先进的计算架构,具备高算效、高能效、可持续、可获得、可评估五大特征。其中,高算效是实

2023-10-23

【源创会预告】1024 程序员节(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> Redis 方面近期透露,其正在寻求将磁盘作为分层存储架构的一部分,以降低成本并扩大系统的吸引力。 首席执行官 Rowan Trollope 在接受 The Regist

2023-04-27

a [7] 大会上展示了这项工作,并且即将把相关工作集成到开源项目 SREWorks [8]。 通过这些在线算法,Flink ML 支持机器学习任务持续使用新数据更新模型,从而提升推理服务的时效性和准确率。这个能力对于能接触到最新用户行为

2023-05-18

用的标准,能够提供高效的线性代数运算,同时也是很多高性能库的基础,如OpenBLAS、MKL等。 随着计算机技术的发展和日益广泛的应用,数学计算库也不断演进,常用函数已经达到一万个,版本多种多样,也成为国际巨头掌控

2022-11-05

的里程碑版本,重点推出符合分布式数据库金融标准下的企业级和国产化适配,共包括八大核心特性,全面提升 PolarDB-X 分布式数据库在金融、通讯、政务等行业的普适性。 架构简介 PolarDB-X 采用 Shared-nothing 与存储分离计算