领英(LinkedIn)近日宣布开源 Feathr,这是领英为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储。
特征存储是一个用于管理机器学习特征的数据管理系统,包括特征工程代码和特征数据。它是一个中央存储库,用于存储记录的、设计的和访问权限控制的特征,可以在整个团队的许多不同的 ML 模型中使用。它从各种来源获取数据,并执行定义的转换、聚合、验证和其他操作来创建特征。特征存储库注册了可用的特征,并使它们准备好被 ML 训练管道和推理服务所检索和消费。
在领英,有几十个应用程序使用 Feathr 来定义特征,计算它们的训练,在生产中部署它们,并在团队中分享它们。报告显示,与以前针对特定应用的特征管道解决方案相比,有了 Feathr,团队在模型训练工作流程中添加新特征所需的时间大大减少,运行时的性能也有所提高。
领英在公告中表示:“几年前,我们注意到一个模式:团队因维护其特征准备管道的成本增加而负担过重,这损害了他们在创新和改进其应用程序方面的生产力。需要从许多来源汇集时间敏感的数据,以时间点正确的方式将特征与训练标签连接起来,并将特征持久化到存储中以获得低延迟的在线服务。他们还需要确保以相同的方式为训练和推理环境准备特征,以防止训练服务的偏差。”
准备和管理特征一直是大规模运行我们的 ML 应用中最耗时的部分之一。
Feathr 作为一个抽象层,为用户提供了一个用于定义特征的通用特征命名空间,以及一个用于计算、服务和从 ML 工作流中 "按名称" 寻址的通用平台。Feathr 还带来了对特征转换的高级支持,使用户能够在原始数据集的基础上试验新特征。
Feathr 的抽象为特征创建了生产者和消费者角色。生产者定义特征并将它们注册到 Feathr,消费者访问/导入特征组到他们的 ML 模型工作流中。
领英团队正在继续开发围绕 Feathr 的生态,提供新的基础设施和工具,包括为特征工程启用 CI/CD。有了它,客户将能够创建广泛共享的 ML 功能的升级版本,然后针对依赖该功能的现有模型进行测试。