Feathr 0.9 发布,领英开源的企业级高性能特征存储


Feathr 是领英为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储,并已在生产环境中使用多年,该项目于今年 4 月正式开源。

重要变化:

将派生功能的执行引擎改为 Spark SQL,所以对于没有运行最新样本 notebooks 的用户来说,这可能会带来一点破坏性的变化。具体而言,他们可能会面临下方的问题:

Preprocessed DataFrames are: 
{'feature_user_age,feature_user_gift_card_balance,feature_user_has_valid_credit_card,feature_user_tax_rate': JavaObject id=o243}
Traceback (most recent call last):
File "feathr_pyspark_driver.py", line 107, in <module>
submit_spark_job(feature_names_funcs)
File "feathr_pyspark_driver.py", line 85, in submit_spark_job
py4j_feature_job.mainWithPreprocessedDataFrame(job_param_java_array, new_preprocessed_df_map)
File "/home/trusted-service-user/cluster-env/env/lib/python3.8/site-packages/py4j/java_gateway.py", line 1304, in __call__
return_value = get_return_value(
File "/opt/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 117, in deco
pyspark.sql.utils.AnalysisException: Undefined function: 'toBoolean'. This function is neither a registered temporary function nor a permanent function registered in the database 'default'.; line 1 pos 84
)

用户应该修改下方的代码:

feature_user_purchasing_power = DerivedFeature(name="feature_user_purchasing_power",
key=user_id,
feature_type=FLOAT,
input_features=[
feature_user_gift_card_balance, feature_user_has_valid_credit_card],
transform="feature_user_gift_card_balance + if_else(toBoolean(feature_user_has_valid_credit_card), 100, 0)")

为这个:

feature_user_purchasing_power = DerivedFeature(name="feature_user_purchasing_power",
key=user_id,
feature_type=FLOAT,
input_features=[
feature_user_gift_card_balance, feature_user_has_valid_credit_card],
transform="feature_user_gift_card_balance + if(boolean(feature_user_has_valid_credit_card), 100, 0)")

其他变化:

  • 修复特征类型错误 #701
  • 修复 Purview+RBAC 注册表的网络应用问题 #700
  • 删除文档中的硬编码资源 #696
  • 添加 Purview 注册表和 RBAC 注册表的 e2e 测试 #689
  • 改进 databricks 提交的错误信息 #710
  • 改进 purview 注册表的错误信息 #709
  • [WIP] 热修复 databricks es 的依赖性问题 #713
  • Fix materialize to sql e2e test failure by @blrchen in #717
  • 在 Feathr 中添加数据模型 #659
  • 修复将特征定义转换为 HOCON 文件时的查找特征缺失问题
  • 修复函数字符串解析问题 #725
  • 删除未使用的证书和废弃的 purview 设置
  • 撤销错误提交的 adb 令牌 #730
  • 修复 synapse 错误不打印的问题 #734
  • 修复 Spark 配置传递错误 #729
  • 在派生特征转换中支持 SQL 表达式 #731

更多详情可查看:https://github.com/feathr-ai/feathr/releases/tag/v0.9.0


相關推薦

2022-04-20

领英(LinkedIn)近日宣布开源 Feathr,这是领英为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储。 特征存储是一个用于管理机器学习特征的数据管理系统,包括特征工程代码和特征数据。它是一个中央存储

2022-09-27

Feathr 是领英为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储,并已在生产环境中使用多年,该项目于今年 4 月正式开源。 突出的特点 UI:添加数据源详细页面 添加 aerospike sink 支持在 Local Spark 环境中

2023-03-09

Feathr 是领英(LinkedIn)为简化机器学习 (ML) 功能管理和提高开发者生产力而构建的特征存储,并已在生产环境中使用多年,该项目于 2022 年 4 月正式开源。 Feathr 1.0 近日正式发布,具有以下新功能: 新功能 Feathr 沙盒:Feathr

2022-11-17

能; 新增模式切换关闭KMRE全局提示功能; 完成版本发布时各项目打标签的策略。 欢迎各位感兴趣的社区开发者加入我们,一起打造openKylin平台下稳定易用的桌面环境。 二、RISC-V SIG 本SIG组主要负责RISC-V架构开源软件包

2023-03-10

市公司,中科院、红 + 字会等。相比 WordPress,高安全、高性能、本地化是我们的切入点。(已获得 Gitee 评为:最有价值的开源项目)。 JPress v5.0.9  更新内容如下: 新增:后台文章列表添加属性显示的功能 新增:后台文

2023-06-15

LT 还提供了灵活的分布式训练部署以满足不同的需求。 开源地址:https://github.com/alibaba/graphlearn-for-pytorch 文档地址:https://graphlearn-torch.readthedocs.io/en/latest/index.html 背景介绍 图神经网络作为一种图数据上表示学习的方法已

2022-09-20

开源监控项目 frostmourne 最新发布版本 0.9-RELEASE,带来了很多核心功能,欢迎使用。 更新内容: ### Feature * 【0.9】增加telnet端口连通监控 [2022-06-09] * 【0.9】增加SqlServer数据监控报警 [2022-06-30] * 【0.9】监控列表增加监控调度时

2022-11-05

上具备万物互联能力的操作系统-openKylin 0.9,于今天正式发布!   本次openKylin 0.9版本基于5.15内核构建,新合并了1720+内核补丁,新增了互联互通应用、系统管家应用、openKylin通用集成开发环境等;同时升级优化了系统安装

2022-04-20

。 事件起因于微软旗下全球最大的职业社交网络平台领英(LinkedIn)和小型数据分析公司 HiQ 之间的诉讼。一直以来,HiQ 都依赖于爬取 LinkedIn 用户在网络上可公开访问的信息来实现商业模式。但随着越来越多的企业开始爬

2023-06-25

Stability AI 近日发布了 Stable Diffusion XL 0.9,这是 Stable Diffusion 文本-图像模型套件中最先进的开发成果。继 4 月发布 Stable Diffusion XL Beta 之后,Stable Diffusion XL 0.9 在图像和构图细节方面比前者有了巨大的改进。 示例 在 SDXL Beta 版

2023-10-14

VMware Greenplum 7 现已正式发布。Greenplum 是一个统一分析和人工智能 (AI) 平台,旨在帮助企业充分利用其数据资源。VMware Greenplum 核心是以开源 PostgreSQL 项目为基础,其独特之处在于将商业智能(BI)和人工智能(AI)功能无缝集成

2023-03-17

续版本迭代,现已发布 v1.0.0 版本,在高性能、高安全、企业级特性、可扩展性、功能、应用开发等六个方面已全面具备生产环境可使用的完整能力。 高性能 openGemini 针对物联网、运维监控等领域海量数据管理和分析诉求

2022-12-22

Fastcms是基于SpringBoot前后端分离技术,且具有插件化架构的CMS系统,系统具有高扩展性,易维护性,可以快速搭建网站,微信小程序,是开发微信营销插件的基石 Fastcms 是真正意义上的插件化开源项目,支付,搜索,订单催付,

2022-11-15

159 位贡献者共 430 个 PR,时隔 3 个月,Bevy 0.9 版本正式发布。这个版本增加了大量的新功能、错误修复和调整,以下是其中的一些亮点: HDR 后期处理、色调映射:Bevy 有一个新的 HDR 后期处理和色调映射管道,可以用它来实