0

0

Dagster资产间数据传递与用户配置的最佳实践

聖光之護

聖光之護

发布时间:2025-11-28 12:57:35

|

764人浏览过

|

来源于php中文网

原创

dagster资产间数据传递与用户配置的最佳实践

在Dagster中,正确处理用户自定义配置与资产间的数据传递是构建健壮数据管道的关键。本文旨在解决在Dagster资产中使用`Config`进行用户参数定义,并将上游资产结果传递给下游资产时常遇到的配置错误。我们将深入探讨如何通过显式参数注入和类型提示,优化资产间的数据流,从而避免常见的`DagsterInvalidConfigError`,确保数据管道的顺畅运行和配置的灵活性。

引言:Dagster资产配置与数据流的挑战

在数据工程实践中,我们经常需要构建可配置的数据管道,允许用户在运行时输入参数,例如数据拉取的起始日期或特定的筛选条件。Dagster通过Config类提供了强大的配置管理能力。然而,当这些配置与资产间的数据传递机制结合时,开发者可能会遇到一些困惑,尤其是在尝试将一个资产的输出作为另一个资产的输入时,容易遭遇DagsterInvalidConfigError。

本教程将以一个具体的场景为例:用户定义一个水果筛选参数,并在数据生成后,通过该参数筛选数据,然后将筛选后的数据传递给后续资产进行进一步处理。我们将分析导致错误的原因,并提供一个符合Dagster最佳实践的解决方案。

理解Dagster资产与配置

Dagster的核心概念之一是软件定义资产(Software-Defined Assets)。每个资产代表数据世界中的一个逻辑数据集,其生成过程由一个Python函数定义。@asset装饰器将一个Python函数标记为一个Dagster资产。

Config是Dagster提供的一种机制,用于为资产或操作定义强类型配置模式。通过继承dagster.Config并定义类型注解的字段,我们可以创建一个配置对象,Dagster UI会根据此定义自动生成相应的输入表单,允许用户在运行时提供参数。

例如,定义一个用于选择水果的配置:

from dagster import Config

class fruit_config(Config):
    fruit_select: str

这个fruit_config可以作为参数传递给需要用户输入水果名称的资产。

常见的错误模式:不正确的数据传递

在原始的问题描述中,开发者尝试通过以下方式在下游资产中获取上游资产的数据:

TeemIp - IPAM and DDI solution
TeemIp - IPAM and DDI solution

TeemIp是一个免费、开源、基于WEB的IP地址管理(IPAM)工具,提供全面的IP管理功能。它允许您管理IPv4、IPv6和DNS空间:跟踪用户请求,发现和分配IP,管理您的IP计划、子网空间、区域和DNS记录,符合最佳的DDI实践。同时,TeemIp的配置管理数据库(CMDB)允许您管理您的IT库存并将您的配置项(CIs)与它们使用的IP关联起来。项目源代码位于https://github.com/TeemIP

下载
# 错误示例:不正确的上游资产数据获取方式
@asset(deps=[generate_dataset]) 
def filter_data(config: fruit_config):
    df = generate_dataset() # ❌ 错误!直接调用上游资产函数无法获取其输出
    df2 = df[df['fruit'] == config.fruit_select]
    return df2

@asset(deps=[filter_data]) 
def filter_again():
    df2 = filter_data() # ❌ 错误!同样无法获取上游资产输出
    df3 = df2[df2['units'] > 5]
    return df3

这种模式的问题在于:

  1. 直接调用函数并非数据流: 在Dagster中,直接在下游资产函数内部调用上游资产函数(如df = generate_dataset())并不能获取到上游资产的已物化结果。它实际上是再次执行了generate_dataset函数的逻辑,这不仅效率低下,而且在Dagster的执行模型中,无法正确建立数据依赖并传递结果。
  2. deps参数的局限性: @asset装饰器中的deps参数主要用于声明依赖关系,确保执行顺序,但它本身不负责将上游资产的输出数据注入到下游资产中。

当filter_data资产尝试访问一个未正确注入的配置(因为generate_dataset()的调用方式不正确,导致数据流中断,进而影响了配置的解析),就会导致类似dagster._core.errors.DagsterInvalidConfigError: Error in config for op Error 1: Missing required config entry "config" at the root.的错误。这个错误信息通常意味着Dagster在尝试执行资产时,未能找到或正确解析其所需的配置。

解决方案:显式参数注入与类型提示

Dagster推荐通过函数参数注入的方式来获取上游资产的输出。当一个下游资产需要使用上游资产的输出时,只需将上游资产的名称作为参数,并附带正确的类型提示,声明在下游资产的函数签名中。Dagster运行时会自动将上游资产的物化结果注入到这些参数中。

同时,为资产函数的返回值添加类型提示,不仅能提高代码的可读性,还能帮助Dagster在运行时进行类型检查和验证。

以下是修正后的代码示例:

import pandas as pd
import random
from datetime import datetime, timedelta
from dagster import asset, Config, materialize # 移除了 MaterializeResult, MetadataValue,因为在本例中未使用

# 1. 数据生成资产
@asset 
def generate_dataset() -> pd.DataFrame: # 添加返回值类型提示
    """
    生成一个包含水果、单位和日期的随机数据集。
    """
    def random_dates(start_date, end_date, n=10):
        date_range = end_date - start_date
        random_dates = [start_date + timedelta(days=random.randint(0, date_range.days)) for _ in range(n)]
        return random_dates

    random.seed(42)
    num_rows = 100
    fruits = ['Apple', 'Banana', 'Orange', 'Grapes', 'Kiwi']
    fruit_column = [random.choice(fruits) for _ in range(num_rows)]
    units_column = [random.randint(1, 10) for _ in range(num_rows)]
    start_date = datetime(2022, 1, 1)
    end_date = datetime(2022, 12, 31)
    date_column = random_dates(start_date, end_date, num_rows)

    df = pd.DataFrame({
        'fruit': fruit_column,
        'units': units_column,
        'date': date_column
    })
    print("生成的数据集:\n", df.head())
    return df

# 2. 用户配置类
class fruit_config(Config):
    """
    定义用户选择水果的配置。
    """
    fruit_select: str 

# 3. 数据筛选资产:接收上游资产输出和用户配置
@asset 
def filter_data(generate_dataset: pd.DataFrame, config: fruit_config) -> pd.DataFrame: # 关键改变:
    # 1. 移除了 deps=[generate_dataset],因为数据依赖通过参数显式声明。
    # 2. 将 generate_dataset: pd.DataFrame 作为参数,Dagster会将 generate_dataset 资产的输出注入到此参数。
    # 3. config: fruit_config 接收用户配置。
    """
    根据用户配置筛选水果数据。
    """
    filtered_df = generate_dataset[generate_dataset['fruit'] == config.fruit_select]
    print(f"根据 '{config.fruit_select}' 筛选后的数据:\n", filtered_df.head())
    return filtered_df

# 4. 再次筛选资产:接收上游资产输出
@asset
def filter_again(filter_data: pd.DataFrame) -> pd.DataFrame: # 关键改变:
    # 1. 移除了 deps=[filter_data]。
    # 2. 将 filter_data: pd.DataFrame 作为参数,Dagster会将 filter_data 资产的输出注入到此参数。
    """
    对筛选后的数据进行二次筛选,保留单位大于5的记录。
    """
    final_df = filter_data[filter_data['units'] > 5]
    print("再次筛选(单位 > 5)后的数据:\n", final_df.head())
    return final_df

# 为了在本地测试,可以调用 materialize 函数
if __name__ == "__main__":
    # 示例运行,需要提供配置
    # 注意:在Dagster UI中运行时,UI会自动提示配置输入
    result = materialize(
        assets=[generate_dataset, filter_data, filter_again],
        run_config={
            "ops": { # 注意这里是 "ops" 即使在资产上下文,因为配置是针对底层操作
                "filter_data": {
                    "config": {
                        "fruit_select": "Banana"
                    }
                }
            }
        }
    )
    assert result.success
    print("\nDagster 管道执行成功!")

代码变更解析:

  1. generate_dataset资产:
    • 添加了返回值类型提示 -> pd.DataFrame,明确该资产的输出是一个Pandas DataFrame。
  2. filter_data资产:
    • 移除了@asset装饰器中的deps=[generate_dataset]。当上游资产的输出作为参数传入时,Dagster会自动推断出数据依赖关系。
    • 函数签名改为 filter_data(generate_dataset: pd.DataFrame, config: fruit_config)。
      • generate_dataset: pd.DataFrame:这告诉Dagster,filter_data资产需要generate_dataset资产的输出,并且该输出预期是一个pd.DataFrame。Dagster运行时会将generate_dataset物化后的DataFrame注入到这个参数中。
      • config: fruit_config:这告诉Dagster,filter_data资产需要一个fruit_config类型的配置对象。当在Dagster UI中运行此管道时,UI会提示用户输入fruit_select的值。
    • 内部不再调用generate_dataset(),而是直接使用注入的generate_dataset参数。
  3. filter_again资产:
    • 同样移除了@asset装饰器中的deps=[filter_data]。
    • 函数签名改为 filter_again(filter_data: pd.DataFrame)。filter_data参数将接收上游filter_data资产的输出。
    • 内部不再调用filter_data(),而是直接使用注入的filter_data参数。

关键注意事项与最佳实践

  1. 数据流通过参数传递: 始终通过将上游资产名称作为参数(带类型提示)传入下游资产函数的方式,来建立数据依赖和传递数据。这是Dagster推荐的模式,清晰、高效且易于测试。
  2. 类型提示的重要性: 为资产函数的参数和返回值添加类型提示是最佳实践。它不仅增强了代码的可读性,更重要的是,Dagster可以利用这些类型提示进行运行时验证,帮助你在早期发现潜在的类型不匹配问题。
  3. Config的注入: 用户自定义的Config对象也通过函数参数的形式注入到资产中。Dagster UI会根据Config的定义自动生成配置输入界面。
  4. deps参数的用途: @asset装饰器中的deps参数主要用于声明非数据依赖,或当上游资产的输出不直接作为下游资产的函数参数时,用于确保执行顺序。当数据通过函数参数传递时,deps对于该特定数据流依赖而言是冗余的。
  5. 避免重复计算: 通过参数注入,Dagster确保上游资产只执行一次,其结果被缓存并在所有下游消费者之间共享,从而避免了重复计算。

总结

正确理解Dagster的资产间数据传递机制是构建高效、可维护数据管道的关键。通过显式地将上游资产的输出作为参数注入到下游资产中,并结合强类型Config进行用户参数管理,我们可以避免常见的配置和数据流错误,使Dagster管道更加健壮和灵活。遵循这些最佳实践,将有助于您充分利用Dagster的强大功能,构建高质量的数据应用。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

719

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

627

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

744

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1236

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

700

2023.08.11

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

74

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 2.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号