跳转到内容

数据清洗介绍

功能概述

数据清洗为数据工程师以及数据开发相关人员提供了高效、专业、智能的数据开发平台。通过提供脚本开发、可视化开发、任务编排、任务发布以及任务运维等能力,帮助组织和企业高效构建实时数据湖仓。

功能说明

建模

  • 可视化模式(推荐):您可以在数据源->输出源->清洗数仓->etl层->新建表,通过图形化界面新建清洗模型表。
  • DDL模式:您可以在数据源->输出源->清洗数仓->etl层->查询,使用SQL语句新建表。

层级概念

  • 所有源库数据都同步到数仓input输入层,清洗表全部都创建在数仓etl清洗层。
  • 任务层级由其所有输入表对应的清洗任务的最大层级决定。
  • 如果输入表都是input层表,则当前任务为第1层。
  • 如果输入表中包含第 n 层清洗任务的输出表,则当前任务的层级为 n+1
  • 任务层级确保数据清洗的依赖关系清晰,层级清洗、流式触发,避免循环依赖。

脚本说明

1、为了减少重复代码,平台支持SQL中引用全局变量${var}方式来代替重复代码。
2. 关于支持的SQL函数列表,请参考文档:👉 爻擎SQL
3. 关于SQL清洗规范,请参见:👉 清洗规范
4. 关于SQL编辑器快捷键,请参见:👉 快捷键

任务说明

  • 平台根据用户sql进行实时数据清洗流转,为了保证实时状态不会无限膨胀,需要用户指定表的时间字段做where条件限制做实时计算:
    • 天作业 - 限制计算近2天数据,支持每小时补偿一次历史数据
    • 小时作业 - 限制计算近3小时数据,支持每5分钟补偿一次历史数据
    • 分钟作业- 限制计算近2分钟数据,支持每5分钟补偿一次历史数据
  • 任务启动默认从上一次停止或异常的点位进行后续增量计算,首次启动则根据where条件进行数据读取计算。
  • 平台会分别提供小任务和大任务适配的两种运行环境,自动根据用户任务状态进行智能切换。

爻擎 AI 大数据