数据清洗介绍
功能概述
数据清洗为数据工程师以及数据开发相关人员提供了高效、专业、智能的数据开发平台。通过提供脚本开发、可视化开发、任务编排、任务发布以及任务运维等能力,帮助组织和企业高效构建实时数据湖仓。
功能说明
建模
- 可视化模式(推荐):您可以在数据源->输出源->清洗数仓->etl层->新建表,通过图形化界面新建清洗模型表。
- DDL模式:您可以在数据源->输出源->清洗数仓->etl层->查询,使用SQL语句新建表。
层级概念
- 所有源库数据都同步到数仓
input
输入层,清洗表全部都创建在数仓etl
清洗层。 - 任务层级由其所有输入表对应的清洗任务的最大层级决定。
- 如果输入表都是
input
层表,则当前任务为第1层。 - 如果输入表中包含第 n 层清洗任务的输出表,则当前任务的层级为 n+1。
- 任务层级确保数据清洗的依赖关系清晰,层级清洗、流式触发,避免循环依赖。
脚本说明
1、为了减少重复代码,平台支持SQL中引用全局变量${var}
方式来代替重复代码。
2. 关于支持的SQL函数列表,请参考文档:👉 爻擎SQL
3. 关于SQL清洗规范,请参见:👉 清洗规范
4. 关于SQL编辑器快捷键,请参见:👉 快捷键
任务说明
- 平台根据用户sql进行实时数据清洗流转,为了保证实时状态不会无限膨胀,需要用户指定表的时间字段做
where
条件限制做实时计算:- 天作业 - 限制计算近2天数据,支持每小时补偿一次历史数据
- 小时作业 - 限制计算近3小时数据,支持每5分钟补偿一次历史数据
- 分钟作业- 限制计算近2分钟数据,支持每5分钟补偿一次历史数据
- 任务启动默认从上一次停止或异常的点位进行后续增量计算,首次启动则根据
where
条件进行数据读取计算。 - 平台会分别提供小任务和大任务适配的两种运行环境,自动根据用户任务状态进行智能切换。