数据作业自动化调度 AirFlow 搭建

背景概述

前文提及了数据的应用,在很多时候,数据是以最原始的形态存储在数据库,日常使用的标签类数据等,往往需要通过数据分析师的手动清洗。业务不会停止,所以手动更新数据不断重复,每天都需要手动处理,难免浪费时间。此时可以考虑使用Airflow进行调度任务的自动化部署,以提高效率。

1工具说明

Airflow是Aribnb内部发起的一个工作流管理平台,使用Python编程实现任务管理,调度,监控的工作流平台。

关于Airflow的基本概念有:

Dag:用于描述任务数据流;

Task:Dag中的一个任务节点;

Operators:描述Dag中,节点Task要执行的具体任务;

Airflow可用UI界面进行管理,也可用CMD命令管理。

2环境说明

系统环境:Linux (必须linux)

编程语言:Python 3.6 以下

3环境搭建

注:以上命令均在命令行中执行

Airflow安装:使用 pip install airflow 即可

修改Airflow路径:export AIRFLOW_HOME=/root/airflow

初始化Airflow:airflow initdb(初始化后在/root/airflow路径下看是否存在Airflow文件夹,如存在则表示成功)

4启动服务

注:以上命令均在命令行中执行

启动服务:airflow scheduler

启动webUI:airflow webserver(可通过访问http://localhost:8080/admin/进入UI管理页面)

6

图形化UI界面

数据作业自动化调度 AirFlow 搭建

Dag任务


数据作业自动化调度 AirFlow 搭建

任务流信息

数据作业自动化调度 AirFlow 搭建


分享到:


相關文章: