StreamSets试用之一

一、StreamSets是什么

StreamSets是一个侧重数据集成、数据加工流程构建的平台,也是一个开源的产品。通过StreamSets,用户可以方便的接入不同的数据源,并且完成数据加工流程的构建。项目地址:https://github.com/streamsets,采用Apache License 2.0协议。

StreamSets Data Collector(简称SDC)大数据开源ETL工具,具有简单易用的UI界面和监控界面,提供REST API,支持扩展的连接器。StreamSets Data Collector Edge (简称SDC Edge)主要用于IoT物联网。

二、StreamSets的基本概念

SDC采用pipeline方式来处理数据流,其中有如下几个概念:

1.origin:用来从外部来源获取数据。一个pipeline中只有一个origin处理器。目前已经支持:文件、RDBMS(Oracle、MySQL、SQL Server、PostgreSQL)、S3、kafka、Azure、Google 、HTTP Client等

2.processor:用来对数据做转换。将抽取来的数据进行过滤,清洗。

3.destination:用来将数据保存到外部系统或文件。支持的处理器和origin一样。

4.executor:用来处理由其他处Processor生成的事件。一些Streamsets Processor在处理过程中可能会产生错误、异常等事件。 在StreamSet使用称为Executors的特殊Processor来处理。 例如,Email Executor,可以在发生错误时发送电子邮件。

三、试用地址

注册后,可免费使用https://www.streamsets.cloud/


StreamSets试用之一


分享到:


相關文章: