02.25 IBM BigInsights大数据迁移

依据本平台的IBM BigInsights产品特性及项目建设的要求,整体架构图如下所示:


IBM BigInsights大数据迁移


数据采集

提供多种采集手段,通过Federation做数据联邦,进行小批量数据的处理;针对日志收集采用Flume进行处理;大批量数据采用Sqoop进行处理;也可采用支持DataStage、JDBC等其他形式进行收集。

数据存储与处理

针对Biginsights产品特性,GPFS、Adaptive MapReduce是IBM针对相关技术特性做了优化,本项目建议采用的技术:分布式文件系统GPFS、分布式计算Adaptive MapReduce、列式存储HBase、数据仓库HIVE、流计算Storm、内存计算Spark+shark、文本分析Text Analytics、数据挖掘R、Mahou、数据流处理PIG、分布式协作服务Zookeeper、工作流引擎Ooize。

数据可视化分析

BigSheets、SAP BO、IBM Cognos、开源Echarts等进行按需展示与分析。

平台保障

依据平台建设要求,通过元数据管理、调度管理、集群管理、统一监控管理等方面手段对系统数据做安全保障。

1.数据库结构

依据数据库数据获取、存储,并支持ETL工具的相关要求,数据库结构设计如下所示:


IBM BigInsights大数据迁移


数据库结构依据BigInsights Big SQL的产品特性对数据做获取、存储。BIgSQL 是 BigInsights 的 SQL 接口,能帮助我们查询数据,为 Hive、HBase 或BigInsights 分布式文件GPFS存储数据;针对处理过的数据也可导入至BigSQL的DB2引擎库中为数据展示平台提供支持;BigSQL的DB2引擎库也可做为ETL工具存储数据的目标源,支持数据中心ETL抽取工具。

2. 数据迁移工具

数据迁移工具采用Federation、Sqoop、Flume、DataStage、JDBC等多种方式。

Federation:支持多数据源,数据类型匹配度高、轻量级数据迁移利器

WebSphere Federation Server 支持业界新兴的 Enterprise Information Integration (EII) 概念。这种技术使应用程序能够访问和集成不同的数据和内容源,无论这些信息位于何处,它们看上去就像是一个资源,但同时又能保持源系统的自治和完整性。

联邦的底层原理是,对于用户而言,他们使用的所有数据看上去是在一个数据源中。通过呈现这个单独的源镜像,联邦技术使数据请求者不必直面与访问不同位置的数据相关的所有复杂性,包括连接、语义、格式和访问方法。中间件使用户或代表用户的应用程序可以透明地访问信息,而不必关心其物理实现。 因此,WebSphere Federation Server 非常适合作为常见分析和报告工具、开发环境门户和其它标准 IT 基础设施组件的幕后工具。

通过 WebSphere Federation Server,可以在一条 SQL 语句中将分布式请求发送到多个数据源。例如,可以在一条 SQL 语句中连接一个 DB2 表、一个 Oracle 表和一个 XML 标记文件中的数据。当应用程序向联邦系统提交一个查询时,联邦服务器识别相关数据源,并生成一个用于获得被请求数据的查询执行计划。查询执行计划通常将原始查询拆分成多个片段,这些片段表示委派到各个数据源的作业,同时还提供联邦服务器要执行的其它处理,包括进一步的过滤、聚合或合并数据。即使某些被请求的信息来自具有很少或不具有查询处理能力的数据源,例如简单的文本文件,联邦服务器将进一步处理从数据源收到的数据,这种能力使应用程序可以充分利用查询语言的威力。除了管理联邦以外,联邦服务器还是一个功能完整的关系数据库,具有存储和管理本地数据的能力。

总而言之,WebSphere Federation Server 的功能包括:

Ø 整合来自本地表和远程数据源的数据,就好像这些数据是本地存储在联邦数据库中。

Ø 更新关系数据源中的数据,就好像数据存储在联邦数据库中一样。

Ø 将分布式请求发送到数据源进行处理,利用数据源的处理能力和特有的优化能力。

Ø 在联邦服务器上处理一部分分布式请求,弥补 SQL 在数据源上的限制。

实现 EII 的联邦方法已经可以与更传统的数据整合方法相媲美。整合的数据存储通常用于提取、转换、装载(ETL)或复制数据,是当今信息集成的标准选择,已经成为高可用性的能够快速获取、集成访问相关信息的最佳方法。通过创建单个物理拷贝,企业可以满足性能或可用性需求,交付时间点一致的快照,并为语义一致性提供完善的转换。

Sqoop:操作简单、适合大数据量、增量级更新的数据迁移利器

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Flume:日志数据迁移利器

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

3.数据存储

Biginsights大数据平台的数据存储结构通常分为三种不同类型的表存储,它们分别是普通表,Hadoop表,HBase表。

普通表是指对应DB2数据库的表,普通表主要用于存储临时数据,一般在上面创建一些临时表。

Hadoop表主要是指Hive上的表,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的Sql查询功能,可以将Sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

HBase是一个分布式的、面向列的数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

4. 数据展现

数据展现通常情况采用普通数据+报表工具展现,通过大数据平台将数据处理后再导入到普通的数据库(例如:Oracle、MySQL、Sql Server等)中,可以灵活选择报表工具(例如: Cogons、BO等)、Bigsheets、ECharts个性化开发等方式展现。

Cognos是在BI核心平台之上,以服务为导向进行架构,是唯一可以通过单一产品和在单一可靠架构上提供完整业务智能功能的解决方案。它可以提供无缝密合的报表、分析、记分卡、仪表盘等解决方案,通过提供所有的系统和资料资源,以简化公司各员工处理资讯的方法。作为一个全面、灵活的产品,Cognos业务智能解决方案可以容易地整合到现有的多系统和数据源架构中。能有效地将各种相关的信息关联起来,使用户在分析汇总数据的同时能够深入到自己感兴趣的细节数据中,以便更全面地了解情况,做出正确决策。

SAP BusinessObjects是SAP公司旗下的商务智能产品,包含SAP BusinessObjects Enterprises和Crystal Reports、Webintelligence、Crystal Dashboard Design、SAP BusinessObjects Edge 解决方案等。

SAP BO报表支持多种报表样式,普通行列报表、主/子报表,交叉表,图形摘要;

报表20多种图形:条形图,饼图,曲线图,甘特图,雷达图,气泡图,股票图,漏斗图等;

提供常用的报表模板:所有报表呈现连续性,不用每次重新设计。

SAP BO广泛的数据源连接,提供超过35个数据源驱动用于访问任何相关数据源支持在一份报表中整合多个数据源。

SAP BO报表可视化设计环境,通过拖放元素组成报表:标题,数据库字段等排序专家,分组专家,汇总专家,图标专家等向导;强大的公式语言:160多个功能函数,自定义函数。

SAP BO报表多样的文件导出格式Word、Excel、HTML、XML、PDF、RTF、CSV、TXT。

BigSheets 是 InfoSphere BigInsights 的一部分,它基于Web的电子表格式界面使得用户能够轻松地分析大量数据。BigSheets 主要提供了以下功能特性:对非结构化、半结构化数据的分析处理能力。以表格的形式展示数据结果,并提供图形化展示例如饼图、柱状图等,分析结果一目了然。提供了过滤、连接、分组查询、加载、复制等多种公式以及条件、选择、数学计算、文本操作等丰富的函数库,能满足大部分场景中的数据分析需求。支持多种文件格式分析包括 CSV,TSV,JSON,网络爬虫数据、自定义字符分割文件等。基于 Apache Hadoop,因此比传统的商业分析工具拥有更快速、强大的海量数据处理能力。支持分析结果以多种格式导出。BigSheets 提供了扩展性:用户可以自定义阅读器、宏、图形化工具甚至自定义 MapReduce 程序来导入数据。

ECharts缩写来自Enterprise Charts,商业级数据图表,一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9/10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库ZRender,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。支持折线图(区域图)、柱状图(条状图)、散点图(气泡图)、K线图、饼图(环形图)、雷达图(填充雷达图)、和弦图、力导向布局图、地图、仪表盘、漏斗图、事件河流图等12类图表,同时提供标题,详情气泡、图例、值域、数据区域、时间轴、工具箱等7个可交互组件,支持多图表、组件的联动和混搭展现。


分享到:


相關文章: