1 背景
目的
本文档是XXXDataBank V1.0版本的需要概要文档,用于描述为什么需要进行XXXDataBank的开发,DataBank在XXX产品体系中的价值和意义。本说明书为内部文档,请勿将此文件修改、传播或进行其他使本文档公开的行为。
参考材料
其它相关资料、文件
术语、缩略语
2 什么是XXXDatabank?
图1:XXXDataBank框架总览图
从这个框架总览图中我们可以看出来XXXDataBank是一个集数据采集+数据仓库+数据可视化+数据分析于一体的综合数据解决方案。解决方案主要包括以下内容:
数据源:我们的数据源主要有设备、客户端、外部导入以及第三方数据,这些数据包括媒体数据(影像、图片等)、文件数据(标注文件、日志文件等)、数据库文件。
统一数据规范:定义元数据的数据规范(如:定义影像数据的数据标准,采用何种格式进行上传)及特殊数据的数据定义(定义影像分析时长:从影像上传成功到收到AI结果)。
数据采集:主要通过以下三种方式来进行数据采集:(1)数据埋点:在网页、小程序、App和后台代码中通过定义对应的事件精确上报指定定义的数据。(2)流处理:处理系统传输(如接口请求)流数据。(3)批处理:老数据迁移和外部数据导入使用此种方式。
ETL过程:数据从采集到进入数据仓库的过程,由于数据量巨大,且数据种类多,需要专门的中台ETL来处理数据入库。
数据仓库:数据库+文件系统,用于存储数据并向外提供统一数据规范的数据供进行数据分析和业务系统使用。
数据抽取:支持业务及数据应用服务通过约定的规则和规范对数据进行清洗后做数据提取,并能够自由组合数据抽取规则(比如算法组希望从数据仓库中抽取100份年龄介于45-60之间的男性影像数据作为测试集来进行影像分析)和清洗规则(比如算法)。
数据应用:为业务系统、产品、市场销售和管理层提供包括数据分析数据报表在内的数据应用。
这个解决方案可大幅增强公司的数据整合分析能力,为公司产品规划和迭代提供数据支撑,在大幅提升数据安全性同时让算法组今后开展更多维度的算法分析提供成为可能。
3 为什么要开发XXXDatabank
XXX数据现状
随着公司的持续发展,目前公司已经积累了大量的数据,数据涵盖了医疗影像数据、医疗影像标注数据、用户信息数据、业务信息数据等,且还有许许多多未能被记录的数据。这些数据具有以下特征:
数据量大:
数据结构化程度低:除MIAS和EyesTime数据库中的数据外大部分数据都是非结构化的,比如AI分析,AI诊断等,大量非结构化数据导致目前数据分析难度大效率低。
高阶数据少:如算法的执行时间,用户使用时长、频次、检查全流程时间等系统高阶都是缺失的,无法为系统性能提升和后续产品优化提供有效的数据支撑。
数据关联度差:由于早期公司资源受限,只能将有限的资源用于尽快研发出产品和算法,导致公司各个系统之间的数据缺乏关联。大部分的影像数据和用户数据无法关联,来自外部的资源信息无法有效关联至目前系统中(比如微信数据和EyesTime数据关联度低)
数据分析难度大:由于以上种种原因导致了我们的数据分析难度大,只能做相对独立和简单的数据分析,难以实现多维度多关联的数据分析。
建立一个规范、高效、互联的综合数据平台将能大大改善目前的现状。
XXX数据使用现状
场景1:算法组使用MIAS中的影响数据作为测试集
需要用硬盘去MIAS数据服务器上进行手动拷贝
场景2:算法组有一个新课题是针对45-60岁人群中高血压人群的影像进行分析
需要花较多的时间去进行数据提取
场景3:公司希望对2018年的筛查数据做多维度多关联的分析,形成《2018XXX筛查白皮书》
难以实现
从以上3个典型数据应用场景可以看出目前公司数据使用存在数据使用层次低、数据使用流程不安全、数据使用方式不便捷等问题。
XXXDataBank将能有效提升目前的数据使用便捷性、安全性并让高阶数据分析成为可能。
XXX大数据
根据公司未来发展规划,远期将启动大数据项目,而大数据是需要由一个个精准、规范、完整的小数据组成,这关系到我们实际业务场景的分析和数据指标体系的搭建,此外还要能进行多样的比较分析。
及早建立综合数据平台能为将来公司进行大数据开发提供完备的数据支撑。基于XXXDataBANK的数据应用
4 XXXDatabank数据应用流程
数据标注系统数据流程
算法数据集提取流程
智能报表生成流程
1