数据科学方法论

1.业务理解

每个项目,无论其规模大小,都从业务理解开始,这为成功解决业务问题奠定了基础。需要分析解决方案,并且通过从业务角度定义问题、项目目标和解决方案需求,以在此阶段发挥关键作用。和后面9个阶段相比, 这一阶段至关重要。

2.分析方法

在明确说明业务问题之后,数据科学家可以定义解决方法来解决它。这样做涉及在统计和机器学习技术的背景下表达问题,以便数据科学家可以识别适合于实现期望结果的技术。

3.数据需求

分析方法的选择决定了对数据的需求,因为要使用的分析方法需要特定的数据内容,格式和表示方法,这些都需要在业务领域专家的指导下完成。

数据科学方法论

4.数据收集

数据科学家识别并收集与问题域相关的数据资源结构,非结构化和半结构化。在遇到数据收集方面的差距时,数据科学家可能需要修改数据要求并收集更多数据。

5.数据理解

描述性统计和可视化技术可以帮助数据科学家理解数据内容,评估数据质量并发现对数据的初步见解。重新审视上一步的数据收集可能是弥合理解上的差距所必需的。

6.数据准备

数据准备阶段包括用于构建将在建模阶段使用的数据集的所有活动。包括数据清理,组合来自多个来源的数据以及将数据转换为更有用的变量。此外,特征工程和文本分析可用于导出新的结构化变量,丰富预测变量集并提高模型的准确性。

数据准备阶段是最耗时的。这个过程有可能占到整个项目时间的90%,通常也会是70%。但是,如果数据资源得到良好的管理,良好的集成和清理,从分析 – 而不仅仅是仓存储 – 的角度来看,它可以降低50%。自动化数据准备的一些步骤可能会进一步降低百分比:电信营销团队的成员曾告诉我,团队以这种方式将创建和部署促销所需的平均时间从三个月减少到三周。

7.建模

从准备好的数据集的第一版开始,数据科学家使用训练集 – 历史数据,其中感兴趣的结果是已知的 – 使用已经描述的分析方法开发预测或描述模型。建模过程是高度迭代的。

8.评估

数据科学家评估模型的质量,并检查它是否完全和适当地解决了业务问题。这样做需要使用预测模型的测试集来计算各种诊断测量以及其他输出,例如表格和图形。

数据科学方法论

9.部署

在已经开发出业务发起人批准的令人满意的模型之后,将其部署到生产环境或类似的测试环境中。这种部署通常最初限制为允许评估其性能。将模型部署到运营业务流程通常涉及多个团队,技能和技术。

10.反馈

该方法的流程说明了问题解决过程的迭代性质。模型不应该创建一次,然后部署并保持不变。相反,通过反馈,改进和重新部署,模型应该不断适应条件进行改进。在项目过程中,需要模型及其背后的工作持续为项目提供价值,改进解决方案。

通过从实施的模型中收集结果,组织可以获得有关模型性能的反馈,并观察它如何影响其部署环境。分析此反馈使数据科学家能够改进模型,提高其准确性,从而提高其实用性。

如果作为整个过程的一部分进行,这个经常被忽视的阶段可以产生大量额外的好处。

数据科学方法论


分享到:


相關文章: