为什么许多数据挖掘项目都死掉了?

为什么许多数据挖掘项目都死掉了?

大数据时代,数据挖掘变得越加重要。虽然越来越多的公司开始做着尝试通过数据挖掘来推动运营和决策,但是成功的项目却不多见。结合自身数据挖掘经历,我觉得可能有以下原因。

获取准确的数据不是一件容易的事

目前在电力行业做数据挖掘,目前做变压器故障预测,就是希望通过运行 数据和历史数据,天气数据来判断未来一段时间出故障的可能性有多大,方便技术人员有针对性的监控和检修,但是电网数据实在是太庞大杂乱了,而且,说实在的数据库也很乱,设计的不是很合理,可能有历史遗留问题,而且人员变动大,许多现在的业务骨干都看不懂数据库中的表结构,对于数据挖掘人员来讲,简直就是业务理解和数据准备的噩耗了。

因为业务的理解很困难,数据完全被业务扭曲,如果要预测准确,不仅自身设备运行的因素要考虑进去,还要考虑天气影响、地域负载等等,你训练时看到的是一个简单的结果数据,但诱导因素异常复杂,这类因素相关的数据尤其是天气数据根本取不到或者难以量化。

与互联网大一统的数据相比,其搞的风控模型显然要简单的多了,因为数据的获取难度和稳定度不在一个量级上。

数据挖掘,难就难在要为预测的业务提供跟这个业务相关的数据环境,因此,有时离网模型做不好,并不是模型师的错,也不是算法的问题,而是业务惹的祸,是数据问题。

阿里的蚂蚁金服,所以能算法取胜,一个原因是它天生具有线上的资金往来数据,如果让它去分析传统银行的线下数据,估计难度也很大。

头条的新闻推荐,之所以通过算法取胜,也是因为他有线上的数据,能够获取大量的人们看新闻的数据。

数据挖掘师特别强调要理解业务,就是希望你基于业务的理解能找到所需的解释数据,外来的和尚所以做不好,也是这个因素,因为打一枪换一个地方的方式,跟扎根理解业务的建模文化背道而驰。

数据准备,不确定性总是存在,因此一定程度上讲,这个世界是不可预测的,预测的能力,跟我们采集数据的能力成一定的正相关关系。

大数据的意义,就在于可以采集到更多的数据,这个决定了我们用机器解释世界的可能程度。

数据缺失总是难免的

为什么数据挖掘的数据准备工作要这么长时间,有时候一个项目的调研就需要一个多月的时间,可以理解成获取数据时间很长、转换成所需的数据形式和格式时间很长,毕竟只有这样做,才能喂给数据挖掘引擎处理。

但数据准备的真正目的,其实是要从特定业务的角度去获取一个真实的数据世界,数据的获取比处理重要。

电力行业的数据挖掘项目很多,但是这么多年做下来,很难说有几个成功的,

数据难获取是一方面,再就是数据缺失很严重,电网数据受大环境的影响很大,许多因素都难以在控制之内,所以有的数据缺失很严重。

数据失真现象严重

你好不容易获取数据,一看还是很全面的,规整的数据,这个时候你是该庆幸还是该叹息?

遇到这样的情况,很可以你拿到的是别预设好的数据,而不是真实数据。

就以电力行业的偷电漏电分析来说,真正偷电的你觉得会是什么人呢,会是普通的市民吗?

可想而知,你可能拿不到有关这方面的数据,即使拿到了,你觉得会是真实数据吗?

很多时候,你拿到的数据可能都是假数据,虽然你不是故意的,你还很认真,但因为受限于业务能力和一些其他因素,决定了你只能拿到假数据,结果可想而知。

这是数据挖掘的第一步,也是最难的一步,如果你拿到的是假数据,那么接下来你的所有努力都是白忙活!

大数据时代,业务结合数据,才能真正彰显作用!

缺乏后期再实际中运用的优化

很多传统企业,数据挖掘效果不好,跟企业的组织、机制、流程等相关,举个例子:

曾经在一家金融公司做一个还款意愿预测,就是对消费分期的客户进行还款预判,进而采取不同的催收方式,这样可以提高催款的效率,节省人力,做出来了,让催收人员根据这个预测结果去有针对的使用。但是反馈时间比较长,直到我快离职了,还是没有反馈。

有多少模型由于线下流程的原因而被放弃了,谁都知道,数据挖掘靠的是后期生产过程中不断优化,很难第一次就成功。

传统企业冗长的线下流程,的确成为了模型优化的大杀器,互联网公司天生的在线性让其算法发挥出巨大的价值,而传统企业的建模,往往还在为获得反馈数据而努力,组织、系统和运营上的差距很大

综上:

数据挖掘所以难,是综合多种因素的结果,可能不是靠建立一个平台,懂得一些算法,掌握一个工具就能简单解决的,往往具有更深层次的原因。当然,大数据时代,平台和算法也越来越重要,但是任何时候都不能忘记初衷,离开业务,数据也就失去了意义!


分享到:


相關文章: