面向用户消费行为理解的数据挖掘方法

八斗問答

2018-11-09 19:30:50

海量线上用户消费行为数据为研究者探索理解用户消费习惯，制定数据驱动的商务智能策略带来了全新的机遇及挑战。本文提出融合用户消费行为的多学科交叉研究成果，利用数据挖掘方法，从用户兴趣建模、社交情境下用户消费行为理解及社交服务平台的动态演化建模三个方面展开在线用户消费行为理解研究，并分别在真实数据集上验证了提出模型的有效性。

通过从大量数据中挖掘隐藏的有价值信息，数据挖掘成为理解用户消费行为模式的一种行之有效的方法。用户画像技术全方位立体地展现了在线消费者特征，推荐系统通过用户兴趣建模技术为用户推荐未来可能感兴趣的产品。由于在线用户消费行为的独特性，已有的数据挖掘算法不足以支撑全方面多维度的在线用户的消费行为理解。具体来说，当前研究工作面临的主要挑战包括以下三个方面：

① 在线用户消费行为数据源的稀疏动态及多元异构性。

② 在线用户消费决策过程的复杂性。

③ 在线用户消费行为理解的交叉学科性。

针对上述挑战，本文提出设计新型的数据挖掘模型理解用户消费行为。具体来说，我们以不同类型的产品为实例，结合用户-产品的交互消费数据、用户- 用户之间的社交数据，以及诸如用户属性、用户生成的标签数据等辅助数据，利用用户兴趣建模理论、社交情境下的信息传播模型以及交叉学科领域知识作为理论基础，在此基础上，分别设计出面向精准度和多样性的用户消费兴趣理解及推荐算法、社交情境下的用户消费行为理解，以及社交情境下的用户消费及社交共同演化理解模型。

本文的研究内容框架如图1 所示。在接下来内容中，我们将对上述三项工作逐一进行概述。

图1.研究内容框架体系

1 基于用户兴趣建模的消费行为理解与推荐算法

用户兴趣是用户消费行为的核心因素。用户兴趣建模是推荐系统的核心问题，其旨在通过分析用户历史消费行为，设计模型挖掘用户潜在消费兴趣，并基于此设计产品推荐算法，增进用户的满意度以及商家收益。根据用户兴趣建模评价方法的不同，本章将分别介绍面向精确度和面向多样性两类用户兴趣建模方法。

1.1 面向精确度的用户兴趣建模方法

在用户兴趣建模方法中，协同过滤技术（Collaborative Filtering，CF）由于具有适用情景广、算法简单明确、推荐效果较好等优点，近年来受到学术界和工业界的广泛关注。协同过滤技术通过收集用户消费产品的历史数据，如浏览记录、购买记录，以及对商品的评分记录等，利用群体智慧分析用户兴趣，寻找与指定用户具有相似消费兴趣的用户，综合相似用户的历史数据主动向用户进行产品推荐。然而，由于协同过滤技术依赖于用户- 产品的消费信息建模，该类算法通常在用户- 产品消费记录较少时无法准确建模。这种情况在推荐系统中非常普遍，被称之为“冷启动”问题。

针对上述背景，提出了基于补充标签信息的用户兴趣建模及推荐方法，设计两阶段的邻居感知的矩阵分解算法框架（Neighborhood-aware Probabilistic Matrix Factorization，NHPMF）。该框架图如图2 所示，其中，第一阶段，使用标签信息获得用户和产品的邻居信息；第二阶段，设计统一的模型将邻居信息融合到矩阵分解过程中，保证“相似的用户（产品）在隐空间上具有相似的表示”；即通过将补充的邻居信息引入传统矩阵分解模型的先验中，使得每个用户（产品）的隐向量尽量和邻居保持相似。最后，在两个不同数据集上验证了方法的有效性。实验结果表明，与传统的协同过滤算法相比，提出的NHPMF框架能更精准预测用户的兴趣爱好。

图2 两阶段的邻居感知的矩阵分解算法框架

1.2 面向多样性的用户兴趣建模方法

协同过滤技术通过历史用户- 产品消费记录，衡量用户和产品之间的相（Relevance)，进而为用户推荐top-N 的兴趣列表。因此，这些算法擅于提供精准度高的推荐结果，匹配用户的主要兴趣爱好。例如，1.1 节介绍了如何通过额外信息补充用户- 产品消费矩阵，预测用户对未知产品的偏好，最终选择预测评分最高的产品集合作为推荐列表。然而，当前的协同过滤算法过于关注提高推荐模型的精准度，导致推荐算法产生的推荐列表大多被限制在一个相对狭窄的热门产品集合中，从而用户的一些小众偏好却被算法忽略。因此，传统推荐算法产生的推荐列表可能比较单调（推荐列表的各个产品之间比较相似，缺乏多样性），难以覆盖用户的全部消费兴趣。

部分学者已经意识到具有多样性的推荐列表的重要意义，一些先期研究工作提出各种方法提高推荐结果的多样性，这些工作一般分成如下两个步骤：首先利用传统的协同过滤算法抽取一个较大的候选集合；然后利用多样性指标对候选集合重新排序，获取top-N 的推荐列表。然而，这些方法通常要么引入额外信息获取多样性指标，要么在提高多样性的同时降低了推荐结果的精确度。因此，如何在通用情况下不借助产品的额外信息，生成既准确又包含多样性的推荐结果仍然是一个亟待解决的开放性课题。

基于以上背景提出从一个全新视角理解推荐结果的多样性问题。我们从经典推荐算法中的基于用户邻居的协同过滤算法（User-based Collaborative Filtering，UCF）出发，从算法思想和实验结果分析该算法无法产生多样化推荐结果的原因。UCF 算法首先为每个目标用户选择相关度高的兴趣相似的邻居用户，进一步根据邻居列表中的流行产品为目标用户生成推荐列表。而UCF 算法在邻居集合选择和推荐集合/ 列表生成的两个阶段中，其考虑的相关度指标仅仅从集合中的单个元素出发，并没有从全局最优的观念考虑集合中元素之间的关系。（值得注意的是，该类问题不仅仅出现在UCF 算法中，当前主流的协同过滤算法，如基于产品邻居的推荐算法及矩阵分解算法，均存在此类问题。）为解决上述问题，引入了一个简单的度量指标——覆盖度来衡量集合中所有元素的效用。我们将覆盖度的指标应用于UCF的邻居选择和推荐列表生成阶段中，考虑如何定义兴趣覆盖度概念使得邻居集合覆盖用户兴趣，以及邻居覆盖度概念使得推荐集合覆盖多样化的邻居。然后提出了一个统一的推荐框架REC，使得在邻居集合选择和推荐列表生成过程中不仅考虑传统的相关性（RElevance）指标，而且加入新的覆盖度（Coverage）指标来衡量集合元素的效用。当同时考虑相关性与覆盖度指标时，REC 框架中的邻居选择与推荐列表生成过程的目标函数都是NP 难问题。我们进一步挖掘目标函数性质，提出了一种高效的有理论保证的求解方法。由于REC 在邻居选择阶段，使得每个邻居用户尽可能地覆盖用户的不同兴趣，得到的邻居集合具有多样性；同时在推荐列表生成过程中，鼓励每个产品覆盖多样化的邻居用户，得到的推荐结果自然具有多样性。实验结果表明，我们提出的算法能够在不损失精度的情况下，显著提高推荐结果的多样性。

2 社交情境下的用户消费建模及预测

随着信息技术的发展，社交网络的兴起为社交情境下的用户消费建模提供了新机遇。与基于用户兴趣建模的消费行为理解不同，在社交网络中，用户与用户之间不再相互独立，用户的自身决策行为也会受到社交情境的影响。如何更真实地为现实社会的消费传播过程建模，也是当前学术界的一个研究热点。针对此问题，我们通过社交网络中用户的手机消费行为为例，结合社会学研究成果，探索社交网络下用户的手机消费行为机理，预测用户未来手机消费行为。进一步，针对传统二元数据（是否购买）表示用户对产品偏好的不足，提出时序产品使用率概念衡量用户对产品的喜好变化，并对用户的时序产品使用率进行建模预测。

2.1 社交情境下的手机消费情况建模

权威市场调研机构IDC（InternationalData Corporation）曾调查2013 年底全球范围内的智能手机使用量为18.2 亿，预测在2017 年，在所有智能设备中（包括台式机、笔记本、平板电脑及智能手机），智能手机的市场占有率将达到70.5%。智能手机市场已经成为各大电子厂商争夺的焦点。现在，手机已成为人们社交方式的重要组成部分。然而，如何收集大规模社交网络中用户的手机消费行为数据，理解社交情境下的用户手机消费仍然是一个空白的研究领域。

幸运的是，近年来随着在线社交媒体和智能手机的普及，越来越多的人通过智能手机与在线社交网络上的朋友分享生活记录。由于大部分用户通过智能移动设备接入在线社交媒体，这些移动社交网络记录了用户的智能手机使用足迹。图3 则展示了Weibo 上用户的手机使用实例足迹。当用户在Weibo 上发布信息时，系统会自动将一条扩展后的信息发送给该用户的粉丝。这条扩展的信息包含发布的微博内容、时间戳（2013 年7 月3 日）以及发送该条微博的设备信息（iPhone）。其中，扩展信息中的设备信息为追踪大规模社交网络下用户的手机使用行为提供了数据源。通过跟踪大规模用户时间的微博信息流，即可自动获取用户及其所在社交网络的手机消费情况。

图3 Weibo 上用户手机使用实例

然而，即使能够获取社交网络中用户的手机使用情况，理解用户在社交情境下的手机使用还存在以下技术挑战。一方面，用户的消费决策过程受到多种因素影响，如何融合这些因素更好地进行消费行为建模是一个亟待解决的问题。心理学、社会学及用户行为学等多学科交叉研究结果已确认了三种主要因素对用户决策行为的影响，即个人因素、社交影响力及同质性。其中，个人因素指代用户受到自身特性或者兴趣驱动，独立地做出消费决定。然而，现实中人类处于社交环境中，其消费决定行为与所处的社交环境存在千丝万缕的联系。社交影响力及同质性就是社交情境下用户行为的指导准则。其中，社交影响力指代用户受到周围社交网络中邻居行为的影响做出决策行为；而同质性描述了社交网络中“人以类聚”的现象，即有着相似兴趣爱好的人相互联系，不约而同地做出相似决定。另一方面，不同的因素会导致完全不同的消费行为结构演化，从而影响生产产商的营销策略制定。准确地区分和理解各因素在消费行为中的作用，对指导商家的营销策略有着重要意义。

综上所述，本研究工作的挑战在于：如何设计统一模型融合各复杂因素对用户手机消费行为的影响，同时区分各不同因素对消费行为的作用，为商家营销提供数据驱动的定量指导。针对以上挑战，我们提出一种有监督的机器学习方法建模用户的智能手机消费行为理解与预测。在前期准备中，通过跟踪在线移动社交网络用户的行为，收集了网络用户的手机使用情况。借鉴消费行为学和营销学理论，根据用户当前智能手机使用状态将用户分为潜在智能手机首次消费者以及潜在手机品牌更换者两组。我们设计了SHIP（Supervised Homophily-Influence-Personality）模型建模手机消费行为。该模型融合个人因素、社交影响力和同质性三个重要因素对用户消费行为进行建模并且可以自动学习各因素对消费行为的贡献。值得一提的是，提出的SHIP 模型具有普适性，也可以用于其他产品消费行为建模。我们在具有20 万个节点的社交网络中进行算法评估，实验效果表明了所提方法能有效预测用户手机消费行为。实验中得到的一个有趣结论是，用户首次购买手机的品牌容易受到身边朋友的影响，而用户更换手机品牌主要由品牌忠诚度确定。

2.2 社交情境下的产品使用率建模

在2.1 节的研究中，我们将用户的手机消费行为分为已经消费产品的用户（标签为1）和暂未消费该产品的用户（标签为0）两类，然后对未消费产品的用户进行后续消费行为预测，寻找下个时间段潜在的消费者。然而在真实世界的消费行为中，除去很多一次性消费的产品（例如书籍、电影），用户通常对某类耐用品产品存在着多种备择选择，用户受到自身和外部因素的影响交替选择具有特定功能的不同产品。例如在手机市场中，用户可能交替使用苹果品牌与三星品牌的手机。相比较于是否购买产品的评估表中，厂商更关心用户对该类产品的品牌忠诚度变化。此时，传统的0-1 用户分类标准难以刻画用户的消费规律。针对传统二元用户消费表示不足，本节提出产品使用率的概念，即产品的使用频率来准确刻画用户对某类产品的喜爱。产品使用率能够在时序时间内衡量用户对产品的忠诚度变化。这里考虑用户较长时间段的产品使用率序列，即充分挖掘用户产品使用率的历史时间序列，进行后续产品使用率预测。

事实上，尽管存在一些相关的时间序列模型（如时间序列分析预测、隐马尔科夫模型），但是本章提出问题的特殊性使得上述传统模型难以直接迁移。首先，用户决策行为是一个十分复杂的过程，内部和外部环境的各种因素，如用户自身属性、其所在的社交网络结构、产品的流行度和大众认可度等，都会对用户的产品使用率造成影响，导致了用户决策结果的不确定性。其次，用户自身的独特性使得不同用户对不同因素的权重不尽相同。例如，一些用户对社交朋友的意见十分信任，而另外一些用户可能更关注与他们自身的需求爱好。基于上面的讨论，如何根据用户有限的消费序列（产品使用率序列信息），整合挖掘平衡这些因素成为本节提出问题的另一个挑战。

针对以上挑战，我们提出从多因素角度考虑用户的产品使用率预测问题。首先定义了一个因素相关的产品使用率函数，用来整合各种因素对用户产品使用率的影响。其次研究设计了GAM（Generalized Adoption Model）和PAM（Personalized Adoption Model）两类模型求解产品使用率函数，其中GAM 模型不区分用户的独特性，假设所有用户受到各因素影响的程度相同；而PAM 模型则考虑了用户的独特性，认为各用户不同因素的权重不尽相同。为了处理PAM 模型中调参的问题，进一步将PAM 扩展为自动参数学习的贝叶斯的版本（BPAM）。最后，在真实数据集上的两项产品预测率上进行了丰富实验，结果证明了所提方法的有效性。

3 用户消费行为与社交行为的联合演化建模

在社交情境下的用户消费平台服务中（通常称之为社交服务平台，Social Networking Service，SNS），在线用户主要进行两种行为，即用户- 产品之间的消费行为（如评分、购买、签到、发布帖）及用户- 用户建立的社交链接行为（如用户-用户之间建立的双边朋友关系及单边的关注关系）。因此，发现用户消费兴趣及建立新的社交链接是社交服务平台两个广泛用户受到周围社交网络邻居的影响做出消费决策行为，而同质性描述了社交网络中“人以类聚”的现象，即人们容易在社交网络中寻找与自己具有相似爱好的用户，并与这些用户建立社交链接研究的预测任务。其中，前文提到的CF 算法通过用户的历史消费行为，发现与目标用户具有相似消费兴趣的人，构成了用户消费兴趣发现及产品推荐的基础。而基于网络节点的近似度算法（Node Proximity，NP），通过挖掘社交网络图的拓扑逻辑结构，为社交链接预测提供了可行性。通过挖掘用户某一类的历史行为数据预测同类型的后续行为，CF 与NP 这两类算法在各自领域已被前人广泛研究。然而，社会学研究发现，用户的这两类行为并非相互独立，他们之间的相互影响构成了SNS 平台的演变——用户的消费兴趣随时间变化同时社交网络结构也处于变动中。其中，两种被广泛接受的社会学理论揭示了导致用户两种行为相互影响的原因：社交影响力指代用户受到周围社交网络邻居的影响做出消费决策行为，而同质性描述了社交网络中“人以类聚”的现象，即人们容易在社交网络中寻找与自己具有相似爱好的用户，并与这些用户建立社交链接。

我们在此考虑社交服务平台下用户两类行为的演化研究。准确建模社交服务平台下的用户行为共同演化存在以下技术难点。一方面，用户的两类行为交织在一起构成了社交服务平台的演化，因此难以区分每类用户行为对社交服务平台演化的贡献；另一方面，如何搭建用户两类行为的桥梁，将其中一类知识迁移到另一类行为，实现用户行为演化的共同建模仍然是一个挑战。为解决上述技术挑战，提出一种概率模型共同建模用户在社交服务平台上的消费行为，以及社交链接行为的演变。根据先前的社会学理论模型假定，每位用户的当前行为同时受到历史消费行为（消费兴趣）及先前社交网络的影响。在该假设下，提出的模型定义了每类用户行为对社交服务平台的作用，然后设计隐因子模型，将用户和产品同时表示为隐向量，其中用户向量随时间变化且共享于用户的两类行为中。为了展示用户的时序行为变化规律，每个用户a 在时刻t 的隐消费向量Uat 随时间变化，且同时受到用户前期消费兴趣和社交网络邻居的影响。相应地，用户a 在t 时刻的社交行为也由其社交网络和其消费兴趣共同决定。该算法的图模型如图4所示。根据算法的图模型，提出了社交平台用户两类行为的共同演化算法。最后，在两个真实数据集上进行了大量实验，实验结果表明所提算法在两类用户行为预测上的有效性。

图4 提出的社交服务平台联合演化模型

本文针对利用数据挖掘方法理解在线用户的消费行为的基础理论，以及应用性问题进行探索性研究。在数据层面结合用户- 产品之间的消费数据、社交网络中用户- 用户之间的交互数据及其他辅助数据，通过推荐系统中的用户消费兴趣建模理论、社交网络中的信息传播模型及交叉学科中对用户消费行为的研究，探索了基于用户兴趣建模的消费行为理解与推荐算法、社交情境下的用户行为分析与预测，以及社交服务平台下用户消费行为及社交链接行为的共同演化。随着移动互联网和在线用户消费的渗透式发展，关于在线用户消费行为的数据挖掘研究方兴未艾。诸多重要问题及方向值得进一步探索研究。

文章来源：人工智能通讯第12期（吴乐）

云计算、大数据、数据挖掘，选择哪个能更快的入门并且找到工作？

数据挖掘——聚类分析总结（建议收藏）

python入门到精通教程02-python学习路线图，让你轻松玩转python

以太坊缪尔冰川硬分叉升级后，区块时间间隔大降25%

数据可视化工具在未来的发展趋势好吗？

12.25 数据挖掘，机器学习，业务分析和预测软件-RapidMiner Studio

数据挖掘，让复杂的数据变得更得心应手

人工智能、机器学习和商业智能不可或缺的技术——数据挖掘

大数据预处理七步（一）：数据预处理

不敲代码，也可以机器学习、数据挖掘——IBM SPSS Modeler

布局智能客户经营，中金智汇发布系列新品

如何通俗理解商业智能、大数据、数据挖掘？

数据挖掘——数据预处理

让企业更具有竞争力的法宝 -- 数据仓库

大数据和数据挖掘的区别

2019, 我们如何打造智能供应链

NLP领域文本摘要有哪些研究方法？

孟非说：无论电子支付多么方便，也应该保持一定的现金支付

2018互联网+工程咨询与设计机构TOP100

AI知识图谱：机器学习、深度学习、数据分析、数据挖掘「附脑图」

BI商业智能是做什么商业智能的作用体现在这3方面

数据挖掘&人工智能10月班招生中！两大人工智能热门项目，提升背景正当时！

如何防止数据质量知识库中是否有历史的相同或相似的现象发生？

文章来源：人工智能通讯第12期（吴乐）

相關文章:

云计算、大数据、数据挖掘，选择哪个能更快的入门并且找到工作？

数据挖掘——聚类分析总结（建议收藏）

python入门到精通教程02-python学习路线图，让你轻松玩转python

以太坊缪尔冰川硬分叉升级后，区块时间间隔大降25%

数据可视化工具在未来的发展趋势好吗？

12.25 数据挖掘，机器学习，业务分析和预测软件-RapidMiner Studio

数据挖掘，让复杂的数据变得更得心应手

人工智能、机器学习和商业智能不可或缺的技术——数据挖掘

大数据预处理七步（一）：数据预处理

不敲代码，也可以机器学习、数据挖掘——IBM SPSS Modeler

布局智能客户经营，中金智汇发布系列新品

如何通俗理解商业智能、大数据、数据挖掘？

数据挖掘——数据预处理

让企业更具有竞争力的法宝 -- 数据仓库

大数据 和 数据挖掘 的区别

2019, 我们如何打造智能供应链

NLP领域文本摘要有哪些研究方法？

孟非说：无论电子支付多么方便，也应该保持一定的现金支付

2018互联网+工程咨询与设计机构TOP100

AI知识图谱：机器学习、深度学习、数据分析、数据挖掘「附脑图」

BI商业智能是做什么 商业智能的作用体现在这3方面

数据挖掘&人工智能10月班招生中！两大人工智能热门项目，提升背景正当时！

如何防止数据质量知识库中是否有历史的相同或相似的现象发生？

京东全面亮相KDD 2018，10篇论文成绩展示中国技术发展的京东力量

美科学家以算法预测HIV病毒传递过程｜零点报数

影像算法广告投放更精准；北京市进出口保持高速增长｜零点报数

你知道WMS的未来会朝着哪个方向发展吗？

优朋普乐邵以丁：技术创新助推优朋普乐快速发展

这篇“羞羞的”报告，告诉你很多关于80

最火的大数据，中国制造业的强心剂

全球半导体市场销售额再创新高；新算法识别罕见病理图像

出人意料99%的人不知道大数据大在哪里

什么带动了零售、分销和物流领域供应链管理的横向一体化进程？

智能化：信息资源中埋藏着丰富的不为用户所知的有用知识

网站运营是做什么的？什么是 网站运营？

挖掘机场数字地图的服务潜能

网络数据的采集是网络入侵检测系统的重要组成部分

必须进行信息资源的准备，进行数据提取、数据挖掘

数据挖掘业务、数据、算法：搭建数据分析体系73篇

广东智马奔腾科技有限公司宣布：游艺头条小程序正式上线了！

2018年企业怎样才能做好精准营销

数据引领精准营销

智能社会提高了智能系统的集成程度，实现了信息和资源的充分共享

储值卡 + 积分 ≠ 会员营销

汽配经营遇问题，让汽配云“在线客服”为您解答！

小米太无耻了。

蹭热点！说说我理解的手机包装盒事件。

苹果公司正式发布iPhone SE二代手机

华为河图、麒麟芯片和鸿蒙OS三驾马车并行？华为生态建设布局深远

小米高管表示，四千毫安时 5G 手机，和三千多毫安时 4G 手机一样

5G画风变了：麒麟985落地首跑，荣耀坐上开往高端的「地铁」

旗舰手机标配Wifi 6 换Wifi 6路由器的时机到了吗？

2020年5G手机卖不动？继苹果砍单25%之后，华为小米纷纷跟砍？

干翻华为P40系列 荣耀30也玩中

程序员辞互联网工作，跨行传统上市公司，上班第1天就蒙了

苹果发布新款iPhoneSE，3299元起售

我很纠结：我究竟适不适合做亚马逊电商？看了这三条你就知道了

请仔细阅读，关于跨境电商你想知道的都在这儿

骗子手段太“精明”：商家赔了货物又赔款，亚马逊平台骗术大揭秘

做跨境电商这么多年，今天才知道给国外客户发文件原来这么简单

值得收藏！三类卖家三种选品方案，总有适合你的一个……

万万没想到！亚马逊平台上面卖床单竟营收一个亿！你还在等什么？

做店铺这么多年，今天才知道我的listing突然被封，竟是因为……

亚马逊小白看过来！请采纳这些：亚马逊选品和运营的小建议

亚马逊卖家如何爆单？跨境精细化运营攻略必看

不收保证金、入住费、年费，还免三个月佣金，我也想入驻这个平台

马云终于要辞职了，留下的话句句触动人心

等等，明年5G手机将迎来大降价

微信公开课PRO版2019正在进行时，往届各自都有什么黑科技

推出「信任分」升级「闪购」，美团本地生活这盘棋有多大？

5G我们超越了6G我们也将领先! 美国为什么会害怕失去5G领导地位呢

界读｜华为：帮助英国共渡疫情难关，无端批评令英国蒙受损失

为什么华为今天可以傲视群雄，在世界上立于不败之地？

血战「在线办公」，阿里、腾讯、字节、华为的底牌与大杀器

2020年最强拍照旗舰来了 华为P40系列多项业界首创 香！

今天聊一聊直播

通过直播赚钱不容易，既要豁得出去，又要端得起来

AI和自动化技术联手，最终会让60%的工人失去现有的饭碗。

大数据和数据挖掘的区别

BI商业智能是做什么商业智能的作用体现在这3方面

网站运营是做什么的？什么是网站运营？

干翻华为P40系列荣耀30也玩中

2020年最强拍照旗舰来了华为P40系列多项业界首创香！