面向用户消费行为理解的数据挖掘方法

海量线上用户消费行为数据为研究者探索理解用户消费习惯,制定数据驱动的商务智能策略带来了全新的机遇及挑战。本文提出融合用户消费行为的多学科交叉研究成果,利用数据挖掘方法,从用户兴趣建模、社交情境下用户消费行为理解及社交服务平台的动态演化建模三个方面展开在线用户消费行为理解研究,并分别在真实数据集上验证了提出模型的有效性。

通过从大量数据中挖掘隐藏的有价值信息,数据挖掘成为理解用户消费行为模式的一种行之有效的方法。用户画像技术全方位立体地展现了在线消费者特征,推荐系统通过用户兴趣建模技术为用户推荐未来可能感兴趣的产品。由于在线用户消费行为的独特性,已有的数据挖掘算法不足以支撑全方面多维度的在线用户的消费行为理解。具体来说,当前研究工作面临的主要挑战包括以下三个方面:

① 在线用户消费行为数据源的稀疏动态及多元异构性。

② 在线用户消费决策过程的复杂性。

③ 在线用户消费行为理解的交叉学科性。

针对上述挑战,本文提出设计新型的数据挖掘模型理解用户消费行为。具体来说,我们以不同类型的产品为实例,结合用户-产品的交互消费数据、用户- 用户之间的社交数据,以及诸如用户属性、用户生成的标签数据等辅助数据,利用用户兴趣建模理论、社交情境下的信息传播模型以及交叉学科领域知识作为理论基础,在此基础上,分别设计出面向精准度和多样性的用户消费兴趣理解及推荐算法、社交情境下的用户消费行为理解,以及社交情境下的用户消费及社交共同演化理解模型。

本文的研究内容框架如图1 所示。在接下来内容中,我们将对上述三项工作逐一进行概述。

图1.研究内容框架体系

1 基于用户兴趣建模的消费行为理解与推荐算法

用户兴趣是用户消费行为的核心因素。用户兴趣建模是推荐系统的核心问题,其旨在通过分析用户历史消费行为,设计模型挖掘用户潜在消费兴趣,并基于此设计产品推荐算法,增进用户的满意度以及商家收益。根据用户兴趣建模评价方法的不同,本章将分别介绍面向精确度和面向多样性两类用户兴趣建模方法。

1.1 面向精确度的用户兴趣建模方法

在用户兴趣建模方法中,协同过滤技术(Collaborative Filtering,CF)由于具有适用情景广、算法简单明确、推荐效果较好等优点,近年来受到学术界和工业界的广泛关注。协同过滤技术通过收集用户消费产品的历史数据,如浏览记录、购买记录,以及对商品的评分记录等,利用群体智慧分析用户兴趣,寻找与指定用户具有相似消费兴趣的用户,综合相似用户的历史数据主动向用户进行产品推荐。然而,由于协同过滤技术依赖于用户- 产品的消费信息建模,该类算法通常在用户- 产品消费记录较少时无法准确建模。这种情况在推荐系统中非常普遍,被称之为“冷启动”问题。

针对上述背景,提出了基于补充标签信息的用户兴趣建模及推荐方法,设计两阶段的邻居感知的矩阵分解算法框架(Neighborhood-aware Probabilistic Matrix Factorization,NHPMF)。该框架图如图2 所示,其中,第一阶段,使用标签信息获得用户和产品的邻居信息;第二阶段,设计统一的模型将邻居信息融合到矩阵分解过程中,保证“相似的用户(产品)在隐空间上具有相似的表示”;即通过将补充的邻居信息引入传统矩阵分解模型的先验中,使得每个用户(产品)的隐向量尽量和邻居保持相似。最后,在两个不同数据集上验证了方法的有效性。实验结果表明,与传统的协同过滤算法相比,提出的NHPMF框架能更精准预测用户的兴趣爱好。

图2 两阶段的邻居感知的矩阵分解算法框架

1.2 面向多样性的用户兴趣建模方法

协同过滤技术通过历史用户- 产品消费记录, 衡量用户和产品之间的相(Relevance),进而为用户推荐top-N 的兴趣列表。因此,这些算法擅于提供精准度高的推荐结果,匹配用户的主要兴趣爱好。例如,1.1 节介绍了如何通过额外信息补充用户- 产品消费矩阵,预测用户对未知产品的偏好,最终选择预测评分最高的产品集合作为推荐列表。然而,当前的协同过滤算法过于关注提高推荐模型的精准度,导致推荐算法产生的推荐列表大多被限制在一个相对狭窄的热门产品集合中,从而用户的一些小众偏好却被算法忽略。因此,传统推荐算法产生的推荐列表可能比较单调(推荐列表的各个产品之间比较相似,缺乏多样性),难以覆盖用户的全部消费兴趣。

部分学者已经意识到具有多样性的推荐列表的重要意义,一些先期研究工作提出各种方法提高推荐结果的多样性,这些工作一般分成如下两个步骤:首先利用传统的协同过滤算法抽取一个较大的候选集合;然后利用多样性指标对候选集合重新排序,获取top-N 的推荐列表。然而,这些方法通常要么引入额外信息获取多样性指标,要么在提高多样性的同时降低了推荐结果的精确度。因此,如何在通用情况下不借助产品的额外信息,生成既准确又包含多样性的推荐结果仍然是一个亟待解决的开放性课题。

基于以上背景提出从一个全新视角理解推荐结果的多样性问题。我们从经典推荐算法中的基于用户邻居的协同过滤算法(User-based Collaborative Filtering,UCF)出发,从算法思想和实验结果分析该算法无法产生多样化推荐结果的原因。UCF 算法首先为每个目标用户选择相关度高的兴趣相似的邻居用户,进一步根据邻居列表中的流行产品为目标用户生成推荐列表。而UCF 算法在邻居集合选择和推荐集合/ 列表生成的两个阶段中,其考虑的相关度指标仅仅从集合中的单个元素出发,并没有从全局最优的观念考虑集合中元素之间的关系。(值得注意的是,该类问题不仅仅出现在UCF 算法中,当前主流的协同过滤算法,如基于产品邻居的推荐算法及矩阵分解算法,均存在此类问题。)为解决上述问题,引入了一个简单的度量指标——覆盖度来衡量集合中所有元素的效用。我们将覆盖度的指标应用于UCF的邻居选择和推荐列表生成阶段中,考虑如何定义兴趣覆盖度概念使得邻居集合覆盖用户兴趣,以及邻居覆盖度概念使得推荐集合覆盖多样化的邻居。然后提出了一个统一的推荐框架REC,使得在邻居集合选择和推荐列表生成过程中不仅考虑传统的相关性(RElevance)指标,而且加入新的覆盖度(Coverage)指标来衡量集合元素的效用。当同时考虑相关性与覆盖度指标时,REC 框架中的邻居选择与推荐列表生成过程的目标函数都是NP 难问题。我们进一步挖掘目标函数性质,提出了一种高效的有理论保证的求解方法。由于REC 在邻居选择阶段,使得每个邻居用户尽可能地覆盖用户的不同兴趣,得到的邻居集合具有多样性;同时在推荐列表生成过程中,鼓励每个产品覆盖多样化的邻居用户,得到的推荐结果自然具有多样性。实验结果表明,我们提出的算法能够在不损失精度的情况下,显著提高推荐结果的多样性。

2 社交情境下的用户消费建模及预测

随着信息技术的发展,社交网络的兴起为社交情境下的用户消费建模提供了新机遇。与基于用户兴趣建模的消费行为理解不同,在社交网络中,用户与用户之间不再相互独立,用户的自身决策行为也会受到社交情境的影响。如何更真实地为现实社会的消费传播过程建模,也是当前学术界的一个研究热点。针对此问题,我们通过社交网络中用户的手机消费行为为例,结合社会学研究成果,探索社交网络下用户的手机消费行为机理,预测用户未来手机消费行为。进一步,针对传统二元数据(是否购买)表示用户对产品偏好的不足,提出时序产品使用率概念衡量用户对产品的喜好变化,并对用户的时序产品使用率进行建模预测。

2.1 社交情境下的手机消费情况建模

权威市场调研机构IDC(InternationalData Corporation)曾调查2013 年底全球范围内的智能手机使用量为18.2 亿,预测在2017 年,在所有智能设备中(包括台式机、笔记本、平板电脑及智能手机),智能手机的市场占有率将达到70.5%。智能手机市场已经成为各大电子厂商争夺的焦点。现在,手机已成为人们社交方式的重要组成部分。然而,如何收集大规模社交网络中用户的手机消费行为数据,理解社交情境下的用户手机消费仍然是一个空白的研究领域。

幸运的是,近年来随着在线社交媒体和智能手机的普及,越来越多的人通过智能手机与在线社交网络上的朋友分享生活记录。由于大部分用户通过智能移动设备接入在线社交媒体,这些移动社交网络记录了用户的智能手机使用足迹。图3 则展示了Weibo 上用户的手机使用实例足迹。当用户在Weibo 上发布信息时,系统会自动将一条扩展后的信息发送给该用户的粉丝。这条扩展的信息包含发布的微博内容、时间戳(2013 年7 月3 日)以及发送该条微博的设备信息(iPhone)。其中,扩展信息中的设备信息为追踪大规模社交网络下用户的手机使用行为提供了数据源。通过跟踪大规模用户时间的微博信息流,即可自动获取用户及其所在社交网络的手机消费情况。

图3 Weibo 上用户手机使用实例

然而,即使能够获取社交网络中用户的手机使用情况,理解用户在社交情境下的手机使用还存在以下技术挑战。一方面,用户的消费决策过程受到多种因素影响,如何融合这些因素更好地进行消费行为建模是一个亟待解决的问题。心理学、社会学及用户行为学等多学科交叉研究结果已确认了三种主要因素对用户决策行为的影响,即个人因素、社交影响力及同质性。其中,个人因素指代用户受到自身特性或者兴趣驱动,独立地做出消费决定。然而,现实中人类处于社交环境中,其消费决定行为与所处的社交环境存在千丝万缕的联系。社交影响力及同质性就是社交情境下用户行为的指导准则。其中,社交影响力指代用户受到周围社交网络中邻居行为的影响做出决策行为;而同质性描述了社交网络中“人以类聚”的现象,即有着相似兴趣爱好的人相互联系,不约而同地做出相似决定。另一方面,不同的因素会导致完全不同的消费行为结构演化,从而影响生产产商的营销策略制定。准确地区分和理解各因素在消费行为中的作用,对指导商家的营销策略有着重要意义。

综上所述,本研究工作的挑战在于:如何设计统一模型融合各复杂因素对用户手机消费行为的影响,同时区分各不同因素对消费行为的作用,为商家营销提供数据驱动的定量指导。针对以上挑战,我们提出一种有监督的机器学习方法建模用户的智能手机消费行为理解与预测。在前期准备中,通过跟踪在线移动社交网络用户的行为,收集了网络用户的手机使用情况。借鉴消费行为学和营销学理论,根据用户当前智能手机使用状态将用户分为潜在智能手机首次消费者以及潜在手机品牌更换者两组。我们设计了SHIP(Supervised Homophily-Influence-Personality)模型建模手机消费行为。该模型融合个人因素、社交影响力和同质性三个重要因素对用户消费行为进行建模并且可以自动学习各因素对消费行为的贡献。值得一提的是,提出的SHIP 模型具有普适性,也可以用于其他产品消费行为建模。我们在具有20 万个节点的社交网络中进行算法评估,实验效果表明了所提方法能有效预测用户手机消费行为。实验中得到的一个有趣结论是,用户首次购买手机的品牌容易受到身边朋友的影响,而用户更换手机品牌主要由品牌忠诚度确定。

2.2 社交情境下的产品使用率建模

在2.1 节的研究中,我们将用户的手机消费行为分为已经消费产品的用户(标签为1)和暂未消费该产品的用户(标签为0)两类,然后对未消费产品的用户进行后续消费行为预测,寻找下个时间段潜在的消费者。然而在真实世界的消费行为中,除去很多一次性消费的产品(例如书籍、电影),用户通常对某类耐用品产品存在着多种备择选择,用户受到自身和外部因素的影响交替选择具有特定功能的不同产品。例如在手机市场中,用户可能交替使用苹果品牌与三星品牌的手机。相比较于是否购买产品的评估表中,厂商更关心用户对该类产品的品牌忠诚度变化。此时,传统的0-1 用户分类标准难以刻画用户的消费规律。针对传统二元用户消费表示不足,本节提出产品使用率的概念,即产品的使用频率来准确刻画用户对某类产品的喜爱。产品使用率能够在时序时间内衡量用户对产品的忠诚度变化。这里考虑用户较长时间段的产品使用率序列,即充分挖掘用户产品使用率的历史时间序列,进行后续产品使用率预测。

事实上,尽管存在一些相关的时间序列模型(如时间序列分析预测、隐马尔科夫模型),但是本章提出问题的特殊性使得上述传统模型难以直接迁移。首先,用户决策行为是一个十分复杂的过程,内部和外部环境的各种因素,如用户自身属性、其所在的社交网络结构、产品的流行度和大众认可度等,都会对用户的产品使用率造成影响,导致了用户决策结果的不确定性。其次,用户自身的独特性使得不同用户对不同因素的权重不尽相同。例如,一些用户对社交朋友的意见十分信任,而另外一些用户可能更关注与他们自身的需求爱好。基于上面的讨论,如何根据用户有限的消费序列(产品使用率序列信息),整合挖掘平衡这些因素成为本节提出问题的另一个挑战。

针对以上挑战,我们提出从多因素角度考虑用户的产品使用率预测问题。首先定义了一个因素相关的产品使用率函数,用来整合各种因素对用户产品使用率的影响。其次研究设计了GAM(Generalized Adoption Model)和PAM(Personalized Adoption Model)两类模型求解产品使用率函数,其中GAM 模型不区分用户的独特性,假设所有用户受到各因素影响的程度相同;而PAM 模型则考虑了用户的独特性,认为各用户不同因素的权重不尽相同。为了处理PAM 模型中调参的问题,进一步将PAM 扩展为自动参数学习的贝叶斯的版本(BPAM)。最后,在真实数据集上的两项产品预测率上进行了丰富实验, 结果证明了所提方法的有效性。

3 用户消费行为与社交行为的联合演化建模

在社交情境下的用户消费平台服务中( 通常称之为社交服务平台,Social Networking Service,SNS), 在线用户主要进行两种行为,即用户- 产品之间的消费行为(如评分、购买、签到、发布帖)及用户- 用户建立的社交链接行为(如用户-用户之间建立的双边朋友关系及单边的关注关系)。因此,发现用户消费兴趣及建立新的社交链接是社交服务平台两个广泛用户受到周围社交网络邻居的影响做出消费决策行为,而同质性描述了社交网络中“人以类聚”的现象,即人们容易在社交网络中寻找与自己具有相似爱好的用户,并与这些用户建立社交链接研究的预测任务。其中,前文提到的CF 算法通过用户的历史消费行为,发现与目标用户具有相似消费兴趣的人,构成了用户消费兴趣发现及产品推荐的基础。而基于网络节点的近似度算法(Node Proximity,NP),通过挖掘社交网络图的拓扑逻辑结构,为社交链接预测提供了可行性。通过挖掘用户某一类的历史行为数据预测同类型的后续行为,CF 与NP 这两类算法在各自领域已被前人广泛研究。然而,社会学研究发现,用户的这两类行为并非相互独立,他们之间的相互影响构成了SNS 平台的演变——用户的消费兴趣随时间变化同时社交网络结构也处于变动中。其中,两种被广泛接受的社会学理论揭示了导致用户两种行为相互影响的原因:社交影响力指代用户受到周围社交网络邻居的影响做出消费决策行为,而同质性描述了社交网络中“人以类聚”的现象,即人们容易在社交网络中寻找与自己具有相似爱好的用户,并与这些用户建立社交链接。

我们在此考虑社交服务平台下用户两类行为的演化研究。准确建模社交服务平台下的用户行为共同演化存在以下技术难点。一方面,用户的两类行为交织在一起构成了社交服务平台的演化,因此难以区分每类用户行为对社交服务平台演化的贡献;另一方面,如何搭建用户两类行为的桥梁,将其中一类知识迁移到另一类行为,实现用户行为演化的共同建模仍然是一个挑战。为解决上述技术挑战,提出一种概率模型共同建模用户在社交服务平台上的消费行为,以及社交链接行为的演变。根据先前的社会学理论模型假定,每位用户的当前行为同时受到历史消费行为(消费兴趣)及先前社交网络的影响。在该假设下,提出的模型定义了每类用户行为对社交服务平台的作用,然后设计隐因子模型,将用户和产品同时表示为隐向量,其中用户向量随时间变化且共享于用户的两类行为中。为了展示用户的时序行为变化规律,每个用户a 在时刻t 的隐消费向量Uat 随时间变化,且同时受到用户前期消费兴趣和社交网络邻居的影响。相应地,用户a 在t 时刻的社交行为也由其社交网络和其消费兴趣共同决定。该算法的图模型如图4所示。根据算法的图模型,提出了社交平台用户两类行为的共同演化算法。最后,在两个真实数据集上进行了大量实验,实验结果表明所提算法在两类用户行为预测上的有效性。

图4 提出的社交服务平台联合演化模型

本文针对利用数据挖掘方法理解在线用户的消费行为的基础理论,以及应用性问题进行探索性研究。在数据层面结合用户- 产品之间的消费数据、社交网络中用户- 用户之间的交互数据及其他辅助数据,通过推荐系统中的用户消费兴趣建模理论、社交网络中的信息传播模型及交叉学科中对用户消费行为的研究,探索了基于用户兴趣建模的消费行为理解与推荐算法、社交情境下的用户行为分析与预测,以及社交服务平台下用户消费行为及社交链接行为的共同演化。随着移动互联网和在线用户消费的渗透式发展,关于在线用户消费行为的数据挖掘研究方兴未艾。诸多重要问题及方向值得进一步探索研究。

文章来源:人工智能通讯第12期(吴乐)