在计算广告和推荐系统中的AI算法(2)--FFM/DeepFFM/DCN_技术 _ 頭條網

1 FM

在CTR预估中，经常会遇到one-hot类型的变量，one-hot类型变量会导致严重的数据特征稀疏的情况，为了解决这一问题，在上一讲中，我们介绍了FM算法详细参见上一篇文章"在计算广告和推荐系统中的AI算法(1)--FM模型"

2 FFM

2.1 原理

在CTR预估中，经常会遇到one-hot类型的变量，one-hot类型变量会导致严重的数据特征稀疏的情况，为了解决这一问题，在上一讲中，我们介绍了FM算法。这一讲我们介绍一种在FM基础上发展出来的算法-FFM（Field-aware Factorization Machine）。FFM模型中引入了类别的概念，即field。还是拿上一讲中的数据来讲，先看下图：

在上面的广告点击案例中，“Day=26/11/15”、“Day=1/7/14”、“Day=19/2/15”这三个特征都是代表日期的，可以放到同一个field中。同理，Country也可以放到一个field中。简单来说，同一个categorical特征经过One-Hot编码生成的数值特征都可以放到同一个field，包括用户国籍，广告类型，日期等等。在FFM中，每一维特征 xi，针对其它特征的每一种field fj，都会学习一个隐向量 v_i,fj。因此，隐向量不仅与特征相关，也与field相关。也就是说，“Day=26/11/15”这个特征与“Country”特征和“Ad_type"特征进行关联的时候使用不同的隐向量，这与“Country”和“Ad_type”的内在差异相符，也是FFM中“field-aware”的由来。假设样本的 n个特征属于 f个field，那么FFM的二次项有 nf个隐向量。而在FM模型中，每一维特征的隐向量只有一个。FM可以看作FFM的特例，是把所有特征都归属到一个field时的FFM模型。根据FFM的field敏感特性，可以导出其模型方程。

可以看到，如果隐向量的长度为 k，那么FFM的二次参数有 nfk 个，远多于FM模型的 nk个。此外，由于隐向量与field相关，FFM二次项并不能够化简，其预测复杂度是 O(kn^2)。下面以一个例子简单说明FFM的特征组合方式。输入记录如下：

这条记录可以编码成5个特征，其中“Genre=Comedy”和“Genre=Drama”属于同一个field，“Price”是数值型，不用One-Hot编码转换。为了方便说明FFM的样本格式，我们将所有的特征和对应的field映射成整数编号。

那么，FFM的组合特征有10项，如下图所示。

其中，红色是field编号，蓝色是特征编号。

2.2 代码的github地址：

https://github.com/princewen/tensorflow_practice/tree/master/recommendation-FFM-Demo

3 DeepFM

3.1 特征组合的挑战

对于一个基于CTR预估的推荐系统，最重要的是学习到用户点击行为背后隐含的特征组合。在不同的推荐场景中，低阶组合特征或者高阶组合特征可能都会对最终的CTR产生影响。之前介绍的因子分解机(Factorization Machines, FM)通过对于每一维特征的隐变量内积来提取特征组合。最终的结果也非常好。但是，虽然理论上来讲FM可以对高阶特征组合进行建模，但实际上因为计算复杂度的原因一般都只用到了二阶特征组合。那么对于高阶的特征组合来说，我们很自然的想法，通过多层的神经网络即DNN去解决。

DNN的局限

下面的图片来自于张俊林教授在AI大会上所使用的PPT。我们之前也介绍过了，对于离散特征的处理，我们使用的是将特征转换成为one-hot的形式，但是将One-hot类型的特征输入到DNN中，会导致网络参数太多：

所以，可以将DNN与FM进行一个合理的融合，其中一种融合就是DeepFM:

我们先来看一下DeepFM的模型结构：

DeepFM包含两部分：神经网络部分与因子分解机部分，分别负责低阶特征的提取和高阶特征的提取。这两部分共享同样的输入。DeepFM的预测结果可以写为：

3.3 代码：

DeepFM原代码地址：https://github.com/ChenglongChen/tensorflow-DeepFM本文代码地址：https://github.com/princewen/tensorflow_practice/tree/master/Basic-DeepFM-model数据下载地址：https://www.kaggle.com/c/porto-seguro-safe-driver-prediction

4 多值离散特征的embedding解决方案

4.1 背景

在本系列第三篇文章中，在处理DeepFM数据时，由于每一个离散特征只有一个取值，因此我们在处理的过程中，将原始数据处理成了两个文件，一个记录特征的索引，一个记录了特征的值，而每一列，则代表一个离散特征。但假如，我们某一个离散特征有多个取值呢？举个例子来说，每个人喜欢的NBA球队，有的人可能喜欢火箭和湖人，有的人可能只喜欢勇士，也有的人喜欢骑士、绿军、猛龙等一大堆。对于这种特征，我们本文将其称为多值离散特征。根据DeepFM的思想，我们需要将每一个field的特征转换为定长的embedding，即使有多个取值，也是要变换成定长的embedding。那么，一种思路来了，比如一个用户喜欢两个球队，这个field的特征可能是[1,1,0,0,0,0,0.....0]，那么我们使用两次embedding lookup，再取个平均不就好了嘛。嗯，这的确也许可能是一种思路吧，在tensorflow中，其实有一个函数能够实现我们上述的思路，那就是tf.nn.embedding_lookup_sparse。别着急，我们一步一步来实现多值离散特征的embedding处理过程。

4.2 解决方案

输入数据假设我们有三条数据，每条数据代表一个user所喜欢的nba球员，比如有登哥，炮哥，杜老四，慕斯等等：

我们建立一个所有球员的集合：

数据处理这里我们需要一个得到一个SparseTensor，即多为稀疏矩阵的一种表示方式，我们只记录非0值所在的位置和值。比如说，下面就是我们对上面数据处理过后的一个SparseTensor，indices是数组中非0元素的下标，values跟indices一一对应，表示该下标位置的值，最后一个表示的是数组的大小。

处理得到SparseTensor的完整代码如下：

定义embedding变量定义我们的embedding的大小为3:得到embedding值将我们刚才得到的SparseTensor，传入到tf.nn.embedding_lookup_sparse中，我们就可以得到多值离散特征的embedding值。tags = sparse_from_csv(csv)embedded_tags = tf.nn.embedding_lookup_sparse(embedding_params, sp_ids=tags, sp_weights=None)sp_ids就是我们刚刚得到的SparseTensor，而sp_weights=None代表的每一个取值的权重，如果是None的话，所有权重都是1，也就是相当于取了平均。如果不是None的话，我们需要同样传入一个SparseTensor，代表不同球员的喜欢权重。大家感兴趣可以自己去尝试。测试输出最后我们来看看得到的效果：

这只是一种解决方案，大家可以去探索更多的方法。

5 DCN

5.1 原理

Deep&Cross Network模型我们下面将简称DCN模型：一个DCN模型从嵌入和堆积层开始，接着是一个交叉网络和一个与之平行的深度网络，之后是最后的组合层，它结合了两个网络的输出。完整的网络模型如图：嵌入和堆叠层我们考虑具有离散和连续特征的输入数据。在网络规模推荐系统中，如CTR预测，输入主要是分类特征，如“country=usa”。这些特征通常是编码为独热向量如“[ 0,1,0 ]”；然而，这往往导致过度的高维特征空间大的词汇。为了减少维数，我们采用嵌入过程将这些离散特征转换成实数值的稠密向量（通常称为嵌入向量）：然后，我们将嵌入向量与连续特征向量叠加起来形成一个向量：拼接起来的向量X0将作为我们Cross Network和Deep Network的输入Cross Network交叉网络的核心思想是以有效的方式应用显式特征交叉。交叉网络由交叉层组成，每个层具有以下公式：一个交叉层的可视化如图所示:

可以看到，交叉网络的特殊结构使交叉特征的程度随着层深度的增加而增大。多项式的最高程度（就输入X0而言）为L层交叉网络L + 1。如果用Lc表示交叉层数，d表示输入维度。然后，参数的数量参与跨网络参数为：d * Lc * 2 (w和b)交叉网络的少数参数限制了模型容量。为了捕捉高度非线性的相互作用，模型并行地引入了一个深度网络。Deep Network深度网络就是一个全连接的前馈神经网络，每个深度层具有如下公式：

Combination Layer链接层将两个并行网络的输出连接起来，经过一层全链接层得到输出：

如果采用的是对数损失函数，那么损失函数形式如下：

总结DCN能够有效地捕获有限度的有效特征的相互作用，学会高度非线性的相互作用，不需要人工特征工程或遍历搜索，并具有较低的计算成本。论文的主要贡献包括：1）提出了一种新的交叉网络，在每个层上明确地应用特征交叉，有效地学习有界度的预测交叉特征，并且不需要手工特征工程或穷举搜索。2）跨网络简单而有效。通过设计，各层的多项式级数最高，并由层深度决定。网络由所有的交叉项组成，它们的系数各不相同。3）跨网络内存高效，易于实现。4）实验结果表明，交叉网络（DCN）在LogLoss上与DNN相比少了近一个量级的参数量。

5.3 代码

本文的代码根据之前DeepFM的代码进行改进，我们只介绍模型的实现部分，其他数据处理的细节大家可以参考作者的github上的代码：https://github.com/princewen/tensorflow_practice/tree/master/Basic-DCN-Demo数据下载地址：https://www.kaggle.com/c/porto-seguro-safe-driver-prediction

4.2 解决方案

相關文章:

商汤提出基于空间修剪的 NAS 算法

Learning To Rank 算法 RankNet

【算法】排序算法之基数排序

【算法】排序算法之桶排序

【算法】排序算法之计数排序

【算法】排序算法之堆排序

数据结构与算法：算法

【算法】位运算与经典八皇后问题

什么是算力？算法？一文看懂算法学习拓扑图

查找-hash 算法

争取能让大家都能看懂的 DFA 算法

视频分析与对象跟踪-CamShift 算法

史上最全GAN综述2020版：算法、理论及应用

人工智能的灵魂——算法

阿里2020年内部PPT全栈分享：架构、大数据、算法

深入理解 React diff 算法

03.03 史上最全GAN综述2020版：算法、理论及应用

图像分割实战-分水岭分割方法和GrabCut 算法

03.02 分布式系统ID的生成方法之UUID、数据库、算法、Redis、Leaf方案

02.25 《GANs生成式对抗网络综述：算法、理论与应用》最新论文

Python 算法 10 -- 广度优先搜索（BFS）

一文读懂 MD5 算法

Python 算法 09 -- 散列表

Python 算法 08 -- 快速排序

浅显介绍“二进制枚举”算法

分布式系统ID的生成方法之UUID、数据库、算法、Redis、Leaf方案

01.20 Python 算法 08 -- 冒泡排序及其优化

01.17 Python 算法 06 --“又爱又恨”的递归算法

01.16 Python 算法 05 -- 3+4*5-6=？在栈中的调用

Python 算法 01--二分查找

C++基础知识-算法

palindrome(回文)算法

12.07 面试又被问到一致性 Hash 算法？这样回答秒杀面试官

算法--我的红黑树学习过程

用讲故事的办法帮你理解 SMO 算法

漫画说什么是 LRU 算法？

算法--平衡二叉树AVL原理分析以及代码实现

算法-二叉查找树BST

10.12 CPK的“另类”算法

「分布式」看完这个动画秒懂 Raft 算法

贝叶斯个性化排序(BPR)算法

01.10 路径规划之 A* 算法

算法：时间复杂度+二分查找法(Java

算法：加权轮询算法

算法：分治算法

06.29 「算法」如何判断链表有环

06.19 算法——初级排序算法

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪