机器学习算法篇—GBDT初探_其它 _ 頭條網

为什么要深入理解GBDT，因为它的特征自动组合能力很强，运算效率很高，下面我们来看一下GBDT的基本原理。

准备知识：

回归树：决策树的一种，用于预测实数值，可以进行加减运算详细可参考：https://xiaozhuanlan.com/topic/5287096413

举例说明：

看一张非常经典的图，目的是预测一个人是否喜欢玩电脑游戏：

tree1:

年龄大于15岁减1分

年龄小于15岁，男性加2分，女性加0.1分

tree2:

每天用电脑加0.9分，不用的减0.9分

规定阈值是2

输入一个小男孩，tree1得分2，tree2得分0.9，总分是2.9分，喜欢

输入一个老人，tree1得分-1，tree2得分-0.9，总分是-1.9分，不喜欢

通过这个例子大家可以看出GBDT是用加权求和的方法，但是细心的同学可能会有疑问“如果单颗树的权值过大，怎么解决过拟合问题？”这个问题非常好，在传统决策树算法是会出现这个问题，但是GBDT通过各种方法，抑制决策树的复杂性，降低单颗决策树的拟合能力，再通过梯度提升的方法集成多个决策树，最终能够很好的解决过拟合的问题。

抑制单颗决策树的复杂度的方法：

限制树的最大深度

限制叶子节点的最少样本数量

限制节点分裂时的最少样本数量

吸收 bagging 的思想对训练样本采样，在学习单颗决策树时只使用一部分训练样本

借鉴随机森林的思路在学习单颗决策树时只采样一部分特征，在目标函数中添加正则项惩罚复杂的树结。

特别注意的一点是：

GBDT 算法的每一步在生成决策树时只需要拟合前面的模型的残差，基本做法就是：先学习一个回归树，然后“目标值-预测值”求此时的残差，把这个残差作为目标值，学习下一个回归树，继续求残差……直到建立的回归树的数目达到一定要求或者残差能够容忍，停止学习。

残差是预测值和目标值的差值，比如标准答案是20分，我们第一次得15分，则差距是5分；第二次把5分为目标再用3分去拟合，则差距是2分；第三次用2分去拟合，差距就变成0分了，最后得到就是15+3+2=20，总结就是每次学习都把残差作为下一轮学习的目标。

应用：

LR + GBDT的组合，最早是facebook提出的，优点是：

GBDT发掘有效的特征组合

把有效的特征组合引入到LR(逻辑回归)模型中

LR的缺点就是对特征组合的捕获不是很好，而GBDT正好弥补了这个缺点，目前非常广泛的应用在各大互联网公司，虽然说目前深度学习很火爆，但是实际互联网公司中绝大多数还都在用LR，GBDT，LR+GBDT，FM，FM+GBDT这些传统的机器学习模型，包括BAT大厂公司中也是。

找工作：

给目前正在找或者想转行到机器学习的同学一个建议：深入理解 LR(逻辑回归)，GBDT，LR+GBDT，FM，FM+GBDT这些模型，注意啊！是深入理解，并不是能看明白，看懂，这绝对不是深入理解，是有很大差别的。

深入理解是指能够自己手写推导出这些模型，知道每一步推导的理论依据和每一步背后的数学定理，并且针对每一步都能详细的解释。

目前的状况就是一大半找机器学习工作的人，都是从其他方向转过来了，基本都没有工作经验，而面试官也知道这个情况，之前听新浪微博张老师分享的课程就提到过，60%来面试的都是别的方向转过来的，但是没关系，面试看重的是你对算法的理解程度，这个才是核心竞争力。因为小公司的机器学习的工作经验，说实话优势真不明显，数据不是一个量级的，调优模型选择都不一样，建议把时间都花在深入理解算法模型上，在kaggle上找个比赛认真的参加一下，把排名拉上去，能排到TOP20左右，收获一定特别大，简历上就有东西可写了。

当面试的时候呢，带几张白纸带个笔，当着面试官把GBDT的推导过程写一遍，然后再讲一下kaggle比赛能排到TOP20的优化细节和参数模型的调整以及遇到的困难问题，这样基本问题不大了。但是这仅限于初级的机器学习岗位，中级高级不适用。

准备知识：

举例说明：

特别注意的一点是：

应用：

找工作：

相關文章:

2019年JMAT光催化、光电、记忆装置、机器学习、环境材料论文汇总

机器学习必修课：支持向量机原理(三)线性不可分SVM与核函数

机器学习：2050年，你的工作还在吗？

指标才是生产力

机器学习-单层感知机

机器学习=数据科学？N大区别要搞清

安霸福莱克斯提供专业的螺旋机产品和服务

一文搞懂PCA的原理与细节

报告称，2019年将是骚扰电话年

融GIS和BP神经网络的住宅房产评估模型

砖家、叫兽之外还有个东西更是可笑至极

推荐系统的召回

机器学习：预测液压破损-分类任务和模型性能的解释

递归神经网络(RNN)简介

预应力钢绞线张拉计算

Python：机器学习-k-近邻算法之影片分类器

30秒让你看懂金属硬度测量方法的分类与换算公式！

白话梯度下降法

算概率？你会吗？

随着信息技术的发展，知识工程丰富了知识组织的方法与手段

十分钟搞定PCA主成分分析

尚学堂人工智能——机器学习：回归算法

机器学习算法为分析知识发现的过程提供了一个很好的启示

05.30 机器学习 西瓜书 Day15 特征选择与稀疏学习

机器学习 西瓜书 Day15 降维与度量学习（下）

05.30 机器学习 西瓜书 Day15 降维与度量学习（下）

05.30 机器学习 西瓜书 Day16 计算学习理论

05.26 机器学习 西瓜书 Day14 特征选择与稀疏学习

05.26 机器学习 西瓜书 Day14 降维与度量学习（下）

风控场景中地址信息的处理和使用-下｜风控技术讲解

尬聊求解：多任务联合学习框架

从来没有魔鬼诱惑他，不过其肉体太强大，理性思维太弱而已！

群内神秘小伙解释神经网络入门，可留言提问呦~

机器学习基础算法——K邻近算法

不油腻青年人的焦虑

『学习笔记』 机器学习系列(2)

机器学习算法篇--贝叶斯分类器

“我凭本事撸的钱为什么要还？”顶象专家三个建议防范疯狂羊毛党

国庆长假看人脸识别与人证识别技术在景区与社区的发威

我们为什么喜欢给别人“贴标签”

沈巍先生杂谈（358）说好的快手不倒，陪伴到老呢？个个都是戏精

出海奋斗是有胆识后浪的更优选项

甲有5套房，不上班，收房租；乙有1套房，上班赚工资；丙租房子.

每逢佳节被相亲，单身青年看这里！

为珠峰“量身高”，为啥要人上去？

我省获国家局通报表扬

湖南名字最尴尬的城市，90%的人都会想歪，当地人：思想有问题！

超六成前浪点赞《后浪》，全球白手起家90后富豪人均财富190亿

再不来一场精致野餐，我就要被开除中产籍了

工程师我只服中国，曾经放生到三峡的1万条鱼，如今怎么样了？

后疫情时代的五个营销启示

丘北县双龙营镇人民政府普者黑村委会、矣则村委会太阳能路灯采购安装项目竞争性谈判公告

为什么重量相同的金子，银行卖得比金店还便宜？看完涨知识了

打雷的时候，到底要不要拔掉插头，关闭电路呢？看完涨知识了

乘坐火车时，把车票弄丢了怎么处理？看完可算知道了

肖战视频专访：眼里带着故事，请不要听说他，这一次，请他说

秦山核电应急行动水平优化项目招标公告

巴基斯坦SK水电站消防及火灾报警系统设备采购招标招标公告

中煤能源新疆鸿新煤业苇子沟煤矿瓦斯抽采机械设备采购招标公告

县域社区团购，在平台发展上有哪些优势？

和王为念离婚，与“假奶奶”常香玉对簿公堂，55岁小香玉生活如诗

眼力测试：由4字组成的白菜，1秒看出4个字的智商都很高

看图猜字：这个不简单，你能猜对几个？全猜对眼力非凡

眼力测试：火焰中藏了4个字，看出3个算达标，全看出眼力200

小米硬刚德国双立人，400年非洲灌木做家用砧板，不发霉砍不坏

眼力测试：美女图中藏了5个汉字，全部看出来的眼力超群

最萌Hodler，刚出生就收到比特币大学教育基金的宝宝

《瞭望大湾区》：全国中高风险区域今日“清零”

《晨会解读》：中山证券投资顾问杨立华：连续上涨过后注意把握好操作节奏

孙松峰：幸福生活唱出来

衡水：守护一湖碧水 打造生态之城

英国小伙第一次体验中国网吧，就被电脑屏幕吓到直言：这是个啥

微商到底多能吹牛！哈哈哈哈哈千万别屏蔽，每天都是快乐源泉

2020珠峰高程复测出发仪式今日举行 小米10全程助力丈量世界新高度

05.30 机器学习西瓜书 Day15 特征选择与稀疏学习

机器学习西瓜书 Day15 降维与度量学习（下）

05.30 机器学习西瓜书 Day15 降维与度量学习（下）

05.30 机器学习西瓜书 Day16 计算学习理论

05.26 机器学习西瓜书 Day14 特征选择与稀疏学习

05.26 机器学习西瓜书 Day14 降维与度量学习（下）

『学习笔记』机器学习系列(2)

衡水：守护一湖碧水打造生态之城

2020珠峰高程复测出发仪式今日举行小米10全程助力丈量世界新高度