使用决策树预测隐形眼镜类型（一）游戲頭條網

本节内容：

决策树简介
在数据集中度量的一致性
使用递归构造决策树
使用Matplotlib绘制树形图

决策树一般用来处理分类问题，很多人都玩过猜数字的游戏：约定一个数字，当玩家对约定数字进行猜测的时候，游戏给出太大了请往小猜或者猜小了往大的数字猜，知道最终锁定给出的约定数。在上一篇中介绍的K邻近算法能够完成很多分类任务，但是它最大的缺点就是无法给出数据的内在含义，决策树的主要优势就在于数据形式非常容易理解。垃圾邮件的判定就很好的应用到了决策树树算法。如图所示：

垃圾邮件判定预览

构造的决策树算法能够读取数据集合，决策时的一个重要任务是为了理解数据中所蕴含的知识信息，因决策树可以使用不熟悉的数据集合，并从中提取出一系列规则，这些机器根据数据集创建规则的过程，就是机器学习的过程。专家系统中经常使用决策树，而且决策树给出结果往往可以匹敌在当前领域具有几十年工作经验的人类专家。

1.决策树的构造

首要考虑的是，当前数据集上哪个特征在划分数据分类时起到决定性作用。为了找到决定性特征，划分最好的结果，我们必须评估每一个特征。完成测试之后，原始数据被划分为几个数据子集，这些数据子集会分布在第一个决策点的所有分支上。这是一个重复的过程。创建分支伪代码函数CreateBranch（）如下所示：

if so return //类标签else寻找划分数据集的最好特征划分数据集创建分支节点 for 每个划分的子集 调用函数CreateBranch并增加返回结果的分支节点中return 分支节点

1.1 信息增益

划分数据的最大原则是：将无序数据变得更加有序。可以使用多种划分数据集，但是每种各自的优缺点组织杂乱无章数据的一种方法就是使用信息论度量。在数据划分前后的信息改变称之为信息增益。在这里使用的事香浓熵的方法去计算信息增益。示例：

计算给定数据的香浓熵def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts = {} for featVec in dataSet: #the the number of unique elements and their occurance currentLabel = featVec[-1] if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0 labelCounts[currentLabel] += 1 shannonEnt = 0.0 for key in labelCounts: prob = float(labelCounts[key])/numEntries shannonEnt -= prob * log(prob,2) #log base 2 return shannonEnt

2 划分数据集

按照给定特征划分数据集def splitDataSet(dataSet, axis, value): retDataSet = [] for featVec in dataSet: if featVec[axis] == value: reducedFeatVec = featVec[:axis] #chop out axis used for splitting reducedFeatVec.extend(featVec[axis+1:]) retDataSet.append(reducedFeatVec) return retDataSet

补充：extend（）和append（）的区别

a=[1,2,3]b=[4,5,6]a.append(b)a=[1,2,3,[4,5,6]]a.extend(b)a=[1,2,3,4,5,6]

使用决策树预测隐形眼镜类型（一）

分享到:

閱讀更多 一兒口山石 的文章

關鍵字: Python 专家系统编程语言

使用决策树预测隐形眼镜类型（一）

相關文章:

开启尘封的记忆 DATA EAST 地狱英雄弹珠门 这款游戏是存在的

王者荣耀 巫术法杖：被遗忘的法术神装

王者荣耀：盘点那些被天美遗忘的老英雄，网友：出个皮肤吧

明日方舟：海豹走开！这些干员非酋都在用，你中招了吗？

虎牙携手电信举办PGC线下观赛活动，没想到竟请了他们

虎牙活动线上抢票及其火爆 一众网友没有抢到痛苦哀嚎

虎牙S9：半决赛首场FPX大败IG，总决赛能否直取冠军宝座？

基佬气息扑面而来！《逆水寒》玩家自发组织铁衣选美大赛骚气十足

把握商机走向人生巅峰，学会这几招让你在《逆水寒》新服发家致富

数十款游戏全打通 网易游戏会员开启Beta测试

网易520九大跨界项目集体为热爱赋新

CoreJJ放出豪言壮志：S8要亲手淘汰RNG！

《逆水寒》玩家晒壁纸引官博惊叹，盘点游戏中那些意境绝妙的截图

玩游戏做公益，网易游戏推出助学公益新玩法

让你的心灵得到净化！《逆水寒》这些网红景点一定要去

淋雨竟然还会褪色？《逆水寒》簪花这材料真实得让玩家哭了出来

海外网友热议RNG不敌DMO：狼行是比AJ更菜的上单！MLXG回来吧

LOL：被删掉的召唤师技能只有元老才知晓全部

10.1冷门高胜套路盘点！香炉吸血鬼成上路新宠

10.1版本加强英雄解读！娜美或成软辅霸主

LOL：Faker这几黑点他洗不掉！

10.1月蚀成版本热门！三大适配阵容盘点

至臻卡莎阿卡丽开启兑换！YellowStar重回赛场

10.1新赛季冲分英雄推荐！艾克菲兹成最佳中野

10.1云顶热门阵容推荐：月蚀秘术成上分新宠

新英雄瑟提玩法解读！征服者或为最佳搭档

9.24b韩服四大黑科技！惩戒卡萨丁极速成型

魔兽世界：怀旧服法师要进本，最低限度装备，建议这样选择

《魔兽世界》怀旧祖格头腿附魔效果详解：毕业级早附早享受

正常位全球第二，《魔兽世界》怀旧国服CN公会完成全技能哈卡击杀

LPL最令人失望的战队！DMO连续两局碾压RNG，UZI该背锅？

黑魂风ARPG游戏《致命躯壳》公布三段实机试玩演示

PS5手柄难逃拟人化，给我一对摇杆，还你一位二次元美少女

受德国政府新规限制 科隆游戏展宣布以数字形式展开

Xbox官网惨遭“入侵”疑将推出《赛博朋克2077》限定主机

《骑马与砍杀2》如何获得封地并且安稳自立的一条龙攻略

即时战略游戏《不屈者柯南》Steam平史低促销 售价51元

二战版《炉石传说》？这款创新卡牌，带你回到风云变幻的1940年代

TES德杯全华班阵容，操作拉满的黄金左手与卡萨能走得多远？

接近黄昏而落幕？还是不破不立迎接新生？明年RNG能走到多远？

李宁一切皆有可能？LNG战队新中野组合路漫漫其修远兮

英雄联盟：大招较弱的几位英雄，最后一位到6级都不学大招

明凯转型担任EDG主教练：问7归期未有7，峡谷再无001

冠军，亚军，四强八强十六强的辅助，RNG都有，阿水你心动了吗？

传奇谢幕，Mata宣布退役，星不散，永夺冠，星已散，青春不散

EDG爱德朱用50W抽中了至臻上单，他曾拒绝了RNG邀请

Jackeylove到底去哪了？急得ESPN记者都发布寻人启事了

EDG公布新赛季阵容只出不进，厂长首次执教却巧妇难为无米之炊

眼见他起高楼，眼见他宴宾客，眼见他楼塌了，WE倒了

嘲笑霸哥菜？峡谷之巅霸哥已王者600分，自创绝招谁学谁上分

开启尘封的记忆 DATA EAST 地狱英雄弹珠门这款游戏是存在的

王者荣耀巫术法杖：被遗忘的法术神装

虎牙活动线上抢票及其火爆一众网友没有抢到痛苦哀嚎

数十款游戏全打通网易游戏会员开启Beta测试

受德国政府新规限制科隆游戏展宣布以数字形式展开

即时战略游戏《不屈者柯南》Steam平史低促销售价51元