04.02 使用Bagging来构建集成分类器

集成学习是将不同分类器组合成为一个元分类器,元分类器与其包含的当个分类器相比,元分类器具有更好的泛化性能。

使用Bagging来构建集成分类器

一、bagging集成分类器

bagging没有使用相同的训练集拟合集成分类器中的单个成员分类器,bagging集成分类器的训练集使用了bootstrap抽样(有放回的随机抽样)。bagging可以提高不稳定模型的准确率,并且可以降低过拟合的程度。

使用Bagging来构建集成分类器

注:抽样后的子集T可以与其他的子集相同,因为是有放回的抽样。

二、对比bagging和决策树的性能

1、计算bagging在训练集和测试集的准确率

使用Bagging来构建集成分类器

2、计算未剪枝决策树在训练集和测试集的准确率

使用Bagging来构建集成分类器

结论:通过对比bagging和未剪枝决策树在训练集和测试集上的准确率可以发现,两个模型在训练集上的准确率都为1,可以发现两个模型都有明显的过拟合现象。但是,bagging的过拟合相对于决策树而言要过拟合的程度要低一些。

三、绘制bagging和决策树的决策区域

使用Bagging来构建集成分类器

使用Bagging来构建集成分类器

总结:通过观察决策树和Bagging的决策边界可以发现,Bagging的决策边界相对于决策树来说来平滑一些。在实际任务中,分类的特征维度会更高,任务会更加复杂,使用单颗的决策树容易导致模型过拟合,Bagging就突出了其优势。Bagging是一种降低模型方差的有效方法。但是,Bagging在降低模型偏差方面作用不大,这也是选择未剪枝的决策树低偏差分类器作为集成算法分类器的原因。


分享到:


相關文章: