03.26 通过网格搜索和嵌套交叉验证寻找机器学习模型的最优参数

在机器学习的模型中,通常有两类参数,第一类是通过训练数据学习得到的参数,也就是模型的系数,如回归模型中的权重系数,第二类是模型算法中需要进行设置和优化的超参,如logistic回归中的正则化系数和决策树中的树的深度参数等。在上一篇文章中,我们通过验证曲线来寻找最优的超参,在这篇文章中,将通过一种功能更为强大的寻找超参的技巧:网格搜索,它可以寻找最优的超参组合,来提高模型的性能。

一、网格(grid search)搜索寻找超参

网格搜索:网格搜索其实是一种暴力搜索参数的方法,它通过我们指定不同的超参列表进行穷举搜索,并计算每一个超参组合对于模型性能的影响,来获取最优的超参组合。下面通过sklearn来实现网格搜索寻找超参

通过网格搜索和嵌套交叉验证寻找机器学习模型的最优参数

通过上面的结果可以发现,当SVM的核为"linear"时,参数C为0.1时,模型获得最好的结果为97.8%。

测试模型在测试集上的准确率

通过网格搜索和嵌套交叉验证寻找机器学习模型的最优参数

网格搜索是一种功能强大的寻找超参的方法,但是由于它在寻找超参的时候使用的是穷举法,需要评估所有的参数组合,所以计算成本也是非常高的。sklearn还提供一种随机网格搜索参数RandomizedSearchCV类,可以以特定的代价从抽样分布中随机抽取参数组合。

二、嵌套交叉验证

通过网格搜索和嵌套交叉验证寻找机器学习模型的最优参数

当我们需要在不同的机器学习算法中进行选择的时候,可以通过嵌套交叉验证来进行选择。在对于误差估计的偏差情形研究中表明:使用嵌套交叉验证,估计的真实误差与在测试集上得到的结果几乎没有差距。

嵌套交叉验证分为外部循环和内部循环,在外部循环中,我们将数据分为训练块和测试块。在内部循环中,我们将训练块分为训练块和测试块,在训练块上使用k折交叉验证,测试块用于对于模型进行评估,通过内部循环来进行模型选择。通过上图可以发现,外部循环由5个模块组合,内部循环由2个模块组成,因此嵌套交叉验证也被称为5×2交叉验证。下面通过sklearn来实现嵌套交叉验证

通过网格搜索和嵌套交叉验证寻找机器学习模型的最优参数

通过嵌套交叉验证来判断决策树的表现性能

通过网格搜索和嵌套交叉验证寻找机器学习模型的最优参数

通过SVM和决策树的嵌套交叉验证结果表明,SVM的模型性能要高于决策树模型的性能。


分享到:


相關文章: