最新Kaggle制胜技巧——有限数据下的图像分类

2019-11-04 13:59:45 圖靈聯邦

有限数据下的图像分类挑战是一项含有13个类别的自然图像分类任务。

本文中，Venturebeat的作者Kayo Yin介绍了kaggle的一项挑战——有限数据下的图像分类，最终提交分数为0.97115，在最终排行榜上排名第二。

挑战的第一个难点是缺乏可用的数据：仅有3859张可用于训练的图像。挑战的规则是在训练期间不使用外部数据。

由于数据量少，模型更容易过度拟合而无需学习泛化。

此外，由于这些图像是灰度图像，因此与诸如ImageNet数据集之类的彩色图像相比，它们包含的信息更少，因此，彩色图像上的预训练模型无法直接应用于此任务。

进一步检查数据集后，研究者发现，许多类别的图像在视觉上都包含相似或相同的元素。当这些类别被混淆时，模型将失去了准确性。

首先，数据集的图像尺寸并不相同，因此在将所有图像输入模型之前，要调整它们的大小。超过一半的训练图像的尺寸是256 x 256，所以要将其他图像调整或裁剪到这个尺寸。

研究者还将运用归一化方法。最初，图像表示为像素值从0到255的张量。将每个值简单除以255，得到0到1之间的值。

此外，将对比度拉伸应用于所有图像的图像增强，这将有助于模型更清晰地“查看”图像中的细节。

这些类别也是不平衡的，这意味着每个类别之间的数据量不相等。这将使模型或多或少地都会偏向某些类。

为了解决这个问题，研究者人为地添加了许多的图像，以便不同类别具有相同的图像数量。

为了重新采样，研究者在图像中随机裁剪一个区域来创建新的样本。这是基于“裁剪后的图像将包含与类特征相同元素”的假设。

最后，当深度网络使用大量训练数据很好地执行和泛化时，研究者将对数据进行扩充。其目标是人为地创建包含同类特征的新图像。

研究者使用的方法

迁移学习

因为数据集包含的图像与ImageNet中的图像相似，所以研究者从在ImageNet上预先训练过的CNN模型开始。

其目的是冻结可以捕获通用特征的较低层次的预训练模型，同时对特定领域的较高层次进行微调。

研究者还将最后一层重新定义以输出13个值，每个类一个。

通过对不同数量的冻结层进行试验，发现7个是最好的。研究者还使用了SGD优化器来减轻重量，以防止过度拟合。

学习率调整

为了进一步改善结果并使模型收敛到全局最小值，需要调整学习率。研究者没有通过实验确定最佳学习率，而是选择使用循环调整学习率。

这种方法使学习率呈周期性变化，从而使模型收敛到几个局部最小值，同时也避免了“手工”寻找最佳学习率的需要。

快照集成

集成方法在提高模型整体性能方面非常有效。然而，在计算上，为集成学习分别训练几个不同的模型可能花费较大。这就是研究者选择在循环LR调度中使用快照集成的原因。

快照集成在训练期间定期保存模型的参数。其思想是在循环LR调度过程中，将模型收敛到不同的局部最小值。

因此，通过将模型参数保存在不同的局部最小值处，研究者可以获得了一组为预测提供不同见解的模型。可以在单个训练周期中收集集成的模型。

对于每幅图像，研究者将每个“快照”模型的类别概率预测串联起来，以形成一个新的数据点。然后，将这些新数据输入到XGBoost模型中，以基于快照模型进行预测。

子类决策

在检查单个模型验证集上的混淆矩阵后，研究者发现，它们经常将不同的类别混淆。

例如，研究者发现经常混淆在一起的三个子类：

“房间”：卧室，厨房，客厅，办公室

“自然”：海岸，森林，山脉，野外，高速公路

“城市”：市区，街道，高层建筑

该模型已经非常擅长区分这些子类，但是要想获得良好的性能，模型还需要准确识别子类中的分类。

为此，研究者使用与前面相同的方法，在每个子类上训练三个独立的新模型。

有些类的训练数据很少，因此研究者增加了数据扩充量。研究者还发现了针对每个子类调整的新参数。

在预测过程中，研究者首先使用在整个数据集上训练的模型，然后，对于得到的预测，如果某一类的概率低于某一阈值，就使用相关子类模型预测的类。

抗锯齿处理方法

大多数现代卷积网络，例如ResNet18，都不是位移不变的。

网络输出可能会发生巨大变化，只需对输入进行很小的移动或平移即可。这是因为卷积网络中的跨步操作忽略了Nyquist采样定理和别名，从而打破了位移等方差。

研究者决定采用抗锯齿处理方法。只需在网络的卷积层之后添加一个“ BlurPool”层即可，这是一个模糊滤镜和一个子采样层。

实验结果表明，该方法不仅提高了图像不同移位之间的分类一致性，而且由于具有较好的泛化能力，提高了分类精度。使用经过预训练的抗锯齿ResNet18模型来对挑战的数据集进行微调。

借助抗锯齿处理方法，研究者希望通过将模型推广到图像转换和平移，来克服因数据稀缺而导致的过度拟合。

结果总结

对于所使用的方法可以总结如下:对ResNet18模型进行5个epoch的微调，除了调整大小外不需要任何处理，其测试精度已经达到0.91442。

由于数据和计算量很少，在相关任务上，该模型已经显示出良好的性能，这显示了迁移学习的显著效率。

增加10个epoch的数据扩充和训练，得到了0.93076的测试精度。

这证实了拥有一个大型训练数据集的重要性，它可以以更高的精度来预测没有代表性的的类。这也说明了学习率是模型收敛的一个重要参数。

其次，快照集成在所有数据上训练模型，其测试精度提高到0.95000。

这说明循环LR调度能使研究者通过不同行为的单个训练周期模型获得数据，而XGBoost元学习者可以从预测中提取有用信息。

通过对比拉伸所有图像和特定子类的训练模型，并结合它们的预测，测试精度提高到0.95865。

在对子类的准确分类中，混淆矩阵有了明显改进，尤其是对于“城市”子类。

开发某些类的“expert”模型，并将其与擅长区分子类的模型一起使用，被证明是非常有效的。

最后，在对ResNet18网络进行抗锯齿处理后，将训练集和验证集结合起来，使用所有可用于训练的注释数据，其测试精度提高到0.97115。

抗锯齿是提高泛化能力的有效方法，当图像数据有限时，抗锯齿处理方法尤为重要。

研究者的其他思考

单通道图像

这些图像是灰度的，尽管加载时它们被编码成三个通道，但它们可以表示为单通道矩阵。研究者的想法是，这样的数据降维可以加快训练速度，同时保留所有必要的东西。

研究者还尝试通过其他方式获取集成的模型，例如使用不同处理方法（使用/不使用类平衡，使用不同的图像增强技术，使用不同的数据增强方法）在图像上训练模型，但是这些方法更加昂贵，且没有显著的准确性。

生成对抗网络

如上所述，数据增强和类平衡在模型性能中起着关键作用。除了经典的图像处理之外，生成的模型只能用于合成带注释的数据。例如，DAGAN模型可用于数据扩充，而BAGAN可用于平衡。

灰度ImageNet预训练

提供的数据集图像与ImageNet数据集的自然图像具有相似性，不同之处在于研究者的图像是黑白的。因此，在灰度图像上进行预训练的模型更为重要。

人工图像着色

如果无法获得灰度图像的预训练模型，那么下一个想法就是对图像进行人为着色，希望可以获得更多信息。

GitHub：

https://github.com/kayoyin/GreyClassifier

原文链接：

https://towardsdatascience.com/latest-winning-techniques-for-kaggle-image-classification-with-limited-data-5259e7736327

福利：关注本公众号（ID：turingtopia）

特别推荐

如果您对工业互联网、数据中台、精准营销、智能推荐、人脸识别等业务经验和AI应用感兴趣，就来@派小僧吧！

一线专家给你：

最全面的趟坑总结；

最前沿的实践经验；

最新落地的行业应用案例。

立即关注，一网打尽！

（ID：python_daydayup）

分享到:

閱讀更多 圖靈聯邦 的文章

關鍵字: 分类图像 Kaggle

Python北京空气质量数据处理

Kaggle M5 Forecasting：传统预测方法与机器学习预测方法对比

Pandas Groupby —解释

特征工程（下）「金融风控实战笔记」

kaggle数据下载问题

R 无监督聚类算法（1）K-means和层次聚类

机器学习常用数据集大全

5种高效利用value-counts函数的方法，一键提升数据挖掘姿势水平

Kaggle 比赛中如何划分数据集？

每日一课 Kaggle 练习讲解：House Prices(上)

三项惊人的 kaggle kernel 学习技巧

机器学习中最最好用的提升方法：Boosting 与 AdaBoost

用Python做数据处理需要知道的：6个使效率倍增的 Pandas 技巧

业界｜如何达到Kaggle竞赛top 2%？这里有一篇特征探索经验帖

AI 从业者都应该知道的实验数据集

数据不足时如何做深度学习NLP

数据科学家最需要什么技能？

如何交付机器学习项目：一份机器学习工程开发流程指南

BAT机器学习面试1000题（526~530题）

kaggle实战之AlexNet迁移学习训练猫狗分类器（一）

我参加的第一场Kaggle竞赛！

吴恩达太老派了？这套所有程序员适用的机器学习课火了｜资源

2018年最流行的深度学习框架及学习建议

使用textfeatures自动生成文本数据

机器学习：使用TensorFlow构建LSTM模型详细教程

数据科学101：Python比R更好吗？

送你8个Python高效数据分析的技巧（附代码）

机器学习教程：带你从Kaggle入门到杀入前5%（下）

机器学习教程：带你从Kaggle入门到杀入前5%（上）

Python还能用于医学方面！这就亮瞎了我的钛合金人眼了！深度学习

在茫茫决策树入门帖里，我强推这篇（附可视化图）

kaggle神器：教你简单部署XGBoost

Python即将纳入全国性高考，你还一无所知？

7天速成、免费学习，这套Python入门课我收藏了丨资源帖

使用决策树算法识别用户喜欢或不喜欢的歌曲

如何进行特征选择，避开那些机器学习的“坑”！

使用FeatureSelector实现高效的机器学习工作流程

资源｜Feature Tools：可自动构造机器学习特征的Python库

改进模型架构遇到了瓶颈？你该考虑改善自己的数据了！

5月机器学习TOP 10热文：Google Duplex，“换脸术”、网格单元

模型融合方法介绍

遇见困难不用“怂”，机器学习的“万能药”：决策树

为什么你会选择python

入门｜机器学习第一课：决策树学习概述与实现

通过 Python 入门数据科学（Data Science）

机器学习kaggle比赛—泰坦尼克号获救预测

2017数据科学与机器学习行业现状调查 Python是最受欢迎的语言

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"