面对众多的数据增强技术，你选哪种？这篇“避雷指南”帮你解决！_健康 _ 頭條網

数据增强是一种与众不同的创建新“数据”的方法。它有两方面的优势，第一是能够从有限的数据中生成“更多的数据”，第二，它避免了过度拟合。

处理有限的数据有其自身的挑战，只有当增强技术加强了当前的数据集时，使用数据增强才能产生积极的效果。我们需要思考的是，训练一个网络用来“学习”颠倒后的地标是否值得？

然而，如果你的数据集包含处方药的图像，那么有很多方向是有意义的，因为理论上这类图像的方向是不固定的。

有很多因素会影响结果，例如数据集的大小、增强技术的效果、批处理大小、图像大小和训练参数等等。本文的目的是说明数据增强对总体精度的影响。后文的推断都是基于以下假设：

1.共1040幅火车图像，选其中208幅进行测试

2.实验采用Fastai方法

3.训练采用莱斯利·史密斯单周期法，即短周期内进行高速学习。其中最大动量为0.95，最小动量为0.85，重量衰减为1e-5。目的是在最快的时间内取得最好的结果，以便能够进行多种不同技术的实验(以下结果并不显示所有的结果)。

4.总数有82个不同的标签,比如说形状、颜色、标记等等。例如胶囊可以有以下标签(胶囊)、(蓝色)、(TEVA)、(多色)、(白色)、(胶囊形状)、(25毫克)等。

5.作者没有上传的10幅图像测试了对增强技术的推测，并计算了准确度和误差率。这是通过检查正确分类标签的数量和不准确分类标签的数量来完成的。大多数论文都关注正确的，但作者还想调查错误标签的数量。

6.结果被分解为1)N：预测的正确标签总数，2)准确性：(n/82)*100，其中82是标签总数，3)E：预测的错误标签总数和4)错误：(e/N)*100

使用Random Rotate（随机旋转）：

变量：以57°的角度随机旋转

准确标签： 55

准确性： 67%

错误标签： 4

错误： 7%

使用Dihedral（二面体）：

变量：转动90度和/或翻转。

准确标签： 51

准确性： 62%

错误标签： 9

错误： 18%

使用RandomLighting：

变量：设置参数b =平衡和c =对比度随机调整。

准确标签： 57

准确性： 70%

错误标签： 12

错误： 21%

使用RandomLighting和RandomDihedral：

准确标签： 52

准确性： 63%

错误标签： 13

错误： 25%

使用RandomDihedral和RandomRotate的组合：

变量：随机二面体与随机旋转27度角

准确标签： 56

准确性： 68%

错误标签： 13

错误： 23%

使用RandomZoomRotate：

变量：3个参数

deg =最大旋转角度，zoom =最大缩放比例，stretch =最大拉伸比例

准确标签： 62

准确性： 76%

错误标签： 8

错误： 13%

使用Padding（填充）

变量：2个参数

pad =顶部，底部，左侧和右侧的填充大小，mode = cv2填充模式的类型

准确标签： 54

准确性： 66%

错误标签： 2

错误： 4%

使用Cutout（剪贴）

变量：2个参数

n_holes和长度，以便在随机位置图像中切出尺寸长度为n_holes的n个孔。这些孔可能重叠。

准确标签： 41

准确性： 50%

错误标签： 9

错误： 22%

结果：

这个项目的目的是要找到最高的精确度和在最短时间内错误次数最少(每10次平均训练时间约为3分钟)，我们可以看到，通过使用各种数据增强技术，加上单周期训练方法，可以更好的了解到不同数据增强技术适合什么样的数据集。

结果表明[RandomZoomRotate]准确标签更多，[Padding（50）]错误标签最少。同理，[Cutout]选择的准确标签最少，[RandomLighting + Dihedral]的错误标签最多。

如果我们将做出正确选择最多的[RandomZoomRotate]和做出错误选择最少的[Padding（50）]结合在一起，会怎么样呢？

变动量：随机旋转、缩放与填充

准确标签： 60

准确性： 70%

错误标签： 6

错误： 10%

最后总结

毫无疑问，[RandomRotateZoom]和[AddPadd]（即Padding（50））的组合效果最好。

数据增强对提高准确性，减少误差方面有着举足轻重的作用。结果表明，并不是所有的增强都能产生良好的效果，因此，对不同的数据增强技术进行初步实验可以帮助我们更好的选择数据增强技术。

相關文章:

【食味百岁】吃出免疫力，对病毒说不！

淇滨区医保中心 数据“多跑腿”，群众少奔波

科普：增强“男人之力”的它，最初是心脏药物？不是在宣传

吃什么有助于“增强”免疫力？看最新综述怎么说

【数据】全国新增10例本土病例，保持警惕！全球确诊超184万

数据：超八成加拿大人担忧疫情冲击医疗系统 90%主动隔离

美国累计新冠确诊超33万，连续14天新增过万&连续7天新增超2万

维生素C的效用

18省份披露“无症状”数据，仍有200余例不知属地

3D影像、虚拟现实……成都智能化影像诊疗让手术更精准

春季养生可护肝，增强“肺气”，百病才可不生！

【数据】全国新增确诊21例，其中境外输入20例

数据：中国以外确诊病例数超过中国国内

新冠病毒最新数据

为什么维生素C不能“增强”你的免疫系统对抗冠状病毒

维生素C能“增强”你的免疫系统对抗冠状病毒吗？

胎宝宝憋尿也会影响B超结果？

你不知道的南京援鄂医疗队“她”数据

传来两个"重磅"数据 钟南山担心的事情还是发生了

03.01 美国的防疫手段：数据、直觉和其他武器，什么才最有效？

02.28 数据：韩国新增确诊病例数首次超中国

肾不好，可以做增强CT吗？做好2点让你降低伤害

战疫进入决胜阶段

抗击新型肺炎，增强“心理免疫力”至关重要

全国各省市三甲医院数量排行榜

英雄凯旋日，全国庆功时

新形冠状病毒的最新数据。

数据“说”糖尿病

11.26 数据：美国电子烟已夺47命 肺疾人数逼近2300人

注意，做多了CT检查有风险，每年不超过这个次数

权威发布——数据“说”肺癌

肝创伤是怎么回事？

富水镇初级中学举办女生青春期健康教育讲座

增强「肝脏」健康的5大天然补品

想要增强腿部力量，做好这几个动作，一个月见效

「数据」中国癌症发病趋势及年龄变化分析

实用干货，增强老年人对邪教“免疫力”

“患者权力”增强，医院该怎样应对

枸杞这样搭配吃，养生功效翻倍，秋季这样吃最好不过了

红色食物最补心，大家来看看补心的食物有那些！

中医透露：男性吃枸杞 可以得到两方面的“增强”

上班族必备的防辐射攻略，你学会了吗？

被扔掉的3种野菜，个个是宝，增强免疫，降三高，知道的人不多！

关于HPV的感染和宫颈病变的现状，数据，以及展望！

绵竹市人民医院：“案例教学法与任务驱动法”拉开了呼吸内科学员培训序幕

蚌埠“战疫记”：总有一些坚守让我们前行

无偿献血进军营——热血涌动双拥情，680人献血159700毫升

返岗第一天干劲满满！363医院援湖北医护回归生活正轨

疫苗离我们还有多远？

你知道茶有多少类吗？快来看看把

大蒜的还有这么重要的功效，请注意多吃远离三高

都认为方便面是垃圾食品，其实这3种食物，尽量少吃多吃也不健康

喝不同得茶有不同得好处，适合自己喝得茶才是好茶

为什么有人吃苦瓜胃疼?一定要引起重视

ACC中国之声丨霍勇教授：中国三级医院急性冠脉综合征患者的血脂管理——DYSIS II ACS Ch

他汀类药物的“肌痛困局”，让基因来破

ACC.20丨循环前哨，调脂治疗前沿探索-权威专家纵横谈（四）

海口有效的治疗白癜风的方法有哪些

蛀牙残冠残根不处理，当心口腔癌

谷雨时节，喝什么茶养生？

装支架前后，家属该做什么？

海口白癜风专家科普:白癜风患者生活小常识有哪些

了解白癜风专业治疗期间要注意什么

NEJM丨无症状比例达87.9%！纽约长老会艾伦医院孕产妇新冠病毒检测

绥芬河入境病例12天呈两位数增长，在俄公民回国需申报健康状况

国家卫健委：昨日新增确诊病例46例，其中10例本土病例

解放军总医院呼吸科专家刘又宁表示：临床发现个别健康人携带病毒

全球确诊突破百万，更可怕的是：8年前就被一位女作家“预言”了

黑龙江新增确诊病例8例，新增境外输入确诊病例14例，活动轨迹公布↘

为什么肝癌如此偏爱中国人，让1亿多国人谈它色变？

4月14日广州市新冠肺炎疫情情况

瑞德西韦中国两项临床试验“叫停”

外籍新冠肺炎患者医疗费如何支付？四部委发布通知

关于疫情，在前人的诗歌中，有这些记载

普通人如何正确保护自己？专家回应来了！

济南无新增，山东无新增

橼在愚舍：肾阳虚导致的冬季怕冷应该如何缓解？

橼在愚舍：手脚冰凉又易累，可能和肾阳虚有关

辽宁省新型冠状病毒相关检测价格项目公布

淇滨区医保中心数据“多跑腿”，群众少奔波

传来两个"重磅"数据钟南山担心的事情还是发生了

11.26 数据：美国电子烟已夺47命肺疾人数逼近2300人

中医透露：男性吃枸杞可以得到两方面的“增强”

面对疫情，有种药叫做（中药）！