深度学习实战第四课_教育 _ 頭條網

本文是fastai课程第4课笔记，上来先是前3课学生做的一些优秀笔记：

Improving the way we work with learning rate

The Cyclical Learning Rate technique

Exploring Stochastic Gradient Descent with Restarts (SGDR)

Transfer Learning using differential learning rates

Getting Computers To See Better Than Humans

课程覆盖内容概览，当前在第4课。

Dropout [04:59]

learn:输出我们在卷基层后加入的网络，上面显示的是precompute=True时，我们需要训练的网络层

(0), (4):BatchNorm将会在最后一课讲述

(1), (5): Dropout

(2):Linear 全连接层

(3):ReLU 去除负值

(6): Linear 第二个全连接层，输出为类别数

7): LogSoftmax 通过log提高运算精度

什么是 Dropout 和 p? [08:17]

Dropout(p=0.5)

p代表我们需要随机丢弃的激活层输出，p=0.5 表示我们随机丢弃50%的输出，Dropout是一种防止过拟合的正则化方法。

注意

默认情况下第一层的p=0.25，第二层是0.5[17:54]，如果我们训练中发现过拟合，尝试增大p到0.5，如果还是过拟合则到0.7。

ResNet34 相对来说网络层数少，还不是很复杂，我们可以使用默认的dropout，但是像ResNet50，如果出现过拟合，我们将调大dropout。

为什么我们在实际训练中经常发现val-loss小于train-loss的情况，特别是在训练刚开始的时候？因为我们在做 inference 的时候，dropout=0，即利用了所有信息。

在fast.ai中我们通过参数ps来设置新增网络的层的dropout，我们不会去改变pre-trained网络的dropout，因为这些都是已经训练好的了。

learn = ConvLearner.pretrained(arch, data, ps=0.5, precompute=True)

我们可以设置ps=0，但是会发现训练几个epoch后就会出现过拟合现象(training loss ≪ validation loss)：

[2. 0.3521 0.55247 0.84189]

当ps=0.的时候，Dropout都不会加进模型中：

我们可以发现上面我们默认添加了2个全连接层，我们可以通过参数xtra_fc来控制。

问题：我们是否可以设置不同的dropout，当然可以，通过参数ps来控制。

我们没有什么理论来指导我们是前面的层dropout大还是后面的层大

当我们不确定的时候，我们最好使用相同的dropout

一般只在最后一层设置Dropout

结构化、时序数据学习[25:03]

有两种类别的列数据：类别(Categorical)，一般有不同的level，连续(continuous)，一般是浮点数

像 Year , Month 这种整数，我们可以将其看做连续也可以是类别，如果是类别，那就是告诉神经网络Year的不同值是完全不同的，而如果是连续，则是找到一个函数进行fit，更具体的解释可以看到之前的文章为什么要做one-hot

选择Categorical和continuous是需要在建模阶段做出的决策，一般来说如果数据是Categorical的，那就是Categorical，如果数据是continuous的，我们需要决定是continuous还是Categorical

一般来说，如果值是浮点型，我们很难将其转换为Categorical（我们将类别的数目称为 Cardinality)

Categorical 变量 [50:49]

通过embed方式，我们将DayOfWeek由一个number转换为了一个4维向量。

问题：我们怎么去选择embed size？

上面我们列举出了所有的categorical variable 和它的 cardinality

我们每个类别都加了一个1，目的是如果该列出现空值，可以用0表示

选择 embed size 的经验是：将 cardinality / 2，最大不超过50

emb_szs = [(c, min(50, (c+1)//2)) for _,c in cat_sz]

问题：embeddings 适合所有的 categorical variable 嘛？

假设我们有 600,000 行数据，并且某列特征有 600,000 个不同值，此时是非常不好的 categorical variable。

问题：我们如何处理dates and times类型的数据？

fastai中有个<code>add_datepart/<code>函数，能够将一个时间列转换为多个列。

举个例子来说明这么处理的好处，假设我们发现数据有周期性的特征，在Mondays上升，Wednesdays下降，如果没有dayOfWeek特征，我们很难让网络自己去根据2018-02-23去学习出来，但是有了dayOfWeek就容易很多。

下面总结下整个处理过程：

本文是 fastai 课程的第四课结构化处理部分，欢迎持续关注。

fastai正式版本地址

第四课wiki地址

你的鼓励是我继续写下去的动力，期待我们共同进步，欢迎关注。

Dropout [04:59]

什么是 Dropout 和 p? [08:17]

结构化、时序数据学习[25:03]

Categorical 变量 [50:49]

相關文章:

深度学习：一线教师不可不知的热词。

从“深度学习”看问题设计

复课后该如何学？

高考最终成绩将会比平时成绩高30分，这是真的吗？

复课在即，给老师的建议：阶梯递进、深度学习、补齐短板

2020二建备考计划，掌握方法，事半功倍！

＂无生上课＂式作秀应该停了

在线上授课中决胜高考的法宝——深度学习

高考最终成绩将会比平时成绩高30分，这是真的吗？高三老师告诉你

02.28 耐能刘峻诚编著《深度学习-硬件设计》教科书，被多所名校采用

好“设计”深度学习“不停研”别样防疫

新时代，为学生的“深度学习”而教

深度学习┃深度学习视域下教师关键能力的探析

深度学习┃旨向深度学习的翻转课堂设计

大脑学习需要沉淀的时间

疫期学习，让你的学习效率倍速提升

假期延长了，学霸和学渣的距离拉的更大了

五个核心关键字，评价出一堂常态课的优劣！

实用贴:从课改评课表演变看一所学校课改的迭代升级

11.07 走向深度学习的三个路径

学习金字塔-如何深度学习

小苏享说102：基于学生学习的观课议课

高三小伙三个月理综提升50分的秘密-深度学习

智商碾压？有些人学了知识马上就能赚到钱泡到妞，他们是怎么学的

03.05 为什么要读博士？真相其实不复杂

21世纪人才成长的四大支柱

善待课堂的不完美

「热点关注」与美同行，做最美的自己——南师附中江宁分校2018暑期全员培训

开学季，帮孩子戒掉“手机瘾”！

「热点直播」南师附中江宁分校2018年暑期行政（教研）研讨会（一）

高新区教研智慧发展中心举行“深度学习”教学改进项目案例研讨会

“深入”方能“浅出――一个乡村教师的“深度学习”感受

尚真教育 打造真学问的教师队伍 二师附小开展教师培训活动

06.22 「直通校园」专业成长，永远在路上！——万柏林区气化街小学

05.29 深度学习 促改课堂教学——南流小学召开深度学习培训活动

深度学习 促改课堂教学——南流小学召开深度学习培训活动

05.24 上班族如何选择适合自己的在线教育平台

资源｜用Python和NumPy学习《深度学习》中的线性代数基础

05.14 资源｜用Python和NumPy学习《深度学习》中的线性代数基础

04.27 5岁前，怎么让孩子学会学习？从找规律入手，用1个早教游戏举例！

优秀学生高效学习应当注意的十个细节！！

这就是名牌大学与普通大学区别，孩子你应该懂!

学习，从打开心门开始

「家长必读」10个让孩子提高学习效率方法，很有用！

福建&安徽的小伙伴，也许你一直想上一节这样的课

吴恩达Deeplearning.ai课程学习全体验：深度学习

要对高校教育质量负责！网络答辩不是降低标准的理由

最新！沪2020年普通高等学校招生志愿填报与投档录取实施办法公布

山东高校开学定了！研究生和毕业年级学生自5月16日起开学返校

陕西省：将公布有招生资质中职学校名录

天津：初高中及小学高年级5月18日复课开学，小学低年级段、幼儿园等暂不开学

临沂教育培训机构将重新洗牌，招生大战一触即发

小学低年级必须掌握的量词大全，附识记顺口溜，建议家长收藏

山东高校开学时间确定

鹤壁看郑州，夏初长 你归来 广电南路16号迎来大团圆

山东高校开学时间确定

艳阳高照五月天 逐梦前行正当时

唐山检查初三年级开学准备工作

高三学生迎来复课后首次线下“大考”

山东高校要开学了

重磅！山东高校开学时间确定

莒县第三中学召开2020年春季复学准备暨教学衔接工作会议

山东高校开学时间确定 5月16日起开学返校

山西忻州市第十一中学教师招聘7人启事

山东高校开学时间确定

济宁这6名学生入选国家级奖学金名单

厦门复学后体育课怎么上？保持安全距离可不戴口罩

柳州小学1-6年级开学时间公布！校外培训机构、午托恢复时间也定了→

@大学生，我市多所高校公布返校复课时间，你们准备好了吗？

教育部：努力开发适合毕业生的科研助理岗位

转起周知！天津初高中非毕业班18日开学

秦皇岛昌黎县高端汲养助力教师专业发展

强基计划：华中科技大学今年首招计划不超过120人

哈佛出现财政赤字！美国最“烧钱”的研究生院终于曝光

湖北3地确定初三开学和中考时间

尚真教育打造真学问的教师队伍二师附小开展教师培训活动

05.29 深度学习促改课堂教学——南流小学召开深度学习培训活动

深度学习促改课堂教学——南流小学召开深度学习培训活动

鹤壁看郑州，夏初长你归来广电南路16号迎来大团圆

艳阳高照五月天逐梦前行正当时

百日冲刺促就业万千学子创未来 2020届普通高校毕业生就业“百日冲刺”行动启动

考研云复试准备好了吗青岛多所高校公布分数线