R语言数据挖掘实践——神经网络代码实战

2017-09-06 23:57:05 數據分析和挖掘

下面我们开始运用R语言分析来源于UCI数据库中的关于白酒品质研究的数据集进行算法演示，该数据集是关于白酒中的各项变量对白酒品质的影响情况。

这里将利用该数据集建立出适合的单隐藏层前馈人工神经网络模型，并对所建立的模型进行相应的分析，查看建立模型的预测能力如何。

数据探索

我们先从UCI数据库中下载关于白酒品质的的"winequality-white.csv"数据集，下载地址为：http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/。这里包含了12个变量，其中特征变量11个，结果变来呢为quality变量。该数据库中将白酒品质总共分为1到10这10个等级，本文数据中包含了3至9这7个等级，为了方便分析，我们将白酒品质分为3个等级，其中品质3、4、5为“bad”品质，品质6为“mid”品质，品质7、8、9为“good”品质。分析代码如下：

> wine

> summary(wine)

fixed.acidity volatile.acidity citric.acid residual.sugar chlorides free.sulfur.dioxide total.sulfur.dioxide

Min. : 3.800 Min. :0.0800 Min. :0.0000 Min. : 0.600 Min. :0.00900 Min. : 2.00 Min. : 9.0

1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700 1st Qu.: 1.700 1st Qu.:0.03600 1st Qu.: 23.00 1st Qu.:108.0

Median : 6.800 Median :0.2600 Median :0.3200 Median : 5.200 Median :0.04300 Median : 34.00 Median :134.0

Mean : 6.855 Mean :0.2782 Mean :0.3342 Mean : 6.391 Mean :0.04577 Mean : 35.31 Mean :138.4

3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900 3rd Qu.: 9.900 3rd Qu.:0.05000 3rd Qu.: 46.00 3rd Qu.:167.0

Max. :14.200 Max. :1.1000 Max. :1.6600 Max. :65.800 Max. :0.34600 Max. :289.00 Max. :440.0

density pH sulphates alcohol quality

Min. :0.9871 Min. :2.720 Min. :0.2200 Min. : 8.00 Min. :3.000

1st Qu.:0.9917 1st Qu.:3.090 1st Qu.:0.4100 1st Qu.: 9.50 1st Qu.:5.000

Median :0.9937 Median :3.180 Median :0.4700 Median :10.40 Median :6.000

Mean :0.9940 Mean :3.188 Mean :0.4898 Mean :10.51 Mean :5.878

3rd Qu.:0.9961 3rd Qu.:3.280 3rd Qu.:0.5500 3rd Qu.:11.40 3rd Qu.:6.000

Max. :1.0390 Max. :3.820 Max. :1.0800 Max. :14.20 Max. :9.000

> #将白酒品质分为3个等级

> #设置中间变量对处理后的向量进行临时存储

> cha

> for(i in 1:4898) {

+ if (wine[i,12]>6) cha[i]

+ else if(wine[i,12]>5) cha[i]

+ else cha[i]

+ }

> #将字符型变量转化为含有因子的变量并赋值给数据集wine

> wine[,12]=factor(cha)

> summary(wine$quality)

bad good mid

1640 1060 2198

我们将利用数据集建立出适合的单隐藏层前馈人工神经网络模型。在模型中我们将根据样本白酒的非挥发性酸、挥发性酸、柠檬酸、剩余糖分、氯化物、游离二氧化硫、总二氧化硫、密度、酸性、硫酸盐、酒精度这11个属性来对白酒的品质进行判别。

数据处理

在建立人工神经网络模型之前，我们首先应对数据进行预处理。

作为建立人工神经网络模型的处理方式主要进行数据的归一化。数据归一化方法是神经网络预测前对数据常做的一种处理方法，即将所有数据都转化为[0,1]之间的束，其目的是取消各维度数据间数量级的差别，避免因为输入输出数据数量级别较大而造成网络预测误差较大。

数据归一化的方法主要有以下两种：

1、最大最小法。函数形式如下：

Xk = （Xk - Xmin）/（Xmax - Xmin）

其中Xmin为数据序列中的最小数，Xmax为序列中的最大数。

2、平均数方差法。函数形式如下：

Xk = （Xk - Xmean） / Xvar

其中，Xmean为数据序列的均值，Xvar为数据的方差。

下面采用最大最小法，对于这种0-1归一化方法，我们将通过自写程序对原始数据进行预处理，程序文件命名为“scale01.R”，相应代码如下：

#确定程序名称为scale01

scale01

#提取预处理样本集中特征变量个数

ncol

#提取预处理样本集中样本总量

nrow

#建立用于保存新样本集的矩阵

new

for(i in 1:ncol){

#提取每个变量的最大值

max

#提取每个变量的最小值

min

for(j in 1:nrow){

#计算归一化后的新数据集

new[j,i]

}

new

}

建立模型

nnet()函数在建立支持单隐藏层前馈神经网络模型的时候有两种建立方式，一种是根据既定公式建立模型，而另一种是根据所给的数据建立模型。接下来我们将具体讲述基于上述数据函数的两种建模过程。

根据函数的第一种使用格式，在针对上述数据建模时，应该先确定我们所建立模型所使用的数据，然后再确定所建立模型的响应变量和自变量，具体建模操作如下：

> library(nnet)

> set.seed(71)

> #从总样本集中抽取3000个样本作为训练集

> samp

> #对样本进行预处理

> source("scale01.R")

> wine[samp,1:11]

Error in colMeans(x, na.rm = TRUE) : 'x' must be numeric

> #确定参数rang的变化范围

> r

> set.seed(101)

> #建立神经网络模型

> model1

在使用第一种格式建立模型时，如果使用数据中的全部自变量作为模型的自变量时，我们可以简要的使用"quality~."代替全部的自变量。

根据函数的第二种使用格式，我们针对上述数据建立模型时，首先应该将响应变量和自变量分别提取出来。自变量通常用一个矩阵表示，而对于响应变量则应该进行相应的预处理。

首先要利用class.ind()函数将响应变量处理为类指标矩阵。在确定好数据后还应根据数据分析所使用的各项参数的具体值。对于建立神经网络模型的具体过程如下：

> #提取wine数据集中除quality列以外的数据作为自变量

> x

> #提取wine数据集中的quality列数据作为响应变量

> y

> #对响应变量进行预处理

> y

> set.seed(101)

> #建立神经网络模型

> model2

在使用第二种格式建立模型时，不需要特别强调所建立模型的形式，函数会自动将所有输入到x矩阵中的数据作为建立模型所需要的自变量。在上述过程中，两种模型的相关参数都是一样的，两种模型的权重衰减速度最小值为5e-4；最大迭代次数都为200次；隐藏层的节点数都为4个；最终我们建立出来的模型是一个11-4-3的神经网络模型，即输入层是11个节点，隐藏层是4个节点，输出层是3个节点。

结果分析

我们使用summary()函数查看结果。

> summary(model1)

a 11-4-3 network with 63 weights

options were - softmax modelling decay=5e-04

b->h1 i1->h1 i2->h1 i3->h1 i4->h1 i5->h1 i6->h1 i7->h1 i8->h1 i9->h1 i10->h1 i11->h1

-52.03 -0.03 0.75 0.01 -0.02 0.39 0.00 0.00 53.67 -0.18 -0.24 -0.05

b->h2 i1->h2 i2->h2 i3->h2 i4->h2 i5->h2 i6->h2 i7->h2 i8->h2 i9->h2 i10->h2 i11->h2

2.42 -0.60 -4.12 2.12 -0.24 17.76 -0.06 0.02 7.41 -4.60 1.53 0.28

b->h3 i1->h3 i2->h3 i3->h3 i4->h3 i5->h3 i6->h3 i7->h3 i8->h3 i9->h3 i10->h3 i11->h3

-8.64 -11.41 0.41 -4.39 -17.36 0.07 -19.32 4.77 -8.63 0.38 13.47 -10.25

b->h4 i1->h4 i2->h4 i3->h4 i4->h4 i5->h4 i6->h4 i7->h4 i8->h4 i9->h4 i10->h4 i11->h4

22.81 16.27 -9.61 -66.33 -9.52 7.77 -5.45 0.51 22.76 9.51 -15.32 -6.63

b->o1 h1->o1 h2->o1 h3->o1 h4->o1

-13.58 27.08 6.70 -0.23 1.08

b->o2 h1->o2 h2->o2 h3->o2 h4->o2

12.61 -26.27 -16.02 0.75 -0.76

b->o3 h1->o3 h2->o3 h3->o3 h4->o3

0.97 -0.81 9.32 -0.53 -0.33

通过summary()函数我们可以得到关于模型的相关信息。在输出结果的第一行我们可以看到模型的总体类型，该模型总共有三层，输入层有11个节点，隐藏层有4个节点，输出层有3个节点，该模型的权重总共有63个。

在输出结果的第二行显示的是模型中的相关参数的设定，在该模型的建立过程中，我们只设定了相应的模型权重衰减最小值，所以这里显示出了模型衰减最小值为5e-4。

接下来的第三部分是模型的具体判断过程，其中的i系列代表的是输入层的11个节点，h系列代表的是隐藏层的4个节点，而o系列代表的是输出层的3个节点。对于b，我们可以将它理解为模型中的常数项。第三部分中的数字代表的是没一个节点向下一个节点的输入值的权重值。

预测判别

通常我们利用样本数据建立模型之后，主要的目的都是利用模型来进行相应的预测和判别。在利用nnet()函数建立的模型进行预测时，我们将使用predict()函数对模型进行预测。

在使用predict()函数时，我们应该首先确认将要用于预测模型的类别。由于我们在建立模型时有两种监理方式，而利用predict()函数进行预测的时候，对于两种模型会存在两种不同的预测结果，所以我们必须分清楚将要进行预测的模型是哪一类模型。具体操作如下：

针对第一种建模方式所建立的模型：

> #确认需要进行预测的样本特征矩阵

> x

> #根据模型model1对x数据进行预测

> pred

> set.seed(110)

> #随机挑选8个预测结果进行展示

> pred[sample(1:4898,8)]

[1] "bad" "mid" "good" "mid" "mid" "mid" "mid" "mid"

在进行数据预测时，我们主要注意的问题就是必须保证用于预测的自变量向量的个数同模型建立时使用的自变量向量个数一致，否则将无法预测结果。在使用predict()函数进行预测时，我们不用刻意去调整预测结果类型。通过上述预测结果的展示，我们可以看到predict()函数在预测时会自动识别预测结果的类型，并自动生成了相应的类别名称。相对来说，利用第一种建模方式建立的模型在预测时较为方便。

针对第二种建模方式所建立的模型：

> #确认需要进行预测的样本特征矩阵

> xt

> #根据模型model2对xt数据进行预测

> pred

> #查看预测结果维度

> dim(pred)

[1] 4898 3

> #随机挑选4个预测结果进行展示

> pred[sample(1:4898,4),]

bad good mid

[1,] 0.7883393 0.010327155 0.2200430

[2,] 0.4667784 0.063874484 0.4121678

[3,] 0.1170516 0.415681237 0.5202564

[4,] 0.8431664 0.007020471 0.3159719

通过predict()函数对第二种模型进行预测，我们可以的看到预测结果是一个矩阵，而不像第一种模型那样直接预测出模型中类别的名字。

在随机挑选的4个预测结果中，我们可以看到每个样本对应3种类别分别有3个数字，而这3个数字正是3个输出结果的输出值。这3个数的求和大约是等于1的，所以我们又可以将它简要地看作概率，即样本为其中某一类别的概率，对于样本类别的判别则为概率最大的那一类。

因此对于上述预测结果我们需要将其进行进一步处理，处理之后才能直观地看出样本的预测类别。对于预测结果pred的处理，具体过程如下：

> #为3个类别确定名称

> name

> #确定每行中最大值所在的列

> prednew

> #根据预测结果将其变为相对应的类别名称

> prednewn

> set.seed(201)

> #随机挑选8个预测结果进行展示

> prednewn[sample(1:4898,8)]

[1] "mid" "bad" "mid" "bad" "mid" "mid" "mid" "bad"

通常在进行预测之后，我们还需要检查模型预测的精度，这便需要用到table()函数对预测结果和真实结果做出对比展示。过程如下：

> #确定真实值的每行中最大值所在的列

> true

> #模型预测精度展示

> table(true,prednewn)

prednewn

true bad good mid

1 1088 8 544

2 80 175 805

3 535 93 1570

通过观察table()函数对模型预测精度的展示结果，我们可以看到在模型预测时，模型将所有属于属于bad品质的白酒中的1088个样本预测正确，但将另外8个样本预测为good品质，并且将544个样本预测为mid品质；模型将所有属于good品质的白酒中的175个样本预测正确，但将另外80个样本预测为bad品质，并且将805个样本预测为mid品质；模型将所有属于mid品质的白酒中的1570个样本预测正确，但将另外93个样本预测为good品质，并且将535个样本预测为bad品质。

模型差异分析

在利用nnet()函数建立模型的过程中，其中参数Wts的值我们通常默认为原始值。但是在nnet()函数中，参数Wts的值在建立模型的过程中用于迭代的权重初始值，该参数的默认值为系统随机生成，换句话说，我们每次建立模型所使用的迭代初始值都是不相同的。因此我们再实际建模过程中会遇到这样的现象：我们用同样的数据，采取同样的节点数，设定同样的参数，但是最后会得到两个不同的模型，甚至是两个差异非常大的模型。

为了具体介绍该问题，我们先使用iris数据集进行举例，首先我们利用下列语句建立模型model1以及模型model2，具体代码如下：

>library(nnet)

>set.seed(101)

>#建立模型model1

>model1

>#建立模型model2

>model2

从建立模型的语句观察，我们发现两个模型应该是一样的模型，但是通过对其进行具体分析，我们将发现两个模型存在很大的差异，接下来我们从三个方面对模型差异进行分析。

1、模型是否因为迭代次数达到最大值而停止

如果模型的不同是因为建立模型时迭代次数达到最大值而停止迭代所导致的，那么我们可以直接改变迭代的最大次数来使模型变得更加精确。具体查看方式如下：

>查看model1的迭代过程中是否达到迭代次数最大值

> model1$convergence

[1] 0

>查看model2的迭代过程中是否达到迭代次数最大值

> model2$convergence

[1] 0

从输出结果中我们可以看到，两个模型的迭代结果值都为0，这说明了再建立模型的过程中，迭代的停止并非是因为模型的迭代次数达到了最大迭代数。所以说明模型的最大迭代次数并不是影响两个模型不同的主要原因。

2、模型迭代的最终值

模型迭代的最终值即为模型拟合标准同模型权重衰减值的和。在模型的输出结果中，主要包含在模型的value中，该值越小说明模型拟合效果越好。我们对模型迭代的最终值的观察过程及结果如下：

>#查看模型model1的迭代最终值

> model1$value

[1] 3.198636

>#查看模型model2的迭代最终值

> model2$value

[1] 2.598032

从输出结果中我们可以看到，两个模型的迭代最终值差异并不是很大。

因此对于因为初始迭代值不同而导致的模型不同的情况，我们可以使用该结果值来进行判断，我们应该多运行几次nnet()函数，而选择所有模型中该结果值最小的一个模型作为最理想的模型。

3、观察两个模型的预测结果

人工神经网络模型的预测效果是该模型最终最核心的作用，所以对于两模型差异的情况，我们必须对模型的预测能力做出分析。

如果两个模型在预测能力上显示不出任何差异，那么我们讨论两个模型不同也就失去了意义，因为我们所追求的就是模型的预测能力，所以在模型的差异问题上，我们最关心的也是两个模型的预测能力的差异。观察过程及结果如下：

> #为三个类别确定名称

> name

> #对模型model1进行预测

> pred1

> #对模型model2进行预测

> pred2

> table(iris$Species,pred1)

pred1

setosa versicolor virginica

setosa 50 0 0

versicolor 0 49 1

virginica 0 0 50

> table(iris$Species,pred2)

pred2

setosa versicolor virginica

setosa 50 0 0

versicolor 0 49 1

virginica 0 0 50

优化建模

在以上对nnet()函数的特别问题分析之后，我们了解到用相同数据相同参数建立的模型有可能不是最优模型。那么，应该怎么做才能得到最优模型呢？

针对这个问题，如果在时间和条件允许的情况下，我们可以多运行几次模型，并从中挑选出针对于测试集样本误判率最小的模型。

首先，要确定出隐藏层最优节点的数目。之前已经介绍了对于人工神经网络模型中隐藏层的相关确定条件，但是在实际模型构建过程中，仍需要尽可能地测试每一节点数目下模型的误判率，以确定最优的模型误判率。实现代码如下：

> wine

> set.seed(71)

> wine

> nrow.wine

> source("scale01.R")

> #设置中间变量对处理后的向量进行临时存储

> cha

> for(i in 1:4898) {

+ if (wine[i,12]>6) cha[i]

+ else if(wine[i,12]>5) cha[i]

+ else cha[i]

+ }

Error in if (wine[i, 12] > 6) cha[i] :

missing value where TRUE/FALSE needed

> #将字符型变量转化为含有因子的变量并赋值给数据集wine

> wine[,12]=factor(cha)

> set.seed(444)

> #从总样本集中抽取70%的样本作为训练集

> samp

> #对训练集样本进行预处理

> wine[samp,1:11]

> wine[-samp,1:11]

> #确定参数range的变化范围

> r

> n

> err1

> err2

> for(i in 1:17){

+ set.seed(111)

+ model

+ err1[i]

+ err2[i]

+ }

> plot(1:17,err1,'l',col=1,lty=1,ylab = "模型误判率",xlab="隐藏层节点个数",ylim=c(min(min(err1),min(err2)),max(max(err1),max(err2))))

> lines(1:17,err2,col=1,lty=3)

> points(1:17,err1,col=1,pch="+")

> points(1:17,err2,col=1,pch="o")

> legend(1,0.53,"测试集误判率",bty = "n",cex=1.5)

> legend(1,0.35,"训练集误判率",bty="n",cex=1.5)

经过上述程序运行之后，将得到关于样本集在不同的隐藏层节点数下所对应的模型误判率。从图中我们可以清楚地看到，训练集样本错误跟随隐藏层节点数的增加而下降，但是与此同时，测试集样本错误却未随着隐藏层节点的增加而下降，这种现象便是由于模型中隐藏层节点数增加而引起的模型过度拟合导致的。

从图中可以看到，模型针对测试集误判率大概在模型隐藏层节点数为3的时候取到最小值，所以我们将隐藏层节点数数确定为3。

从前文中我们分析到，当神经网络模型训练周期过长的时候，建立的人工神经网络模型将会记录下训练集中几乎全部信息，这将会产生过度拟合的问题。即该模型针对于训练集的时候将会体现出非常优异的预测能力，但是由于该模型记录下了训练集中的全部信息，则该模型也将训练集中的许多特有的信息记录下来，所以当模型用于其他样本集的时候，模型的预测能力将会大大下降，即模型的泛化能力非常弱。

在确定最优隐藏层节点数的时候，接下来确定出最优的迭代次数，实现代码如下：

>err11

>err12

>for(i in 1:500){

+set.seed(111)

+model

+err11[i]

+err12[i]

> plot(1:length(err11),err11,'l',col=1,ylab = "模型误判率",xlab="训练周期",ylim=c(min(min(err11),min(err12)),max(max(err11),max(err12))))

> lines(1:length(err11),err12,col=1,lty=3)

> legend(250,0.47,"测试集误判率",bty = "n",cex=1.2)

> legend(250,0.425,"训练集误判率",bty="n",cex=1.2)

R语言数据挖掘实践——神经网络代码实战

从上图可以看到，模型针对于训练集和测试集的误判率均同时随训练周期的增大而降低，之前也讨论到当模型训练周期过长时，模型应该会出现过度拟合的问题，即在训练周期达到一定程度时，测试集误差将会反向变化，训练集误差将会随着模型训练周期的增大而增大。

对于这个问题，是用R语言进行模型构建时会经常遇到，但这并非说明理论出现了错误。对该问题进行进一步分析可以得知出现该问题存在着两个原因。

首先，在nnet程序包中，函数在构建模型时将会设定一个条件值以避免函数进入死循环。即在默认情况下，当函数计算值变化为零时模型将会停止运转，所以很多时候模型将不会运行到过高的训练周期。

其次，由于训练集样本同测试集样本的相似度过高，所以训练集中的特征同样为测试集中的特征，所以即使在过度拟合的情况下，所构建的模型同样能很好地适用于与训练集相似度很高的数据集。

尽管会出现上图中的问题，但是该图像仍然具有一定的参考价值。从图中可以发现，训练集误差随着训练周期的增大而不断减小；但是对于测试集，当训练周期达到一定程度后，模型的误差率将会趋于平稳，模型的误判率将不再下降。所图中的情况，我们综合分析决定将模型的训练周期确定为300。

因此，最终得出的模型为隐藏层节点数为3，训练周期为300，对于最新抽取的样本集中，在随机数生成器初始值为111情况下的人工神经网络模型。

>set.seed(111)

>model

> #根据需要进行预测的样本特征矩阵

> x

> #根据模型model对x数据进行预测

> pred

> table(wine[-samp,12],pred)

pred

bad good mid

bad 237 5 51

good 20 59 109

mid 177 35 207

数据统计的理解和运用（二）t检验的应用

数据统计的理解和运用（一）思路篇

大佬新作dtplyr:当优秀的语法遇上牛批的速度

R爬虫小白入门：Rvest爬链家网+分析（三）

R语言中文社区2018年终文章整理（作者篇）

一图胜千言：用好图表，好好说话

R语言——保存图片

R语言——apply族的其他几个兄弟

R语言实现基本统计分析之t检验

备受推崇的《R语言实战》真的值得如此好评吗？

「R语言实用技巧」类别变量的顺序自定义设置

多元线性回归预测：餐馆营业额与多因素实战

R语言——公式还原到源数据

R语言——手工做个线性回归模型

R语言——广义逆矩阵能怎么用咧

R语言——画曲线和网格线

Graphpad Prism 8.0绘制小提琴图

2018大盘点｜R语言中文社区十大火爆文章

R语言——判断向量是分类还是连续数值

R语言——数值预测的一些评价指标

教你不做实验的发文章技巧：入门Meta分析

10.13 工作中人们常提到的数据预处理，说的到底是什么？

社科文献一周新书单（2018.8.27-8.31）

北京西城城管案件聚类分析算法

城管案件聚类分析——以北京西城为例

聚类分析原理及R语言实现过程

高分论文分析方法—判别分析原理及R语言实现

Python之父愤然退位：再也无法忍受他们鄙视我的意见

独家｜一文解析统计学在机器学习中的重要性（附学习资源）

ICML 2018｜腾讯AI Lab详解16篇入选论文

暑期课程优惠！

异步社区本周半价电子书

文科僧学习大数据，我告诉你点秘密

TIOBE编程语言榜：C语言持续暴涨，有望赶超Java

学R，别再看那些古董级的中文书了

学者必备！8大免费又实用的科研利器，总有一款适合你！

大数据告诉你我国什么地方是吃货聚集地R语言代码讲解

大数据告诉你我国什么地方吃货最多，快来看看你们所在城市怎样

数据分析课程大促销

TCGA单元课解禁，回关键字得课件

金融数据分析师成长必修课，零基础学习数据分析和金融风控建模

10.25 用R对PVD Rdson偏高的问题进行数据分析

R语言数据特征分析——统计量分析

R语言数据挖掘实践——社交网络分析利器igraph

编程语言的选择与穷或富裕之间的小秘密

R语言数据挖掘实践——神经网络代码实战

R语言3种数据分析方法，搬好板凳，记笔记了！

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

刚刚:刚刚工作的毕业生，一个月只有2000多，是不是太少了？根据你城市消费水平来看啊，还有你从事的工作，假如你在二三线城市做一份事业单位或者是编制类的工作，薪资水平是随着你工作年限逐年增长的，而且在年终也有很多福利补贴待遇等等，算下来收入也是可观的，再举一个例:-毕业生 2000

为什么只有edg赚钱？

电竞行业作为一个新兴产业，这几年发展势头越来越好，IG战队，FPX战队先后夺得了s8-s9世界赛的冠军，据俱乐部知情人士透露，除了国内的几家豪门俱乐部之外，其他俱乐部基本都是亏钱在做的，当然EDG也是:-edg 赚钱:为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

20000:网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？天猫旗舰店，或者淘宝旗舰店，或者京东旗舰店肯定包真，质量好，再说可以官方验证啊，不能图那十块五块的便宜，毕竟一个充电宝要用好久呢，一两年没问题的。:-罗马仕马仕毫安

我们买的新商品房还没有拿到房产证，怎么转卖最好？

没有取得房抄产证的房子可以转让。但如果确定无法取得房产证的，房产转让不受法律保袭护。一般情况下，只有取得房产证的房屋才能确定房屋产权人，才具有转让的条件。但如果房屋是合法取得的，以百后可以依法办理度房:-转卖房产证商品房拿到:我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

锋利突厥人你这样说只能说明你对历史非常不了解，我先用一句话概括突厥被大唐雄兵打的有多惨：三次灭国，背井离乡，远赴西亚，打不过，俺躲着你还不行吗？突厥的意思是中间怂起的头盔。其来历已经不可靠，可能有着匈奴、鲜卑或:-复国大唐:为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

小高层 60:小高层16层高楼间距60米哪一层比较好？首先需要明白，选择层数居住与楼间距毫无关系，住在哪一层，肉眼看对面楼的距离，是相差不大的。设定楼间距60米，纯粹是混淆视听。其实，一幢楼的楼层总数确定的情况下，到底哪一层最佳？很简单，取总层数乘以黄金:-楼间距层高

金银花盆栽好养吗？怎么养？

金银花可以盆栽，很好养的！金银花，是忍冬科的常绿缠绕灌木，枝条柔韧修长，多攀爬或匍匐生长。金银花生性强健，在我国的很多南方省份野外很多地区都能看到它的身影，叶子常年翠绿，到夏季开花，飘香四溢。所以，有:-金银花盆栽:金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

长城真的无用吗？在今天许多人认为长城无用，古代国家举国之力建造的长城不过只是文物，就连康熙都曾作诗讽刺，原文如下：万里经营到海涯，纷纷调发逐浮夸。当时用尽生民力，天下何曾属尔家。-康熙但真的如此吗？小:-匈奴抵御长城:长城对于抵御古代匈奴和蒙古人起到了多大作用？蒙古人

什么树可以嫁接腊梅？

腊梅只能嫁接在不同品种的腊梅上，其他的树种不行！腊梅的繁殖可以用播种，压条，嫁接，分株等繁殖方法。播种法因不易保持花卉的原有优良特性，且播种的优点是在于大量繁殖，而腊梅大都只需培植少量几株，故一般都不:-腊梅嫁接:什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

堪忧五一假期:行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？事实上，因为教育培训都是预收费用的模式。但凡有一点点规模的培训机构老师。在上半年，带课量是可以得到保证。:-课时量

在农村“立夏节”都有哪些民间习俗？

民间习俗农村:在农村“立夏节”都有哪些民间习俗？在农村“立夏节”都有哪些民间习俗一、农村立夏常见的习俗风俗活动：1、吃鸡蛋“立夏吃蛋”习俗由来已久，俗话说“立夏吃了蛋，夏天不疰夏”。据说立夏开始天气越来越热，村里小孩儿会有身体疲劳四肢无力的感觉，吃:-立夏节

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

失望分手看法:男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？你的这个问题特别的有趣，我觉得你先不要看你要怎么做才让他才能让他对你的印象有所改变，你要去看为什么是两个月之后可以在一起，这两个月他会用来做什么，为什么会有这两个月？例如他的身体碰到了什么样的问题吗？:-答应我

工程分包乙方人员伤残谁承担？

承担:工程分包乙方人员伤残谁承担？分包乙方分包致人伤残责任谁承担？严格来说，需要了解更多伤残原因才能区分的，作为非专业人士，自己发表一点浅见供题主参考：1、如果甲方是央企的话，他们合同中的责任、义务等条款内已经将自己的责任全部撇开了，更会:-乙方伤残

有哪些看起来毫不相关的两个历史人物实际上有过联系？

实际上:有哪些看起来毫不相关的两个历史人物实际上有过联系？历史人物联系这个词貌似太宽泛了，就好像有一个调皮的答案说的，胡亥和溥仪相隔2000多年，牵强的找，也有联系：都是亡国之君不是。我想题主的意思是两个看起来应该风马牛不相及的人物，在历史上居然是熟悉或是一个时代的:-毫不相关

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

法系车不保值，如果准备常开可以入手，性价比高，价格应该在二至三万之间，二手车一车一况，一况一价，居体价格看车况。:-钱能水泡:13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？世嘉自动挡

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

17年驾驶证二手:22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？建议买日系二手车，开顺了卖了，买新车，昂克赛拉无法再次出手时获得好价格，而且也不省油，开完日系车直接换德系:-昂克赛拉

如何骑车去台湾骑行？

骑车在台湾没有回归内地前，最好不要去台湾，一是国内政策不允许你去台湾，因为已停止了台湾个人游。二是你偷着去台湾旅游，安全没有保障，偷渡客在哪里也没有安全保障的。以后内地政策允许个人去台湾旅游了，建议那时再:-骑行台湾:如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

预算:本人预算5万左右，想买一辆二手法系车！求推荐？ 5万预算5万元左右，想买一辆二手法系车？推荐东风标致老款308车型。1 5万元可以买标致308车况好的，没大事故呢，年限15年左右，公里数3万左右，手动档车型。2 标致308车型，底盘调教扎实，跑高速稳定:-法系二手

14年进口马自达5PK进口10年道奇酷威买哪个划算？

道奇你好，好高兴回答你的问题！14年进口马自达5和10年月道奇酷威个人感觉马自达5比较划算。新车价马5报价29.99万，酷威19.38万两款车都是原装进口，马5属于日系，酷威属于美系。两款车不属于同类车型:-酷威马自达 14年:14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

特殊津贴高校人才就要重视，河南省高校人才更要重视，这个人才不是评出了的，而是推荐出来的，没有推荐，连参评的资格都没有。国务院特殊津贴人员推荐，不推荐是百分百没希望，推荐了希望就非常，那么是什么是国务院特殊津贴:-河南大学并列 2020年:2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

李老猫说车为你非专业解答各种选车用车问题本田crv定位于一款紧凑级suv产品，主要对飚丰田荣放，日产奇骏，这款车整体市场表现非常突出，2019年全年累计销量为18.44万台，平均月销1.5万以上，其深:-舒适版本田油耗:本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

1.世界经济遭到重创疫情影响之下，各行各业基本属于停工停产的状态，在世界经济趋于一体化的今天，停工停产势必会造成一系列的连锁反应，最后导致的结果可能会引发金融危机。2.世界格局可能发生改变美国仍是世界:-头脑风暴控制:国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？疫情国外

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

如果有15万元的预算，让你选择一台空间和动力都很不错的小型SUV，我觉得很多的读者都会想到本田XRV这款车型。因为本田XRV确实太出色了，和同级别的其他盒子SUV车型相比，这款车在空间和动力上都有优势:-xrv 自动:本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？本田豪华版

现在存款有14万，借了5万还没收回来，该做什么好？

何去何从:现在存款有14万，借了5万还没收回来，该做什么好？续租存款利息率较低，可以投资较高收益的项目，比如投资基金，一般情况下可获得6%一10%的回报。如果行情好可达到50%以上收益，去年不少基金超过这目标。目前受疫情影响，股市在低位震荡，也是基金投资的机会。一:-存款 2300

2070super和5700xt买哪个比较好？

如果是玩游戏毫无疑问选择n卡，也就是2070 suep。如果追求性价比可以选择a卡，也就是5700xt. 为什么游戏选n卡呢？首先游戏厂商针对n卡优化比较多，然后就是功耗小，然后N卡架构执行效率极高，:-:2070super和5700xt买哪个比较好？

生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？

二胎我是两个孩子的妈妈，曾经的我和你一样，生完宝宝我也抑郁了，我知道抑郁症真的很痛苦，产后的那段日子我整天都不开心，做什么事也没积极性，谁也不想搭理，别人给我说话我就觉得很烦。忍不住冲家人发脾气。每当一个:-生完抑郁:生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？发火

人这一生遇到的人和事为什么感觉都像是必然的经历？

感觉:人这一生遇到的人和事为什么感觉都像是必然的经历？正所谓有因必有果，所以你今天的因，就会产生明天的果。所以这一切你就会觉得是必然的。生活中大部分是普通人大家的生活规律，生活方式，大致相同。当你看到别人家庭的果，自己家也产生同样的果，你就会觉得这一切是:-人和经历

现在校内校外到底教的是美式英语还是英式英语还是混搭英语？

校内:现在校内校外到底教的是美式英语还是英式英语还是混搭英语？校外英式答案肯定是不唯一的！美式英语现在是主流，少量英式发音也个别存在！但对于孩子来说，肯定是混搭英语，因为孩子肯定不是一直一位老师教下去，肯定会换老师！而老师的发音肯定是既有英式的，也有美式的！就连一些英语:-美式英语

上有老下有小，我们真的跳不出这个人生循环了吗？

上有老魔咒:上有老下有小，我们真的跳不出这个人生循环了吗？的确如此，尽管现在不结婚，晚婚的人很多，但是从人类繁洐生息的历史和大多数人来看，成家立业，生儿育女，家庭仍是主流，一个人的生理，心理和生存需求決定了生存状态，生儿育女，瞻养父母即是义务责任，也是生活动:-下有小

如果外面正在下小雨，你会突然想起了谁？

想起:如果外面正在下小雨，你会突然想起了谁？我最不忘，还是秋日的雨夜，天又凉了几分，已经需要披上一件薄薄的外套了。临窗而望，眼见窗台上的几株小植物，叶片上沾了几滴小雨珠，我总喜欢，用小手电去照它们，这样的小水滴看起来晶莹晶莹的，有一种清清凉凉的:-小雨

初中同学许久未见大学期间突然联系请吃饭，态度还良好，我给推了，会不会让人很烦？

初中同学:初中同学许久未见大学期间突然联系请吃饭，态度还良好，我给推了，会不会让人很烦？吃饭许久未见，意思就是交情不怎么样，无功不受禄，人家凭什么那么热情，难道真的是多年一来忘不了咱们之间的同学情谊，倍感想念了吗，不是请帮忙、做业务、就是借钱，十有八九十借钱。我建议还是不要去的好，大家都很忙:-许久未见

现在我觉得认真对某个人说我喜欢你什么的这种话好恶心，我爱你更说不出口，好恶心，是什么心理？

出口心理:现在我觉得认真对某个人说我喜欢你什么的这种话好恶心，我爱你更说不出口，好恶心，是什么心理？爱你更多的是心里问题，可能对方还没有优秀到你满意的程度，更没有到那种离不开的地步！爱情最终还是要回归生活，而生活离不开两个人的相处，父母终究会老，孩子终究会飞，所以选择自己的伴侣尤为重要，你现在觉得恶心更:-喜欢你

剧版的《何以笙箫默》和《再见王沥川》哪一个更好看呢？

再见王沥川好看:剧版的《何以笙箫默》和《再见王沥川》哪一个更好看呢？《遇见王沥川》吧，高以翔的王沥川太招人稀罕了。长相，身材，家世，人品，才能样样好，简直完美，挑不出任何毛病，实在要说一个缺点的话，那就是太tm完美，天妒英才、才让他饱受病魔折磨。偶像剧、深情帅气的男主:-何以笙箫默

计算机专业本科能够进入字节跳动、华为这些公司做开发吗？是否还需要继续读研？

学历是求职必备条件。有了工作不能停止对知识的探索。更高的学历，可以让你有更专业的技术能力和学习能力，可以让你拓展自己的交际圈，可以让你更知名。总之，活到老，学到老，学习对人总是有好处的，技多不压身嘛！:-字节跳动:计算机专业本科能够进入字节跳动、华为这些公司做开发吗？是否还需要继续读研？读研计算机专业

生完二胎的你们，现在有什么感想？

二胎家庭日常是什么样的？是不是觉得家里多了一个小人儿，温馨多了？不存在的！生二胎根本是妈妈们的渡劫磨砺！以前周末睡到自然醒，现在全年无休，时刻警醒着，能睡一次懒觉跟过年似的，黑眼圈不说，头发呼啦啦地掉:-生完二胎感想:生完二胎的你们，现在有什么感想？

华北适合种植蚕豆吗？

华北适合种植蚕豆，种蚕豆的面积大，在西北，华北，都在种植蚕豆，蚕豆茎秆根部有根瘤菌是种植其它农作物的好茬地，特别是土壤培养和防病虫害起到作用。:-蚕豆种植适合:华北适合种植蚕豆吗？华北

华为手机更新EMUI10.1系统后效果咋样？

大家知道现在智能手机的性能不仅仅跟智能手机的硬件有关，还跟智能手机的系统软件息息相关，在国产智能手机操作系统里，小米的MIUI系统跟华为的EMUI系统都是比较优秀的操作系统。最近小米推出了小米MIUI:-咋样华为华为手机更新:华为手机更新EMUI10.1系统后效果咋样？

大热天蜜蜂老是爬到箱外结群正常吗？

蜜蜂爬到:大热天蜜蜂老是爬到箱外结群正常吗？盗蜂现在正是夏季，很多地方蜜源稀少，蜂群中可能缺蜜，也是胡蜂猖獗的时间，所以蜂群中是非常容易发生盗蜂的。在蜂群中发生盗蜂的时候，蜂群守卫蜂会增多，但是这种情况引发的蜜蜂在蜂箱外一般不会结团，只是蜜蜂来:-大热天

辣椒正是生长最佳期，偏偏有的辣椒苗蔫，不是病虫害是咋回事？

最佳期雾都山客来回答您的问题。最近山客家乡的村民正在进行辣椒移栽，确实有像题主提到的情形，辣椒苗移栽前长势葱葱，嫩绿喜人，但是移栽后几天内就出现萎蔫现象，细心观察也不是被病虫害危害。那究竟是什么原因导致辣椒:-苗蔫辣椒咋回事:辣椒正是生长最佳期，偏偏有的辣椒苗蔫，不是病虫害是咋回事？

手机相机发展的最终形态会是怎样的？

最近这几年手机在电子产品行业里可谓是发展速度非常快，苹果和华为两大公司可以说也是，明争暗斗，产品一次比一次有卖点，前一段时间华为和苹果还都推出了手机新品，两家都在大力宣传强调着拍照功能，像iPhone:-形态相机手机最终:手机相机发展的最终形态会是怎样的？

华为为什么不出一款5寸全面屏手机呢？我想应该会有很多人支持吧？

5寸手机支持:华为为什么不出一款5寸全面屏手机呢？我想应该会有很多人支持吧？很高兴回答你的问题，刷头条刷出来的问题，看到很多人回答，感觉还有一些观点没有写出，所以我来回答一下。首先，华为为什么不出小尺寸全面屏手机？其实并不只有华为一家没有出小屏手机，放眼近期各大手机厂商发布的:-华为

生吃山芋，生吃胡萝卜，还有哪些蔬菜可以生吃呢？

胡萝卜蔬菜:生吃山芋，生吃胡萝卜，还有哪些蔬菜可以生吃呢？第一种，黄瓜。这个瓜，可不是菜市场中堆放满满的青瓜。各位可要睁大眼睛看清楚了，这个黄瓜，青中带黄，品种属以前乡下农户少量种植的，形态上面来看这种瓜矮、短、圆，表面覆盖有比较淡的细毛，经水轻轻冲洗之后整:-山芋

为什么马铃薯不宜过早过迟播种？

不宜:为什么马铃薯不宜过早过迟播种？播种过早为什么马铃薯不宜过早过迟播种？马铃薯的种植主要是由于气候条件的限制，过早出苗后容易遇到低温被冻死，种植晚了容易遇到干旱和高温，影响产量。马铃薯种植时间的早晚必须根据种植地方的气候条件来确定。马铃薯生长:-马铃薯

疫情愈发严重，原油为何反而大涨？

原油愈发:疫情愈发严重，原油为何反而大涨？疫情愈发严重和原油大涨没有必然关系。但是资金总是从高处流向低处，原油价格跌的越多，投资价值越明显，相对于其他产业更有投资价值。举个例子：深圳南山房价均价大约6万左右，宝安均价5万左右，如果南山房价涨到:-疫情

生菜球很好吃，怎么种植才能高产呢？

种植:生菜球很好吃，怎么种植才能高产呢？高产对环境条件的要求、1.温度生菜球为喜冷凉、忌高温作物，种子在4度以上可发芽、以15～20度为发芽适温。幼苗能耐较低温度，日平均温度12度时生长壮健，叶球生长最适温度为13～16度。不过目前有些结球生菜:-生菜

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？

看下这个户型三房改四房，改一个小房间，应该没有问题。△原户型图这个户型改四房，能改的方案比较多，但是修改以后是否好用，是一件值得考虑的事情。一、主卧室变为两个卧室可以将主卧室改为两个卧室，但是这样的改动占:-房改 122:装修高手来帮忙看下144平，套内122平，怎么三房改四房？？ 144

大家帮忙看看这个房子如果要砸墙的话，怎么改比较好？

房子:大家帮忙看看这个房子如果要砸墙的话，怎么改比较好？这个户型砸墙，当然可以砸墙，但是在砸墙之前，要搞清楚为什么要砸墙，砸墙以后有什么优劣。△原户型原户型图上的白色墙体部分不是承重墙，理论上说否可以砸掉。但是外墙和与旁边户型或者是公共区域的共用墙体和图上:-帮忙

意蜂夏季喝什么水降温？

降温意蜂夏季喝什么水降温？气温高，蜂巢温度高的情况下，蜜蜂是通过采水的办法挂在蜂箱的四壁来蒸发带走热量，降低蜂巢温度同时也能帮助蜂群维持正常的湿度。在平常的情况下，蜜蜂是在室外采自然水的。夏季消耗的水量:-意蜂夏季:意蜂夏季喝什么水降温？

黄瓜种子催芽后种植需要打底水吗？

黄瓜种子:黄瓜种子催芽后种植需要打底水吗？你好很高兴回答这个问题。答案：不用。1-2天可出芽。黄瓜种子催芽：选用饱满的种子，用30℃水浸泡4小时后催芽。也可用100倍福尔马林溶液浸泡种子10-20分钟，洗净后清水浸种3-4小时，然后于25-3:-催芽黄瓜打底

书友们展示一下自我感觉发挥较好的作品，一起学习？

自我较好这幅作品是参赛的，色彩的搭配，纸张的拼接都是自己设计完成的，一如既往的清新淡雅感觉。书体用的魏碑中楷书，增加了书写的趣味性。:-书友展示:书友们展示一下自我感觉发挥较好的作品，一起学习？

R语言数据挖掘实践——神经网络代码实战

数据探索

数据处理

建立模型

结果分析

预测判别

模型差异分析

优化建模

相關文章:

数据统计的理解和运用（二）t检验的应用

数据统计的理解和运用（一）思路篇

大佬新作dtplyr:当优秀的语法遇上牛批的速度

R爬虫小白入门：Rvest爬链家网+分析（三）

R语言中文社区2018年终文章整理（作者篇）

一图胜千言：用好图表，好好说话

R语言——保存图片

R语言——apply族的其他几个兄弟

R语言实现基本统计分析之t检验

备受推崇的《R语言实战》真的值得如此好评吗？

「R语言实用技巧」类别变量的顺序自定义设置

多元线性回归预测：餐馆营业额与多因素实战

R语言——公式还原到源数据

R语言——手工做个线性回归模型

R语言——广义逆矩阵能怎么用咧

R语言——画曲线和网格线

Graphpad Prism 8.0绘制小提琴图

2018大盘点｜R语言中文社区十大火爆文章

R语言——判断向量是分类还是连续数值

R语言——数值预测的一些评价指标

教你不做实验的发文章技巧：入门Meta分析

10.13 工作中人们常提到的数据预处理，说的到底是什么？

社科文献一周新书单（2018.8.27-8.31）

北京西城城管案件聚类分析算法

城管案件聚类分析——以北京西城为例

聚类分析原理及R语言实现过程

高分论文分析方法—判别分析原理及R语言实现

Python之父愤然退位：再也无法忍受他们鄙视我的意见

独家｜一文解析统计学在机器学习中的重要性（附学习资源）

ICML 2018｜腾讯AI Lab详解16篇入选论文

暑期课程优惠！

异步社区本周半价电子书

文科僧学习大数据，我告诉你点秘密

TIOBE编程语言榜：C语言持续暴涨，有望赶超Java

学R，别再看那些古董级的中文书了

学者必备！8大免费又实用的科研利器，总有一款适合你！

大数据告诉你我国什么地方是吃货聚集地R语言代码讲解

大数据告诉你我国什么地方吃货最多，快来看看你们所在城市怎样

数据分析课程大促销

TCGA单元课解禁，回关键字得课件

金融数据分析师成长必修课，零基础学习数据分析和金融风控建模

10.25 用R对PVD Rdson偏高的问题进行数据分析

R语言数据特征分析——统计量分析

R语言数据挖掘实践——社交网络分析利器igraph

编程语言的选择与穷或富裕之间的小秘密

R语言数据挖掘实践——神经网络代码实战

R语言3种数据分析方法，搬好板凳，记笔记了！

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

在农村“立夏节”都有哪些民间习俗？

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

工程分包乙方人员伤残谁承担？

有哪些看起来毫不相关的两个历史人物实际上有过联系？

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

现在存款有14万，借了5万还没收回来，该做什么好？

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？