机器学习中的目标编码

机器学习中的目标编码

目标编码(Target Encoding)也被称为似然编码(likelihood encoding)或平均数编码(mean encoding)。它是从现有特征和目标变量中创建一个新特征。

让我们通过几个小例子来理解这个概念。

示例1:二元分类任务

我们有一个名为data_df的Pandas DataFrame,它包含如下数据。

机器学习中的目标编码

特征2是我们想要在目标的帮助下进行编码的分类变量。

因为,如果特性2的值是“A”,我们在相应的目标列中有4个1和1个0。值“A”的平均数编码为4/5 = 0.8。

类似地,特征2为“B”的平均数编码是2/3 = 0.667。

我们可以用下面的代码为data_df中的数据创建平均数编码

mean_encoding = data_df.groupby(['Feature-2']).agg({'Target':['mean']}).reset_index()

data_df = data_df.merge(mean_encoding,on='Feature-2',how='left')

这里(Target,mean)是新编码的特征

机器学习中的目标编码

示例2:回归任务

让我们看一下Target是一个连续值的例子。我们的新DataFrame数据如下:

机器学习中的目标编码

与第一个示例相同,Feature-2是我们想要在Target的帮助下编码的分类变量。

由于Target是连续的,因此我们可以更灵活地生成新的目标编码功能。例如,我们可以采用均值,模式,标准差或百分位数来创建新特征。

让我们使用Feature-2中每个值的Target值的标准偏差来创建一个新特征。

std_encoding=data.groupby(['Feature-2']).agg({'Target':['std']}).reset_index()

data_df = data_df.merge(std_encoding,on='Feature-2',how='left')

这里产生的新特征是(Target,std)

机器学习中的目标编码

这种特征编码的思想也可以扩展到多类分类。特别地,对于基于树的方法,该方法似乎最有效,因为数据获得关于编码的分类特征的其他值的结构的附加信息。

注意事项

在使用这些编码技术时,有一些事情需要注意,因为我们不希望目标变量泄漏出现在新的编码特征中。

  • 如果在训练和验证数据分离之前执行了目标编码,那么它可能仅仅是与验证数据相匹配,结果可能不可靠。因此,应该在训练和验证数据分离后进行编码。
  • 这种方法在特性可能具有数据中罕见的值的情况下可能会失败。

我们可以使用一些正则化方法来克服目标编码中的缺陷。

通过使用目标编码,我们可以超越one-hot编码,将分类变量输入到机器学习模型中。


分享到:


相關文章: