机器学习特征工程之预处理

佚名

2021-03-29 14:53:21

上篇文章介绍特征抽取,这篇文章将要介绍征工程的预处理。主要介绍对数据两种方法两种方式如何处理，它的算法原理是什么，api如何使用，用于场景。

特征处理

通过特定的统计方法（数学方法）将数据转换成算法要求的数据

特征处理之后的数据

如图所示特征抽取完之后，就要进行对其预处理，左边就是原始特征值，右边就被预处理完之后的数据，之所以进行预处理是为了后续算法（算法后续文章将会更新）要求的数据。这里要强调下，这时候的数据是数值型数据，是已经把文本、图片转换成数值之后。

数值型数据处理，有一种方法标准缩放，这方法又有两种方式一种叫做归一化，一种叫做标准化；对于类别型数据的处理的方法叫one-hot编码；对于时间类型处理的方法有时间的切分。

接下来介绍第一组数据转化的方式。

归一化

特点：通过对原始数据进行变换把数据映射到(默认为[0,1])之间

归一化的算法公式

公式解释：作用于每一列，max为一列的最大值，min为一列的最小值,mx、mi分别为指定区间值默认mx为1、mi为0，X''为最终结。

举个栗子，理解

以第一列为例

解（得一分）： X'=(90-60)/(90-60)=1 X''=1* (1-0)+0=1

所以第一列第一行为1

X'=(60-60)/(90-60)=0 X''=0 (1-0)+0=0

所以第一列第二行为0

X'=(75-60)/(90-60)=0.5 X''=0 .5(1-0)+0=0.5

所以第一列第二行为0.5

API:

sklearn归一化API: sklearn.preprocessing.MinMaxScaler MinMaxScalar(feature_range=(0,1)…) 每个特征缩放到给定范围(默认[0,1]) MinMaxScalar.fit_transform(X) X:numpy array格式的数据[n_samples,n_features] 返回值：转换后的形状相同的array

案例：

def gyh(): dict = MinMaxScaler() data = dict.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]) print(data) if __name__ == '__main__': gyh()

执行结果

作用:

进行归一化，使特征同等重要。使某一个特征不会对结果造成倾斜式的影响。

相亲约会对象数据，这个样本时男士的数据，三个特征，玩游戏所消耗时间的

百分比、每年获得的飞行常客里程数、每周消费的冰淇淋公升数。然后有一个

所属类别，被女士评价的三个类别，不喜欢didnt、魅力一般small、极具魅力large

也许也就是说飞行里程数对于结算结果或者说相亲结果影响较大，但是统计的

人觉得这三个特征同等重要。

如果上图的算法是(72993-35948)^2+(10.141740-6.83)^2+(1.03-1.21)^2 这样它影响因素就变成里程数，而不是三个因素。这时候对三个因素进行归一化处理，这样里程数和公升数和消耗时间比，影响就是相同的。

缺点:

从公式看出，这种算法很受最大值最小值影响。

在特定场景下最大值最小值是变化的，另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。

标准化

特点：

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内。

公式

注：作用于每一列，mean为平均值, 6为标准差(考量数据的稳定性)

举个栗子说明:

第一列的方差

var=(（90-75）^2+(60-75)^2+（75-75）^2)/3=300

方差决定为该数据的稳定性。

标准化与归一化的差别:

对于归一化来说：如果出现异常点，影响了最大值和最小值，那么结果显然会发生改变。

对于标准化来说：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小。

标准化由于方差跟平均值大多相关，比归一化的鲁棒性强很多。所以标准化是常用于特征处理的方式。

Api:

sklearn特征化API: scikit-learn.preprocessing.StandardScaler StandardScaler(…) 处理之后每列来说所有数据都聚集在均值0附近标准差为1 StandardScaler.fit_transform(X,y) X:numpy array格式的数据[n_samples,n_features] 返回值：转换后的形状相同的array StandardScaler.mean 原始数据中每列特征的平均值 StandardScaler.var 原始数据每列特征的方差

案例:

def staevc(): dict = StandardScaler() data = dict.fit_transform([[1., -1., 3.], [2., 4., 2.], [4., 6., -1.]]) print(data) if __name__ == '__main__': staevc()

运行结果

标准化适合在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景。

缺失值处理

处理方式:

删除: 如果每列或者行数据缺失值达到一定的比例，建议放弃整行或者整列。

插补：可以通过缺失值每行或者每列的平均值、中位数来填充。

Api:

sklearn缺失值API: sklearn.preprocessing.Imputer Imputer(missing_values='NaN', strategy='mean', axis=0) 完成缺失值插补 Imputer.fit_transform(X,y) X:numpy array格式的数据[n_samples,n_features] 返回值：转换后的形状相同的array

案例:

def imputerevc(): im = Imputer(missing_values='NaN', strategy='mean', axis=0) data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]]) print(data) if __name__ == '__main__': imputerevc()

初始化Imputer,指定”缺失值”，指定填补策略，指定行或列。缺失值也可以是别的指定要替换的值。这里传进去的空值必须用使用np.nan/np.NaN来代替，该类型属于float类型 im = Imputer(missing_values='NaN', strategy='mean', axis=0)，第一个参数是锁定空值，第二个是如果是空则取平均值，这里的平均值是取不包括空值的平均值，如上图结果（1+7）/2=4.,axis=0是从列中取。

后续会持续更新由浅入深机器学习的技术文章，关注我随时了解人工智能

【学习】凝心聚力抗击疫情，践行参政党使命担当

林口县人民检察院召开检委会学习《人民检察院检察委员会工作规则》

学习“圆方精神”坚定发展信心总书记回信让河南民营企业家倍受鼓舞

自己总结出来，送给学习差的人，值得拥有、学习，其实自己很优秀

品读经典涤荡思想坚定信念——学习《马列主义经典著作选编》的心得体会

【社区矫正】乌拉特中旗司法局组织开展《社区矫正法》学习

每天坚持看书、学习，但总感觉啥也没学？四个方法教你好好学习

富裕县司法局组织《黑龙江省优化营商环境条例》学习

【动态】云岩区司法局黔灵镇司法所组织社矫人员学习《社区矫正法》

新管理思想锻造新时代创新创业干部队伍

赚钱，变美，学习，精致小女人生活三重奏

《易经》学习，变易、不易、简易

特征处理

归一化

标准化

缺失值处理

后续会持续更新由浅入深机器学习的技术文章，关注我随时了解人工智能

相關文章:

【学习】凝心聚力抗击疫情，践行参政党使命担当

林口县人民检察院召开检委会 学习《人民检察院检察委员会工作规则》

学习“圆方精神”坚定发展信心 总书记回信让河南民营企业家倍受鼓舞

自己总结出来，送给学习差的人，值得拥有、学习，其实自己很优秀

品读经典 涤荡思想 坚定信念——学习《马列主义经典著作选编》的心得体会

【社区矫正】乌拉特中旗司法局组织开展《社区矫正法》学习

每天坚持看书、学习，但总感觉啥也没学？四个方法教你好好学习

富裕县司法局组织《黑龙江省优化营商环境条例》学习

【动态】云岩区司法局黔灵镇司法所组织社矫人员 学习《社区矫正法》

新管理思想锻造新时代创新创业干部队伍

赚钱，变美，学习，精致小女人生活三重奏

《易经》学习，变易、不易、简易

教育部：不建议占用假期补课，学习“来日方长”，学生：太暖心！

“党建+团建”走进汀州 “学习+服务”汇聚能量

孔子谈「学习」：学习是你自己的事情

学习“中国精神”？快到“屋”里来！

无界大学丨如何激发孩子对于“学习”的内驱力？

【学习“四史”】毛泽东《永久奋斗》告诉青年什么？

学习+培训，功夫不负“纳税服务人”

学习 | 在国内如何学习俄语……

学习 | 带你从零开始认识俄语……

如何快速积累工作经验：向身边的“老鸟”学习

察右后旗交管大队联合察右后旗司法局在辖区内开展学习交通法规、学习《民法典》宣传活动

合阳县甘井镇：学习《条例》强业务，依法信访促规范

怎样利用 iPad 学习？

学习，研究，运用

看看差生，就看到了自己的进步

梦之桥·49、学习、成长、分享

直播、创业、工作、学习、生活你有目标吗？

学习，是为了更高级的享乐

提升自己 比什么都重要！

加V、原创、运动、学习、上班和带娃等等，我们都可以做到

【泾检快讯】学习《社区矫正法》，提升执检工作能力

学习《民法典》 规范“思与行”

学习，父母or孩子？

果敢小学：强化“八严格、八严禁”学习 全面提升果敢小学形象

二战各参战国主要领导人的学历大比拼：才能面前，一切都是虚无。

学习，启程

【学习】这样的蠢事决不能做！

冬训在“疫”线 学习“不打烊”

学习：最高法刘贵祥专委谈公司对外担保问题

学习：最高法刘贵祥专委谈金钱之债的裁判思路

学习：最高法刘贵祥专委谈案外人救济制度

学习：最高法刘贵祥专委谈公司清算责任问题

致知班家书

学习 000

学习，不能只问不学

#卡帅上课or下课# 学习？学个屁！#中超# #广州恒大#

学习！

小伙子学习了

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

林口县人民检察院召开检委会学习《人民检察院检察委员会工作规则》

学习“圆方精神”坚定发展信心总书记回信让河南民营企业家倍受鼓舞

品读经典涤荡思想坚定信念——学习《马列主义经典著作选编》的心得体会

【动态】云岩区司法局黔灵镇司法所组织社矫人员学习《社区矫正法》

提升自己比什么都重要！

学习《民法典》规范“思与行”

果敢小学：强化“八严格、八严禁”学习全面提升果敢小学形象

冬训在“疫”线学习“不打烊”

应急科普丨“五一” 期间气温回升谨防森林火灾隐患