攻略：Kaggle竞赛与赛者应该知道的要点

2020-03-18 12:25:00 讀芯術

全文共4621字，预计学习时长

14分钟

Kaggle很有可能是最著名的机器学习竞赛网站。

Kaggle竞赛包括一个可从网站获得的数据集，需要用机器学习、深度学习或其他数据科学技术来解决问题。

一旦开发出解决方案，参赛者就可以将预测结果上传回站点，预测结果的成功与否将会决定参赛者在竞赛排行榜中的位置，参赛者甚至可能获得现金奖励。

Kaggle是磨练机器学习和数据科学技能、将自己与他人进行比较、学习新技术的极佳平台。本文将提供第一次参加Kaggle竞赛的攻略。本文包括以下内容：

· 开发模型，用来预测推文是否与真正的灾难有关。

· 用模型对Kaggle提供的测试数据集进行预测。

· 进行第一次提交，在Kaggle排行榜上占有一席之地。

检测灾难推文

网站上一个最新的竞赛提供了一个数据集，其中含有推文和一个标签，参赛者可通过该标签得知推文是否真的与灾难有关。该竞赛有将近3000名参赛者，最高现金奖励为10000美元。点击此处可查看数据和竞赛大纲。

如果没有Kaggle账户，点击此处免费创建。

在竞赛页面选择“全部下载”将获得含有三个CSV文件的压缩文件。

第一个数据集包含一系列特征以及用于训练的相应目标标签。该数据集具有以下属性：

· Id：推文的数值标识符。参赛者将预测结果上传至排行榜时，它会派上大用场。

· 关键字：某些情况下，推文中的关键字可能会丢失。

· 位置：发送推文的位置。这也有可能不显示。

· 文本：推文的全文。

· 目标：参赛者试图预测的标签。如果该推文确实和灾难有关，则为1，否则为0。

仔细阅读这些文件，以便进一步了解它们。你会注意到下面的代码中已经包含了一个set_option指令。Pandas set_options允许你控制数据框结果的显示格式。此处包含指令旨在确保显示文本列的完整内容，让结果和分析更易于查看。

<code>import pandasas pd 

pd.set_option('display.max_colwidth', -1)train_data = pd.read_csv('train.csv')
train_data.head()/<code>

第二个数据集只包含数据集的特征，用来预测目标标签，其结果将决定是否能在排行榜上获得一席之地。

<code>test_data =pd.read_csv('test.csv')
test_data.head()/<code>

第三个数据集举例说明了提交的文件应该采用什么格式。该文件将包括test.csv文件中的id列以及模型预测的目标。创建此文件后，参赛者会将其提交给网站，从而进入排行榜。

<code>sample_submission= pd.read_csv('sample_submission.csv')
sample_submission.head()/<code>

为机器学习准备数据

无论是什么机器学习任务，数据清洗和预处理都是必须的，之后才能对模型进行训练。处理文本数据时，这一点尤为重要。

为了让第一个模型易于操作，而且由于这些列中缺少大量数据，位置和关键字特征将会删去，仅用推文中的实际文本进行训练。id列也会删去，因为它对训练模型没有用处。

<code>train_data =train_data.drop(['keyword', 'location', 'id'], axis=1)
train_data.head()/<code>

现在，数据集如下所示。

文本（尤其是推文）通常会包含很多特殊字符，但这些字符对机器学习算法来说不一定有意义。因此，笔者要采取的第一步就是删去这些字符。还将把所有单词变成小写。

<code>import redef  clean_text(df, text_field):
    df[text_field] =df[text_field].str.lower()
    df[text_field] =df[text_field].apply(lambda elem: re.sub(r"(@[A-Za-z0-9]+)|([^0-9A-Za-z\\t])|(\\w+:\\/\\/\\S+)|^rt|http.+?", "", elem)) 
    return dfdata_clean =clean_text(train_data, "text")data_clean.head()/<code>

另一种有用的文本清理过程是删除停用词。停用词使用频率很高，但传达的意义一般不大。在英语中，停用词包括“the”、“it”、“as”这样的词。这些词如果保留在文本中，将会产生大量噪声，算法学习起来会更加困难。

自然语言工具包（NLTK）汇集了用于处理文本数据的python库和工具，点击此处访问完整文档。除了处理工具之外，自然语言工具包还拥有庞大的文本语料库和词汇资源，其中包括多种语言的全部停用词资源。该库将用来从数据集中删除停用词。

自然语言工具包库可通过pip安装。安装完成后，需要导入语料库并下载停用词文件。

<code>import nltk.corpus
nltk.download('stopwords')/<code>

此步骤完成后，你可以读入停用词，并使用语料库删除推文中的停用词。

<code>from nltk.corpus importstopwords
stop = stopwords.words('english')data_clean['text'] =data_clean['text'].apply(lambda x: ' '.join([word for word in x.split() if wordnot in (stop)]))data_clean.head()/<code>

数据预处理

数据清洗干净后，还需要进行进一步的预处理才能用于机器学习算法。

所有机器学习算法都使用数学计算映射特征中的模式（在本文的情况下是文本或单词）和目标变量。因此，为了执行计算，训练机器学习模型之前必须将文本转换为数字形式。

该类型的预处理有多种方法，但笔者将举例使用scikit-learn库中的两种方法。

该过程的第一步是将数据拆分为标记或单个单词，计算每个单词在文本中出现的频率，然后将这些计数表示为稀疏矩阵。

CountVectoriser函数可实现此目的。

下一步是对CountVectoriser产生的字数进行加权。采用该加权的目的是按比例减少文本中频繁出现单词的影响，这样，在模型训练过程中，不频繁出现或提供更多信息的单词会得到重视。TfidTransformer可执行此功能。

机器学习管道

将所有预处理和模型拟合放入scikit-learn管道，看看模型的表现如何。第一次尝试，笔者使用的是线性支持向量机分类器（SGDClassifier）——公认的最佳文本分类算法之一。

<code>from sklearn.model_selectionimport train_test_splitX_train, X_test, y_train, y_test =train_test_split(data_clean['text'],data_clean['target'],random_state = 0)fromsklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.linear_model import SGDClassifierpipeline_sgd = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf',  TfidfTransformer()),
    ('nb', SGDClassifier()),
])model = pipeline_sgd.fit(X_train, y_train)/<code>

用训练好的模型预测保留的测试数据，看看模型的表现如何。

<code>from sklearn.metrics importclassification_reporty_predict = model.predict(X_test)
print(classification_report(y_test, y_predict))/<code>

第一次尝试，该模型的表现相当不错。

进行第一次提交

现在一起来看看该模型在竞赛测试数据集中的表现和排行榜上的排名。

首先需要清洗测试文件中的文本，然后用模型做预测。下面的代码获取测试数据的副本，并执行与训练数据相同的清洗操作。输出显示在代码下方。

<code>submission_test_clean =test_data.copy()
submission_test_clean = clean_text(submission_test_clean, "text")
submission_test_clean['text'] = submission_test_clean['text'].apply(lambda x: ''.join([word for word in x.split() if word not in (stop)]))
submission_test_clean = submission_test_clean['text']
submission_test_clean.head()/<code>

接下来用模型进行预测。

<code>submission_test_pred =model.predict(submission_test_clean)
/<code>

创建提交需要构建的仅包含测试集id和预测的数据框。

<code>id_col = test_data['id']
submission_df_1 = pd.DataFrame({
                  "id": id_col,
                  "target":submission_test_pred})
submission_df_1.head()/<code>

最后将其另存为CSV文件。要包含index=False，这很重要，否则索引将被另存为文件中的一列，提交也会遭到拒绝。

<code>submission_df_1.to_csv('submission_1.csv',index=False)/<code>

获得CSV文件后，可以返回竞赛页面并选择“提交预测”按钮。该操作会打开一个表格，参赛者可以在上面上传CSV文件。最好添加一些有关该方法的注释，以便于记录之前提交的尝试。

提交文件后会显示此界面。

现在提交成功了！

该模型让笔者在排行榜上获得0.78分，排名为2371。很显然还有一些提高的空间，但现在笔者拥有了可用来比较的基准，这有利于以后的竞赛。

本文对初次参加Kaggle竞赛该怎样提交预测做了概述。想要提高分数，还可以进一步采取其他步骤。比如更好的文本清洗、不同的预处理方法、尝试其他机器学习算法、模型的超参数调整等等。

我们一起分享AI学习与发展的干货

分享到:

閱讀更多 讀芯術 的文章

關鍵字: 学习 NLTK 赛者

记一次美妙的数据分析之旅~

Kaggle GrandMaster：图像分类技巧总结｜附下载

02.24 kaggle「疯狂三月」：将 ML 用于篮球赛预测，奖金 $25,000

面向 Kaggle 和离线比赛实用工具库 nyaggle，解决特征工程与验证两大难题（附代码）

机器学习实战--对亚马逊森林卫星照片进行分类（2）

11.21 治疗模型选择困难症，kaggle要办三天的workshop

500万照片+20万地标+30万奖金，谷歌更新最大地标数据集

谷歌全新地标数据集放出：数据量增加一倍，地标数增加6倍

500万张图片，20万处地标风景，谷歌又放出大型数据集

如何使用机器学习预测房价(附链接)

一个框架解决几乎所有机器学习问题

数据科学流行的编程语言及算法、薪酬行业现状

处理不平衡机器学习数据集的不同方法

机器学习系列-K-means聚类（Python.KMeans)

机器学习系列-决策树（Python.DecisionTree)

机器学习系列-岭回归&Lasso回归（Python.RidgeCV&Lasso)

机器学习系列-岭回归&Lasso回归实例

机器学习案例-汽车目的地智能预测大赛附方案代码

机器学习系列-数据预处理（Python.Preprocessing)

AI丨看大神是如何总结2018和预测2019的（下）

程序员如何转行人工智能

收割BAT算法工程师offer大神的求职面试指南

如何构建一个器学习项目来找到工作？

了解机器学习Kaggle竞赛

通过性能对比来选择机器学习模型

机器学习系列：决策树算法，随机森林算法、xgboost算法对比

后李飞飞李佳时代，谷歌云绝地反击AWS有机会吗？

Kaggle大师Abhishek Thakur的框架-解决几乎所有机器学习问题

零基础入门机器学习指南

想要成为一名人工智能工程师，需要了解的人工智能知识体系

CMU-2018年8月-深度学习基础课程视频分享

AI开发最大升级：Pandas与Scikit-Learn合并，新工作流程更简单强大！

Google数据集搜索神器上线：猫喜欢什么口味的冰淇淋？

0基础如何跨进机器学习工程师的大门？

到底要不要参加Kaggle竞赛

Kaggle数据科学项目索引表，10大类93项，更新中

人工智能大数据福利！史上最全的人工智能

百度Apollo 联合主办CVPR自动驾驶论坛大咖云集，干货满满

构建机器学习模型进行信用卡反欺诈预测！

百度自动驾驶数据集ApolloScape——超同类数据集10倍

微软官方宣布以 75 亿美元收购 GitHub

相杀相爱10年，微软收购GitHub之计终于浮出水面

TalkingData联合Kaggle建立中国数据集专区

报名｜码隆科技与Google Research合办大赛，挑战商品图像分类极限｜将门投资企业

发布Google-Landmarks: 世界最大的人造和自然地标识别数据集

小米太无耻了。

小米高管不只口嗨了，在国内拳打友商，在国外却开始下跪了。下一步，我猜小米会喊，高通爸爸，人家爱死你了，人家已经五体投地了哟。

蹭热点！说说我理解的手机包装盒事件。

今早醒来刷头条，发现大批米系自媒体铺天盖地发文嘲讽华为系自媒体，忍不住好奇了解了一下情况，原来是刚发布的一加8 海外版手机的手机包装盒上面印了一句话:with easy access to the Google apps you use most.而这句话也印在前段时间发布的小

苹果公司正式发布iPhone SE二代手机

新品名为“iPhoneSE”，拥有跟iPhone 8相似的外观，搭载了苹果当前最新的A13仿生芯片，具备IP67级别防水防尘能力，配备4.7英寸LCD材质屏幕，支持原彩显示，配备了Touch ID指纹识别。

华为河图、麒麟芯片和鸿蒙OS三驾马车并行？华为生态建设布局深远

至于受很多人关注的华为河图全面落地问题，官方有消息称，2020年第二季度会提供100个华为河图测试点，测试点到第四季度会增加至1000个，测试覆盖空间包括智慧园区、旅游景点、高铁站和机场等。

小米高管表示，四千毫安时 5G 手机，和三千多毫安时 4G 手机一样

小米科技高管卢伟冰在近日表示，5G旗舰手机如果5G网络全开，功耗会比4G手机高20%，4000mAh的5G手机大约等于4G手机的3200mAH；今年Redmi坚持把5G手机的容量控制在4500mAh以上，也是考虑到5G网络耗电大的原因，今年很多5G智能手机均采用大电池的设计。

5G画风变了：麒麟985落地首跑，荣耀坐上开往高端的「地铁」

荣耀30Pro/30 Pro+同时搭载麒麟990 5G SoC，相应的其它配置更高：Wi-Fi6+，支持红外遥控，USB 3.0 Type-C接口。

旗舰手机标配Wifi 6 换Wifi 6路由器的时机到了吗？

现在，家庭宽带都在500M左右，大部分手机也不支持Wifi6标准，换Wifi 6无线路由器有点早，因为换了Wifi 6无线路由器网速也不会变快。

2020年5G手机卖不动？继苹果砍单25%之后，华为小米纷纷跟砍？

都说苹果手机卖不动了，可我看想买iPhone手机的人还是那么多，不然之前苹果公司怎么会限购？数据显示，3月份在国内的 iPhone 销量比 2 月份激增 416%，达到约 250 万部。

干翻华为P40系列荣耀30也玩中

而今天的华为发布会上，荣耀30、30 Pro、30 Pro +3个版本中、大、特大杯齐亮相，又一片全新5G SOC，麒麟985也要登场。

程序员辞互联网工作，跨行传统上市公司，上班第1天就蒙了

原来男子是从事互联网工作，后面觉得是互联网寒冬来了，就坚决辞去互联网工作，跨行选择了一个教育传统上市公司，可是第1天上班就蒙了，公司让做的活儿太死板了，没有发挥空间，同事一点都不友善，领导不放权，而且管理线超级单一，氛围一点都不一样，所以想离职。

苹果发布新款iPhoneSE，3299元起售

北京时间4月15日晚，苹果正式发布了新款iPhone SE，搭载了A13仿生芯片，支持最新的iOS 13系统，支持 18W快充，也支持Qi无线充电。SE机型苹果到目前为止只发布了两款，这是iPhone产品体系里小屏和低价的典型机器。

我很纠结：我究竟适不适合做亚马逊电商？看了这三条你就知道了

请仔细阅读，关于跨境电商你想知道的都在这儿

政府对于跨境电商行业的大力支持给咱们广大跨境电商卖家吃了一颗“定心丸”。我们所做的跨境电商事业在一定程度上不再是为个人谋利益，而是成为了中国产品走向世界，为国家赚取外汇的主力军。

骗子手段太“精明”：商家赔了货物又赔款，亚马逊平台骗术大揭秘

在开始文章的干货分享之前，先给大家讲一个商家被用户勒索的案例。有一位朋友刚刚加入亚马逊跨境电商平台两个多月，在这期间有位美国用户在他店铺里面购买了一个毛巾架。

做跨境电商这么多年，今天才知道给国外客户发文件原来这么简单

做过跨境电商朋友肯定知道，很多国外客户对于有些商品看不懂说明书，想索要商品使用视频教程，毕竟视频信息量大，容易理解和快速上手。

值得收藏！三类卖家三种选品方案，总有适合你的一个……

网上很多所谓的“大佬”喜欢吹嘘用某某工具就可以迅速选品效率，迅速取得很高效率等等，其实这类人就是在卖软件，收培训费用…

万万没想到！亚马逊平台上面卖床单竟营收一个亿！你还在等什么？

做店铺这么多年，今天才知道我的listing突然被封，竟是因为……

亚马逊小白看过来！请采纳这些：亚马逊选品和运营的小建议

亚马逊卖家如何爆单？跨境精细化运营攻略必看

不收保证金、入住费、年费，还免三个月佣金，我也想入驻这个平台

咱们今天不说主打欧美市场的亚马逊，只谈一下以东南亚市场为主的Shopee。好多人都听说过，但是没有真正了解过，好多人想加入Shopee但是顾虑重重，今天我来给大家普及一下关于Shopee小秘密。

马云终于要辞职了，留下的话句句触动人心

去年，在教师节这天，阿里巴巴集团创始人马云今天公开信宣布：一年后的阿里巴巴20周年之际，即2019年9月10日，也就是今天，他将不再担任集团董事局主席，却留下句句触动心灵的话！！

等等，明年5G手机将迎来大降价

11月26日下午，联发科技（MediaTek）在深圳举办“联发科技 5G方案发布暨全球合作伙伴大会”，正式发布了全新的5G新芯片品牌——“天玑”，同时带来了首款集成式旗舰级5G移动平台——天玑1000。

微信公开课PRO版2019正在进行时，往届各自都有什么黑科技

微信公开课pro版2019，为期两天微信大会正在广州火热进行中，本次会议主题为：同行WITHUS。微信这一款超级应用，已经深入到我们生活的方方面面，所以这48小时的未来盛宴必将吸引无数眼球。

推出「信任分」升级「闪购」，美团本地生活这盘棋有多大？

小海按：美团的超级App梦想更近了？Tech星球文 | 马微冰陈桥辉头图 | IC Photo王兴曾说，“太多人关注边界，而不关注核心。”

5G我们超越了6G我们也将领先! 美国为什么会害怕失去5G领导地位呢

而且在我们国内和美企中，有相当一部分觉得我们研发不了5G，更特说超越他们了。由于，我们在科技领域一直是，装备一代，研发一代，探索一代。

界读｜华为：帮助英国共渡疫情难关，无端批评令英国蒙受损失

前段时间，英国首相呼吁员工在家办公的第二天，英国网络就出现大面积崩溃现象，不仅无法正常上网，而且电话也不能打、短信也不能发，给用户造成了很大的困扰。

为什么华为今天可以傲视群雄，在世界上立于不败之地？

为什么华为今天可以傲视群雄，在世界上立于不败之地？因为五年内没有人能超过整个5G领域，所以美国人无法超越，为什么？

血战「在线办公」，阿里、腾讯、字节、华为的底牌与大杀器

小海按：前端杀手级应用，后端云服务，在线办公「四小龙」之战开启。本来，在线办公更多的是阿里巴巴的主场。

2020年最强拍照旗舰来了华为P40系列多项业界首创香！

原来华为P40Pro+在上一代P30 Pro潜望式镜头横置长焦镜头模组和感光器件基础之上，进一步采用全新的多反射潜望式光路折叠技术，实现5次反射光路，光程比上一代潜望式长焦提升178%。

今天聊一聊直播

今天聊一聊直播突然谈到这个话题，是因为后知后觉的我，突然发现几乎所有大互联网公司都进军了网络直播行业，或者正在准备进军直播领域。

通过直播赚钱不容易，既要豁得出去，又要端得起来

今天咱们继续聊一聊直播吧当下，像头条、网易、百度等公司，看上去和直播八竿子打不着的公司，也开始涉足直播了。

AI和自动化技术联手，最终会让60%的工人失去现有的饭碗。

并非危言耸听，AI和自动化结合，势必会把数十亿人类踢出劳动力市场，数量巨大的失业工人，将会构成一个规模庞大的新阶级。AI最终会让60%的工人失去现有的饭碗。

这个网还能不能好好上了？今日全球IPv4地址正式耗尽

长期以来，一直令人担心的IPv4地址耗尽的问题，今天这一刻终于发生——所有43亿个IPv4地址已分配完毕，这意味着没有更多的IPv4地址可以分配给ISP和其他大型网络基础设施提供商。

12306系统不行？内行人告诉你它有多牛，阿里腾讯高手去了也膜拜

很多人认为12306系统很不好，之前我也是这么认为的，因为我觉得像双十一这么大流量，阿里都能承受住，为什么12306不行，这其实是误解，12306拥有着神一般的架构设计，平时的压力比淘宝大的多。

有内幕？美国防部授与微软百亿云合同，亚马逊不满发起诉讼

据路透社消息，10月25日，美国防部将高达100亿美元的十年期战略合同授予微软公司，这一举动引起亚马逊的不满。

未来之芯--RISC-V总部从美国迁往瑞士，华为、阿里是其成员

北京时间26日消息，国际开源芯片技术组织RISC-V基金会周一宣布，由于担心美国的贸易限制，计划将总部从美国特拉华州迁往瑞士。该基金会首席执行官卡利丝塔-雷蒙德（Calista Redmond）表示，希望确保美国以外的大学、政府和企业能够帮助开发其开源技术。

神话还能继续吗？几度过山车，比特币半年来首次跌破7000美元

比特币价格今年如同坐上过山车，年初的3000美元到最高13861.9美元，今天跌破7000美元，算是这半年来的最低点了。说起比特币，给人印象最深刻的，莫过于2017年末到2018年初的暴涨了吧。

刘强东卸任后，突然宣布一个“好消息”，让马云措手不及！

苹果的疯狂其实从未停止，AirPower或将重新启航

可是，苹果事实上一直都在推动终端产品进入全面无线时代，所以他们是不太可能在真正意义上放弃这款产品。有外媒称，苹果目前正准备重新启动AirPower项目。

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰随着网络的不断发展，如何确保网络信息安全成为人们十分重视的问题。

互联网流量需求增大希腊民众“宅生活”考验网速

英国咨询公司Tech4i2报告指出，在疫情期间，希腊的互联网流量需求至少增长50%，但网速仅下降1.2%，而在大多数欧洲国家，网速平均下降了5%-7%。

互联网科技企业，传统办公模式该走向何处?

　　纽约，处于美国疫情震中的城市，工作模式大多是使用公司发放的电脑进行远程办公，而在这之前，部分互联网企业本来默认每周三为在家办公日，所以大家对在线办公可以说驾轻就熟。

微信又悄悄上线一新功能～网友却开始担心

备注后的群聊名称仅自己可见往后再也不用为分清乱糟糟的微信群聊而困扰不过从目前来看只有iOS端上线了这一新功能安卓用户还需要再等等并且此次更新为后台更新无需到AppStore更新即可看到这个新功能该功能上线后网友们纷纷站队但也有网友视野开阔担心起另一件事对于微信新功能群备注你觉得实

正式确认！孙正义退出市值5959亿阿里，20年与马云成就彼此

文：小娜说到孙正义这个名字，我们很多人都知道他是日本软银集团的创始人兼总裁，但他除此之外也有另外的身份，那就是阿里巴巴最大的董事之一。阿里之所以成为今天的阿里，与孙正义的投资是分不开的。当时，马云和孙正义仅仅交谈了五分钟，孙正义当即就决定投资阿里，而且一下就投资2000万美元。

科技添柴“非接触经济”升温

新华社记者王全超摄中国同拉美和加勒比国家举行视频工作会议，就新冠肺炎疫情防控开展交流。亚历山大·培尼亚摄在中国科学技术大学附属第一医院，乘客用“无接触电梯按钮”操作电梯。

好像在哪见过？华为nova7官宣余承东:何必只有一点点

全新iPhoneSE根据此前爆料，此次华为nova7系列将有nova7 SE、nova7和nova7 Pro三个版本，可能会采用“麒麟985+麒麟990”或“麒麟820+麒麟985+麒麟990”两种芯片组合。

行业红利、资本涌入，疫情后的在线教育聚师网如何“涅槃”

2018年，线下培训机构受到了相关部门政策的影响，整体发展势头趋降，然而市场上对于教育的需求却在不断增加，于是，大量学员开始把需求放到了线上，其中，职业教育在这方面的变化尤其明显。

数字货币真的来了？首吃螃蟹者传出，碰一碰功能露脸

苏州相城区政府相关人士对此未予置评，区金融局人士表示“不便答复”，其他多个当地机关单位称尚不知情，央行苏州市中心支行表示“以总行口径为准”，央行总行方面未予确认。新京报记者程维妙陈鹏编辑岳彩周校对薛京宁

实例 | 200 SMART运动控制基本指令详解

C_Dir:表示电机的当前方向信号状态，0 = 正向 1 = 反向。 START:触发开始发脉冲信号，必须要在运动轴空闲时发送一次信号，必须用边沿触发。