通过 Python 入门数据科学（Data Science）_技术 _ 頭條網

Linux Story

纯正开源之美有趣、有料、有意思

比较老气的大一新生，很宅，很喜欢动手做东西。

进行科学数据分析，并不一定要用那些昂贵的工具，你也可以试试这些“能干”的开源工具。

不论你是有着数学或者计算机相关背景的爱好数据科学（Data Science）领域的萌新，或是一个不相关的领域专家，你都不可避免接触到数据科学。而你又不需要那些昂贵的、特专业的企业软件的话，那你可以选择这篇文章所介绍的开源工具！

Python，它的机器学习和数据科学库（pandas，Keras，TensorFlow，scikit-learn，SciPy，NumPy 等等），和它的扩展的可视化列表库（Matplotlib，pyplot，Plotly 等等）对于初学者和专家等来说都是出色的开源工具。简单易学、普及率高、有社区提供支持，并且内置了最新的库和数据科学所用到的算法，这些工具都能给刚开始学习的你带来很大的帮助。

很多 Python 库都继承自某一个基础库（就是我们所熟知的依赖关系），而在科学数据分析领域，最基础的便是 NumPy 这个库。它专为数据科学分析设计，NumPy 库经常用于储存数据集中的关系型数据部分，这部分数据储存在它的 ndarray 类型中。这种数据类型便于存储来自关系型数据表（如 csv 或其他格式的文件）中的数据，反之亦然。

当 scikit 库中的函数应用于多维数组的时候，其便利性就体现得更加明显。如果只是进行数据查询，那么 SQL 语言是很好的工具，但是对于复杂和资源密集型科学数据操作就显得蹩脚了，而把数据存储在 ndarray 中则可以提高效率和速度（但这种优势只在处理大量数据时才能显现出来）。

当你开始用 pandas 来进行知识抽取和分析的时候，pandas 中的 DataFrame 数据类型与 NumPy 中的 ndarray 之间的强强联合会形成用于知识抽取和计算密集型操作的有力工具。

为了快速说明问题，让我们打开 Python 的 shell ，然后加载一个关于犯罪分析的数据集，这个数据集使用 pandas 的 DateFrame 类型存储，让我们来初探这个被加载的数据集。

>>> import pandas as pd

>>> crime_stats = pd.read_csv('BPD_Arrests.csv')

>>> crime_stats.head

/<tbody>/<table>

现在，在这个 pandas 的 DataFrame 类型数据集中，我们可以运用 SQL 查询语句进行大多数查询。例如，得到所有“Description”属性的唯一值，SQL 查询是这样的：

$ SELECT unique(“Description”) from crime_stats;

/<tbody>/<table>

在 pandas 的 DataFrame 里面实现相应功能的语句是这样的：

>>> crime_stats['Description'].unique

['COMMON ASSAULT' 'LARCENY' 'ROBBERY - STREET' 'AGG. ASSAULT'

'LARCENY FROM AUTO' 'HOMICIDE' 'BURGLARY' 'AUTO THEFT'

'ROBBERY - RESIDENCE' 'ROBBERY - COMMERCIAL' 'ROBBERY - CARJACKING'

'ASSAULT BY THREAT' 'SHOOTING' 'RAPE' 'ARSON']

/<tbody>/<table>

这样的话就会返回一个 NumPy 数组（ndarray）：

>>> type(crime_stats['Description'].unique)

<class>

/<tbody>/<table>

之后，我们来把数据传递给一个神经元网络模型，来看看它的预测到底有多准确。给它一个类似的数据如犯罪时间，犯罪类型，和它发生的相关种种，让它预测用了哪种类型的武器，代码如下：

>>> from sklearn.neural_network import MLPClassifier

>>> import numpy as np

>>>

>>> prediction = crime_stats[[‘Weapon’]]

>>> predictors = crime_stats['CrimeTime', ‘CrimeCode’, ‘Neighborhood’]

>>>

>>> nn_model = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5,

2), random_state=1)

>>>

>>>predict_weapon = nn_model.fit(prediction, predictors)

/<tbody>/<table>

现在，学习模型已经准备完毕，我们可以进行一些测试来估计它的预测质量和稳定性。让我们先从一些训练用的测试数据开始（这部分的原始数据是用来训练（train）模型的，而不是用于创建模型的）：

>>> predict_weapon.predict(training_set_weapons)

array([4, 4, 4, ..., 0, 4, 4])

/<tbody>/<table>

如你所看到的那样，它会返回一个列表，每一个数据都是一个预测结果，表示一种武器，对应训练数据集（training set）中的一条记录。我们看到数字，而不是武器名，这是因为它和大多数分类算法一样，为分析大量数据而做出了优化。

对于数组数据，我们有多种方法将数字转换成能被我们直观理解的描述形式（如武器名）。在这个例子中，运用的技术是 LabelEncoding ，用的是 sklearn 中 preprocessing 库中的 LabelEncoder 函数：preprocessing.LableEncoder。它可以对数据进行相关的转换和逆转换。在这个例子中，我们用了 LabelEncoder 中的 inverse_transform 函数来看看武器 0 和 4 分别代表了什么：

>>> preprocessing.LabelEncoder.inverse_transform(encoded_weapons)

array(['HANDS', 'FIREARM', 'HANDS', ..., 'FIREARM', 'FIREARM', 'FIREARM']

/<tbody>/<table>

这些数据看起来很有意思，但是并没有得到这个模型的预测准确度是多少，我们来进行一些计算以得到其百分比：

>>> nn_model.score(X, y)

0.81999999999999995

/<tbody>/<table>

这些数据显示出了我们的神经网络模型有将近82%的精确性。这个结果似乎让人感觉不错，但是我们也不要忘了更换不同的数据集来测试他的有效性。这里列举了一些其他类型的测试，如：相互关系、模糊测试、矩阵测试等等。这些都可以用于测试模型的有效性。然而，虽然我们的模型具有很高的精确度，但是这对普通的犯罪数据集并不是很有用。就像我们用的这个数据集一样，这个数据集中使用“枪支”这一类武器的记录非常多，那么无论我们之后输入何种数据，预测结果都会更加偏向于使用“枪支”。

在我们分类之前清除数据、消除离群数据和畸变数据是很重要的。预处理越好，我们的精确度就越高。同样，通过给模型/分类器塞过量数据来提高精确度（高于90%）是很不理智的，因为这样非但不能达到目的，还会造成过度拟合。

如果你想用交互式图形界面代替命令行，那么 Jupyter notebooks 是一个很好的选择。虽然大多数的事情在命令行中都能处理得很好，但当你开始用 snippets 来生成可视化时，就能体会到 Jupyter 给你带来的好处。它可以把数据整理的比终端还好。

这里（https://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/）不仅给大家列出了一些很不错的机器学习的免费资源，还提供了很多其他指导和教程。由于兴趣爱好的不同，你会发现网上有很多可用的开源数据集。但是在刚开始学的时候，Kaggle （https://www.kaggle.com）维护的数据集，和那些政府网站提供的数据集是很好的资源。

本文由纷寂翻译。更多详情请访问原文链接。

原文链接：https://opensource.com/article/18/3/getting-started-data-science

本文链接：https://linuxstory.org/getting-started-data-science/

相關文章:

Spring Data Jpa 入门学习

QIIME 2教程. 09数据导入Importing data(2020.2)

spring-data-mongodb 增强工具包mongoHelper上手指南

Spring Boot 之Spring data JPA简介

在Cortex Data Lake中使用gRPC，Envoy和Istio进行大规模数据摄取

Virtual Data Optimizer存储优化器-CentOS8.1Linux运维实战十三

Spring Data Redis 最佳实践！

Tensorflow2.0 tf.data.Dataset api数据集常用操作

Java实用技能：一文了解JPA、Hibernate、Spring Data JPA的关系

构建数据集成和实时数据处理流水线工具Spring Cloud Data Flow

Pandas数据分析实战01——Abalone Data Set（鲍鱼数据集）

Spring Data Redis 最佳实践，你又了解多少呢？

DBLE LOAD DATA 功能实现解析

03.03 WPF界面开发宝典，Data Grid和TreeList——选定记录的摘要

解密酷炫WPF界面开发技巧！WPF Data Grid和TreeList

spring data jpa进阶

详解：规整数据(Tidy Data)的理论与Python实践

TIA SCL 循环检测数据块中位状态变化-重点练习PEEK指令

使用Spring Data JPA的Specification构建数据库查询

12.03 Spring Data Jpa最佳实践

11.29 数据湖(Data Lake)和数据仓库(Data Warehouses)理解误区

Data Lake架构揭秘

全局作用域

MongoDB--Spring Data MongoDB详细的操作手册（增删改查）

C++｜三种方式输出浮点数的二进制位

SpringBoot利用spring-boot-starter-data-redis整合Redis

Oracle数据迁移--如何确认是否迁移成功？需要查询这些内容

微软开源大规模数据处理项目 Data Accelerator

springboot学习-springboot使用spring-data-jpa操作MySQL数据库

04.02 一文读懂 Spring Data Jpa！

springboot2.0+spring-data-solr 新增and查询简单例子

Java开发中MyBatis、Hibernate、Spring Data JPA应该如何选择？

开始使用 Spring Data JPA

使用tf.data API，构建高性能 TensorFlow 输入管道

Spring data jpa是什么

Kafka Data Replication（副本策略）

elasticsearch节点（角色）类型解释node.master和node.data

Data Lake Analytics-数据分析时代迎来新变革

spring data jpa项目数据库的数据清空配置

数据网格 Data Grid和NoSQL相同和区别-异同

Spring Data Redis 详解及实战

一文搞定 Spring Data Redis 详解及实战

Spring Data JPA中如何优雅的构建动态查询语句

JPA、Hibernate、Spring data jpa之间的关系，终于明白了

06.25 mybatis使用load data local infile实现导入数据到mysql数据库

Configuration meta-data in Spring Boot

Hadoop 之上的数据建模-Data Vault 2.

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪