Scikit-Learn＆More，用于机器学习的综合数据集生成

2020-03-19 12:34:32 CDA數據分析師

CDA数据分析师出品

尽管成熟的算法和开源代码库可供机器学习从业人员广泛使用，但使用足够的数据去应用这些技术仍然是一个核心挑战。现在让我们了解如何利用scikit-learn和其他工具来生成适合优化和微调模型的综合数据。--- Kevin Vu

越来越明显的是，谷歌，Facebook和微软等大型科技巨头对最新的机器学习算法和软件包非常慷慨（它们免费提供这些），因为目前算法世界的入门门槛很低。开源社区和工具（例如scikit-learn）已经走了很长一段路，大量的开源计划正在推动数据科学，数字分析和机器学习的发展。站在2018年，我们可以肯定地说，算法，编程框架和机器学习套件（甚至是学习这些技术的教程和课程）不是稀缺资源，而是高质量数据。

在调整和微调这些算法时，这通常成为数据科学（DS）和机器学习（ML）从业者的棘手问题。明智的是，从一开始就应该指出当前的文章，与算法研究、教学法学习和模型原型的数据稀缺有关，而不是与扩展和运行商业运作有关。这不是关于如何获取时尚旅行或时尚应用程序的数据的讨论。这种消费者，社会或行为数据收集会给自己带来问题。但是，即使是访问质量数据集以测试特定算法方法的局限性和变化性之类的简单操作，也往往不是那么简单。

为什么需要综合数据集？

如果是从头开始学习，则最合理的建议是从简单的小规模数据集入手，你可以在二维空间中绘制这些数据集，以直观地了解模式并亲自查看ML算法的工作方式。

但是，随着数据量的爆炸式增长，视觉判断必须扩展到更复杂的问题上，例如学习样本复杂性，计算效率，类不平衡等概念。

在这一点上，实验灵活性和数据集性质之间的取舍开始发挥作用。 总会有办法找到一个庞大的真实数据集来实践算法。但这仍然是一个固定的数据集，具有固定数量的样本，固定的基础模式以及正样本与负样本之间的类别分离程度。还必须调查

测试和训练数据的选定部分如何影响算法的性能和抗干扰性。
面对不同程度的班级失衡，指标的稳定性。
必须进行什么样的偏差方差折衷。
在训练和测试数据（即标签以及功能集中的噪声）下，算法在各种噪声签名下的性能如何。
如何进行实验并找出ML算法的弱点？

事实证明，如果使用单个真实数据集很难做到这些，必须愿意使用足够随机合成的数据来捕获真实数据集的所有变化，但可控的数据足以帮助我们科学地调查正在构建的特定ML算法的优缺点。

尽管我们不会在本文中讨论此问题，但对于敏感的应用程序-医疗分类或财务模型，可以轻松地评估此类合成数据集的潜在利益，而获取高质量的，带有标签的数据集通常会很昂贵且令人望而却步。

ML综合数据集的基本功能

在这一点上可以理解，合成数据集是通过程序生成的，而不是来自任何种类的社会或科学实验，业务交易数据，传感器读取或图像的手动标记。但是，此类数据集绝对不是完全随机的，并且ML的合成数据的生成和使用必须以一些总体需求为指导。特别是：

它可以是数字的，二进制的或分类的（有序或非有序），特征的数量和数据集的长度可以是任意的。
它必须具有一定程度的随机性，但同时，用户应该能够选择各种统计分布来基于此数据，即可以精确控制和调整基础随机过程。
如果将其用于分类算法，则类别分离的程度应该是可控制的，以使学习问题变得容易或困难。
可以以可控的方式插入随机噪声。
生成速度应该很高，以便能够针对任何特定的ML算法使用大量此类数据集进行实验，即，如果合成数据基于现实生活数据集上的数据扩充，则扩充算法必须在计算上有效。
对于回归问题，可以使用复杂的非线性生成过程来获取数据-实际的物理模型可能会有助于这一工作。

在下一节中，我们将展示如何使用一些最受欢迎的ML库和编程技术来生成合适的数据集。

使用scikit-learn和Numpy生成标准回归，分类和聚类数据集

Scikit-learn是用于数据科学的基于Python的软件中最受欢迎的ML库。除了优化的ML例程和构建方法外，它还拥有用于合成数据生成的实用方法的可靠集合。

scikit-learn的回归

Scikit-learn的dataset.make_regression 函数可以创建具有任意数量的输入要素，输出目标以及它们之间的信息耦合程度，可控制随机回归问题。

使用Scikit学习进行分类

与上面的回归函数类似，dataset.make_classification生成一个随机的多类分类问题，具有可控制的类分离和增加的噪声。如果需要，还可以随机翻转任意百分比的输出符号以创建更难的分类数据集。

使用Scikit学习进行聚类

scikit-learn实用程序功能可能会产生各种聚类问题。最直接的方法是使用 datasets.make_blobs，它会生成任意数量的具有可控制距离参数的聚类。

对于测试基于亲和力的聚类算法或高斯混合模型，以特殊形状生成聚类非常有用。我们可以使用 datasets.make_circles 函数来实现。

为了使用支持向量机（SVM） 算法测试非线性核方法，使用 k-NN等最近邻方法，甚至测试简单的神经网络，通常建议对某些形状的数据进行实验。我们可以使用dataset.make_moon 函数用可控制的噪声生成此类数据。

具有Scikit-learn的高斯混合模型

高斯混合模型（GMM）是令人着迷的对象，可用于文本处理/ NLP任务中的无监督学习和主题建模。这是一个简单函数的说明，以显示为这种模型生成综合数据有多么容易：

import numpy as np

import matplotlib.pyplot as plt

import random

def gen_GMM(N=1000,n_comp=3, mu=[-1,0,1],sigma=[1,1,1],mult=[1,1,1]):

"""

Generates a Gaussian mixture model data, from a given list of Gaussian components

N: Number of total samples (data points)

n_comp: Number of Gaussian components

mu: List of mean values of the Gaussian components

sigma: List of sigma (std. dev) values of the Gaussian components

mult: (Optional) list of multiplier for the Gaussian components

) """

assert n_comp == len(mu), "The length of the list of mean values does not match number of Gaussian components"

assert n_comp == len(sigma), "The length of the list of sigma values does not match number of Gaussian components"

assert n_comp == len(mult), "The length of the list of multiplier values does not match number of Gaussian components"

rand_samples = []

for i in range(N):

pivot = random.uniform(0,n_comp)

j = int(pivot)

rand_samples.append(mult[j]*random.gauss(mu[j],sigma[j]))

return np.array(rand_samples)

超越scikit-learn：来自符号输入的合成数据

尽管上面的功能可能足以解决许多问题，但生成的数据确实是随机的，并且用户对实际机械的控制较少

生成过程的滑稽动作。在许多情况下，可能需要一种可控的方法来基于定义明确的分析函数（涉及线性，非线性等条件）来生成回归或分类问题。下一篇文章显示了如何 将符号数学包SymPy和SciPy中的函数结合起来， 以根据给定的符号表达式生成综合回归和分类问题。

带有符号表达的随机回归和分类问题生成

从给定的符号表达式生成的回归数据集。

从给定的符号表达式生成的分类数据集。

使用scikit-image进行图像数据增强

深度学习系统和算法是大量的数据消费者。但是，为了测试深度学习算法的局限性和抗干扰性，通常需要向算法提供相似图像的细微变化。

Scikit-image 是一个了不起的图像处理库，它基于与scikit-learn相同的设计原理和API模式构建，提供了数百种十分酷的功能来完成此图像数据扩充任务。

我们展示了这种增强过程的一些选定示例，从单个图像开始，在同一图像上创建数十个变体，以有效地乘以数据集，并创建巨大规模的合成数据集，从而以健壮的方式训练深度学习模型。

如色相，饱和度，价值渠道：

播种

随机噪音

旋转

漩涡

带分割的随机图像合成器

NVIDIA提供了一个称为NDDS的UE4插件，以使计算机视觉研究人员能够导出带有元数据的高质量合成图像。它支持图像，分割，深度，对象姿势，边界框，关键点和自定义模具。除导出程序外，该插件还包括各种组件，这些组件能够生成随机图像以进行数据增强和对象检测算法训练。随机化实用程序包括照明，对象，相机位置，姿势，纹理和干扰项。这些组件一起使深度学习工程师可以轻松创建随机场景以训练其CNN。

使用pydbgen生成分类数据

Pydbgen是一个轻量级的纯Python库，用于生成随机有用的数据（例如名称，地址，信用卡号，日期，时间，公司名称，职务，车牌号等）并将其保存在Pandas的dataframe对象中，或作为数据库文件或MS Excel文件中的SQLite表。

这是一些说明性的例子，

综合时间序列数据集

有相当多的论文和代码存储库用于使用在现实多元时间序列中观察到的特殊功能和模式来生成合成时间序列数据。以下Github链接给出了一个简单的示例：

综合时间序列

合成音频信号数据集

音频/语音处理是深度学习从业人员和ML爱好者特别感兴趣的领域。 Google的NSynth数据集 是由各种乐器合成的（简短的音频文件的）声音合成库（使用神经自动编码器以及人类和启发式标签的组合）。这是数据集的详细说明。

强化学习的综合环境

OpenAI体育馆

OpenAI Gym是用于强化ML的综合学习环境的最大存储库。它由大量预编程环境组成，用户可以在其上实施强化学习算法，以对性能进行基准测试或对隐藏的弱点进行故障排除。

随机网格世界

对于强化学习的初学者而言，它通常有助于在简单的网格世界中进行练习和实验，在这种网格世界中，代理人必须穿越迷宫才能到达最终状态，并获得每个步骤和最终状态的奖励/惩罚。

只需几行简单的代码，就可以合成具有任意大小和复杂度的网格世界环境（具有用户指定的终端状态和奖励向量分布）。

看看这个Github仓库，可以了解想法和代码示例。

总结

在本文中，我们介绍了一些用于机器学习的合成数据生成示例。大家应该清楚，它们绝不是数据生成技术的详尽清单。实际上，除了scikit-learn之外，许多商业应用程序都提供相同的服务，因为使用各种数据训练ML模型的需求正在快速增长。但是，如果作为数据科学家或ML工程师，你创建了合成数据生成的编程方法，那么它既可以节省组织的金钱和资源来投资第三方应用程序，又可以把ML开发的既有整体性又时尚。

分享到:

閱讀更多 CDA數據分析師 的文章

關鍵字: 软件 Faceb 微软

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"