ML.NET介绍：常使用的数据结构IDataView介绍，进行简单机器学习

2019-01-16 13:43:49 程序你好

ML.NET一种跨平台的开源机器学习框架。ML.NET将让广大.NET开发人员可以开发自己的模型，并且将自定义的机器学习融入到其应用程序中，无需之前拥有开发或调整机器学习模型方面的专业知识。能够支持诸多机器学习任务，比如说分类（比如文本分类和情绪分析）以及回归（比如趋势预测和价格预测）,使用模型用于预测，还包括该框架的核心组件，比如学习算法、转换和核心的机器学习数据结构。

在ML.NET中，IDataView类似于SQL视图：它是一个延迟计算的、不可变的、可游标的、异构的、图式化的数据集。

IDataView简介

IDataView是一组接口和组件，为机器学习和高级分析应用程序提供高效的结构化数据处理。它被设计成优雅而高效地处理高维数据和大型数据集。它不直接处理分布式数据和计算，但适用于对属于较大分布式数据集的数据分区进行单节点处理。

IDataView是ML.NET的数据管道机制。使用这个库的Microsoft团队实现了IDataView相关组件的库(加载器、转换、保护程序、培训器、预测器等)，并验证了性能、可伸缩性和任务灵活性的好处。

IDataView的名称来自数据库中的对象，其中术语表通常表示可变的数据体，而视图是对一个或多个表或视图进行查询的结果，通常是不可变的。注意，表和视图都是示意图化的，被组织成符合列类型的类型化列和行。

视图在以下几个方面与表不同：

视图是可组合。新视图是通过对其他视图应用转换(查询)形成的。相反，从现有表生成新表需要复制数据，从而使表解耦;新表没有以任何方式链接到原始表。

视图是虚拟的。表已完全实现/持久化。换句话说，表包含行中的值，而视图从其他视图或表计算值，因此不包含或拥有这些值。

视图是不变的。表是可变的。由于视图不包含值，而只是从源视图计算值，因此没有修改值的机制。

请注意，不变性和组合性是需要对转换进行推理的技术(如查询优化和远程处理)的关键支持因素。不变性也是并发性和线程安全性的关键。虚拟视图最小化了I/O、内存分配和计算。只在需要满足本地信息请求时才访问信息、分配内存和执行计算。

设计要求

IDataView设计满足以下设计要求:

General schema:每个视图携带模式信息，该信息指定视图列的名称和类型，以及与列关联的元数据。系统针对相当少的列进行了优化。

开放类型系统：列类型系统是开放的，即可以在任何时间和任何程序集中引入新的数据类型。

高维数据支持（做数据分析时候，经常把数据先整理成一张大宽表，然后再进行风险预测之类的建模）：列的类型系统包含齐次向量类型，因此可以将一组相关的原始值分组到单个向量值列中。

复合性支持：IDataView设计支持各种类型的组件，并支持组合多个基本组件来实现更高级别的语义。

开放组件系统：虽然ML.NET代码有一个越来越大的IDataView组件库，但是可以在其他代码库中实现与这些组件互操作的其他组件。

Cursoring：通过行游标顺序访问视图的行。多个游标可以在同一个视图上活动，可以是顺序的，也可以是并行的。特别是，视图支持通过行进行多次迭代。每个游标都有一组活动列，在游标构建时指定。通过在游标构造时传递的可选随机数生成器支持变换。

要访问视图中的数据，可以通过调用GetRowCursor方法从视图中获取行游标。行游标是视图中单个行(即当前行)上的可移动窗口。行游标提供当前行的列值。光标的MoveNext()方法前进到下一行。还有一个MoveMany(long count)方法，它在语义上等价于重复调用MoveNext()，计算时间。

注意，行游标不是线程安全的;它应该在单个执行线程中使用。但是，多个游标可以在相同或不同的线程上同时活动。

延迟计算：当只请求列的一个子集或行的一个子集时，可以并且通常避免对其他列和行的计算。某些转换、加载器和缓存场景的计算可能是推测性的或急切的，但默认情况下只执行所请求的列和行所需的计算。

不可变性和可重复性:视图提供的数据是不可变的，执行的任何计算都是可重复的。特别是，视图上的多个游标以相同的顺序(在使用相同的变换时)生成相同的行值。在这里看到的。

内存效率：IDataView设计包括协作缓冲区共享模式，消除了在浏览视图时为每行分配对象或缓冲区的需要。从内存分配的角度来看，Cursoring本质上是高效的。执行MoveNext()不需要内存分配。从游标检索基本列值也不需要内存分配。要从游标检索向量列值，调用者可以选择提供应该将值复制到其中的缓冲区。当提供的缓冲区足够大时，不需要额外的内存分配。当缓冲区没有提供或太小时，游标将分配足够大小的缓冲区来保存这些值。这种协作缓冲区共享协议消除了为每一行分配单独缓冲区的需要。为了避免在迭代时进行任何分配，客户机代码只需要在迭代循环之外预先分配足够大的缓冲区。

注意，IDataView允许需要在内存中物化数据的算法这样做。系统中没有任何东西可以阻止组件遍历源数据，并在内存中构建所需信息的完整表示。

批处理并行计算:IDataView系统能够获得一组可以并行执行的游标，每个游标提供行子集。可以在加载器级别或管道中的任意点将游标拆分为多个游标。执行拆分的组件还提供了整合逻辑。这使得计算量大的管道能够利用多个核心，而不会使每个单独的转换实现复杂化。在这里看到的。

大数据支持：在数据文件上构造视图和在视图行中进行游标不需要将整个数据放入内存中。相反，当处理整个数据时，它可以完全加载到内存中。

再ML框架里使用IDataView处理文本数据很简单，代码如下：

示例代码：

1、创建一个MLContext mlContext = new MLContext();

2、通过 MLContext创建一个TextLoader对象，并指定数据列的信息。

Data Reader 对象用来创建数据的ML.NET对象，它获取T的一个实例并从中返回数据，例如，TextLoader是一个IDataReader。例如，TextLoader是一个IDataReader。它获取文件源并生成数据。

TextLoader loader = mlContext.Data.CreateTextReader(

columns: new[]

{

new TextLoader.Column("ImagePath", DataKind.Text, 0),

});

3、按指定的路径（一个或多个），使用TextLoader对象读取文本文件数据到IDataView对象。

var data = loader.Read(path);

或者 loader.Read（new MultiFileSource(dataLocation)）；

4、在DataView中过滤行

有时你会需要对数据集过滤一部分数据，比如那些离群值(outlier)。ML.NET 中的FilterByColumn()API可以帮助对数据进行过滤。

使用方法如下面的代码所示：

IDataView trainingDataView = mlContext.Data.FilterByColumn(baseTrainingDataView, "Age", lowerBound: 18, upperBound: 60);

5、接下来说一个再ML中重要的概念对象，Estimator（评估器）：

Estimator是从数据中学习的对象。学习的结果是一个Transformer。

在ML.NET中，使用这个属性创建学习管道，将不同的Estimator链接在一起:

Transformer也是ML中一个对象，它接受数据，对数据做一些工作，并返回新的转换后的数据。

ML.Net中的大多数转换器倾向于一次操作一个输入列，并生成输出列。例如，一个新的HashTransformer(“foo”，“bar”)从列“foo”中获取值，对它们进行哈希，并将它们放入列“bar”中。

var pipeline = mlContext.Transforms.LoadImages(imageFolder: imagesFolder, columns: ("ImagePath", "ImageReal"))

.Append(mlContext.Transforms.Resize("ImageReal", "ImageReal", ImageNetSettings.imageHeight, ImageNetSettings.imageWidth))

.Append(mlContext.Transforms.ExtractPixels(new[] { new ImagePixelExtractorTransform.ColumnInfo("ImageReal", "input", interleave: ImageNetSettings.channelsLast, offset: ImageNetSettings.mean) }))

.Append(mlContext.Transforms.ScoreTensorFlowModel(modelLocation, new[] { "input" }, new[] { "softmax2" }));

6、接下来是很重要的代码，调用评估器的Fit方法对提供的Data进行学习训练：

var modeld = pipeline.Fit(data);

7、Prediction function（预测函数）

Prediction function可以将transforme应用于一行数据的。

一旦您获得了模型(通过Fit()训练的transforme，或者从某处加载的transforme)，您就可以使用它对model. transform (data)的常规调用进行预测。然而，当您在实际场景中使用这个模型时，您通常没有太多的例子可以预测。相反，您每次只有一个示例，您需要立即对它们做出及时的预测。

根据前面的学习模型，创建一个预测引擎，

var predictionEngine = modeld.CreatePredictionEngine(mlContext);

执行方法Predict，进行预测操作。

var output = predictionEngine .Predict(example);

预测函数不是可重入/线程安全（re-entrant / thread-safe）的。如果您希望与多个线程同时进行预测，则需要为每个线程提供一个预测函数。

ML中支持的机器学习类型：

深度学习Deep Learning

深度学习是机器学习的一个子集。深度神经网络等深度学习架构通常应用于计算机视觉(目标检测、图像分类、风格传递)、语音识别、自然语言处理和音频识别等领域。

现在已经支持TensorFlow with ML.NET，后续会加入Object detection，Style Transfer ，ONNX with ML.NET

Binary classification

将给定集合的元素分类为两组的任务，预测每个元素属于哪一组

Multi-class classification

将实例分类为三个或多个类之一的任务，预测每个实例属于哪个组。

预测 Regression

任务是用给定的输入变量数据预测一个数值。它被广泛用于预测和“多少/多少”预测。

Redis设计与实现: redisObject 数据结构，以及 Redis 的数据类型

数据结构-图（图的基本实现C++）

python 数据结构

零基础入门Python：基本命令、函数、数据结构

详解 HashMap 数据结构

五大集合(数据结构)要点

java 数据结构-队列详解

严蔚敏《数据结构》（C语言版）笔记和习题（含考研真题）详解

木兰编程语言入门教程之五——数据结构

【数据结构】秒懂系列:数据结构-堆(Heap)

【数据结构】秒懂系列:数据结构-树-(B+树)

数据结构顺序表（c语言）

二叉树的遍历-数据结构

数据结构--图

数据结构——动手实战双向链表

03.05 数据结构——动手实战双向链表

数据结构-二叉树以及遍历代码

03.01 数据结构--选择排序

03.01 数据结构--插入排序

03.01 数据结构--快速排序

03.01 数据结构--冒泡排序

数据结构——30行代码实现栈和模拟递归

01.数据结构

11.25 安卓系统权限检查机制，存储位置，数据结构

「数据结构」字符串排序算法最全总结

Python3 数据结构

「数据结构」Hash表

深入理解Linux内核中EPOLL机制系列(一)数据结构

09.26 数据结构：有了二叉查找树、平衡树为啥还需要红黑树？

数据结构：数组详细介绍，你足够了解数组的特性和使用场景吗？

数据结构-队列

数据结构-队列，你会了吗？

数据结构-栈

数据结构-数组

抽象数据类型、数据结构、算法与Java语言：ADT List

抽象数据类型、数据结构、算法与Java语言：ADT Queue（队列）

02.26 Python3 自学第9天：数据结构

打破认知：程序设计 = 算法 + 数据结构？

01.09 面试必问的ConcurrentHashMap实现原理：数据结构、get与put操作

数据结构：实现一个队列，并完成各个接口的实现

数据结构——并查集

spark2.0机器学习——数据结构

2018最新BAT技术面试78题：数据结构+网络+NoSQL+分布式架构！

计算机二级《数据结构》知识点总结

数据结构-栈结构实现（java）

数据结构-单向链表实现（java）

数据结构-顺序表基础实现（java）

比特币源码解析(7)-数据结构-区块

数据结构——哈希表

03.23 数据结构——哈希表

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"