微軟發布開源跨平台機器學習框架ML.NET 0.2版本

微軟發佈開源跨平臺機器學習框架ML.NET 0.2版本

上個月在Build 2018年微軟發佈了ML.NET 0.1,一個跨平臺的開源機器學習框架。今天又發佈了ML.NET 0.2。這個版本側重於添加新的ML任務,比如集群,使驗證模型更容易,為ML.NET示例添加一個全新的repo,並解決我們在GitHub repo中收到的各種問題和反饋。

下面提到了ML.NET 0.2版本的一些亮點:

新的機器學習任務:集群

集群是一種無監督的學習任務,它根據項目的特徵對項目集進行分組。它識別哪些項目比其他項目更相似。

這在一些場景中可能很有用,比如根據主題將新聞文章組織成組,根據用戶的購物習慣對用戶進行分段,以及根據觀眾對電影的喜好對觀眾進行分組。

Iris Flower示例演示瞭如何使用ML.NET 0.2中的集群

通過交叉驗證和培訓測試更容易進行模型驗證

交叉驗證是一種驗證模型統計性能的方法。它不需要單獨的測試數據集,而是使用您的訓練數據來測試您的模型(它將數據劃分為不同的數據,以便進行培訓和測試,並多次執行)。使用ML.NET 0.2,您現在可以使用交叉驗證,這裡有一個很好的例子。(https://github.com/dotnet/machinelearning/blob/78810563616f3fcb0b63eb8a50b8b2e62d9d65fc/test/Microsoft.ML.Tests/Scenarios/SentimentPredictionTests.cs#L51)

Train-test是在單獨的數據集中測試模型的快捷方式。參見這裡的示例用法。(https://github.com/dotnet/machinelearning/blob/78810563616f3fcb0b63eb8a50b8b2e62d9d65fc/test/Microsoft.ML.Tests/Scenarios/SentimentPredictionTests.cs#L36)

使用具有CollectionDataSource的數據對象進行訓練

net 0.1允許從帶分隔符的文本文件加載數據。net 0.2中的CollectionDataSource增加了使用對象集合作為LearningPipeline輸入的能力。

下面的代碼片段展示瞭如何使用ML.NET 0.2中的CollectionDataSource。

微軟發佈開源跨平臺機器學習框架ML.NET 0.2版本

新的ML.NET示例repo

我們創建了一個新的repo https://github.com/dotnet/machinelearning-samples,並添加了一些開始和結束應用程序示例。

  • 情緒分析(二進制分類)

這個示例演示瞭如何使用ML.NET分析客戶評論的情緒(正面或負面)。該示例使用了IMDB和Yelp評論。

  • 鳶尾花的分類(多類分類)

這個樣本的中心是預測虹膜花的類型(setosa, versicolor,或virginica)基於花的參數,如花瓣長度,花瓣寬度等。

  • 出租汽車費預測(迴歸)

出租車票價預測示例演示瞭如何構建一個ML.NET模型來預測紐約市出租車票價。本樣本採用迴歸模型,考慮了乘客數量、信用類型和旅行距離等特徵。

  • 虹膜數據集聚類分析(聚類)

這個示例演示瞭如何通過對Iris數據集執行集群分析,從而使用ML.NET構建集群模型。

  • GitHub問題分類(多類分類)

這是一個E2E示例,展示瞭如何使用ML.NET構建GitHub的問題分類器。

這篇博文只介紹了一些ML.NET 0.2版本的頂級聲明,在這裡可以找到ML.NET 0.2的完整版本說明(https://github.com/GalOshri/machinelearning/blob/f026db2cdba1858b0e8bea2ddf2a4092a61bd708/docs/release-notes/0.2/release-0.2.md)。

幫助建立ML.NET以滿足您的需求

如果你還沒有使用過機器學習,請試試ML.NET。

https://github.com/dotnet/machinelearning


分享到:


相關文章: