本文内容较丰富,建议收藏后阅读
》》》文末有干货》》》
在这篇文章中,笔者将假设大家对数据挖掘已经有了一定了解。对数据挖掘不了解的读者可以参考这篇文章:
要想学好机器学习,数据挖掘的技能是必须具备的。因为在真实的生产环境中,最费时的往往不是模型的选择与调优,而是数据的收集与处理!
所以今天,笔者将为大家分享7款专门用于数据挖掘的精品开源工具,帮助大家事半功倍地完成各种任务:
Weka
Weka是一款基于Java的免费开源软件(拥有GNU, GPL证书)。可以在Windows, MacOS和Linux上使用。它包含了各种数据挖掘的机器学习算法;以及用于数据预处理、分类、回归、聚类和可视化的工具。
Weka拥有一个友好的图形界面, 主要用于数据的可视化。我们可以用各种格式的文件导入原始数据,并对它们进行各种挖掘操作(比如筛选、聚类、分类和特征选择等)。
Rapid Miner
Rapid Miner是一个领先的预测分析平台,同时提供商业版本和开源版本。Rapid Miner通过一体机编程环境和易用且丰富的数据科学算法库,帮助企业将预测分析嵌入到其业务流程中。
除了基本的数据清理、聚类等标准数据挖掘功能外, 该软件还有以下特点:
- 内置模板
- 专业的可视化环境
- 对Python、R等语言的无缝集成
在生产环境下,这些特性都有助于快速完成任务。所以Rapid Miner被广泛用于商业、研究和教育领域。
Orange
如果你已经有一定的Python数据科学基础,那你可能对Orange已经比较熟悉。它是一个Python库,通过丰富的挖掘和机器学习算法来支持Python脚本。
Orange被用于数据预处理、分类、建模、回归、聚类等常规数据挖掘任务。如图,Orange 还配备了可视化编程环境, 以及非常易于使用的UI(比如一些可以拖动的组件)。由于Python语言本身的简便性,Orange可以成为新手投入数据挖掘的一个很好的切入点。
Knime
Knime是领先的数据分析、集成和报告平台之一。它是用Java编写的,拥有一个友好的图形界面。
如图,Knime的图形界面提供了创建数据流、数据预处理、收集、分析、建模等选项。
值得一提的是,Knime拥有庞大的用户群和活跃的开源社区。它利用Eclipse的扩展功能为文本和图像挖掘等所需功能添加插件。可以说,Knime是商业使用的理想选择。
DataMelt
Datamelt(也称Dmelt)的功能不仅限于是数据挖掘:它是一个计算平台,提供统计、数字、符号计算、数据可视化等功能。
DataMelt使用3D图形和直方图提供线性回归、曲线拟合、聚类分析、神经网络、模糊算法、分析计算和交互式可视化等数据挖掘功能。
我们可以使用其自带的IDE(集成开发工具包)来使用它,也可以使用其Java API从应用程序调用它的功能。
DataMelt非常适合学生、工程师和科学家。Apache Mahout
Mahout 主要是一个机器学习算法库, 可帮助进行聚类、分类和模式挖掘。它可以在分布式的系统下使用(比如Hadoop)以大幅提升
运行效率。当下,Mahout正被一些科技行业的巨头使用,比如大名鼎鼎的Adobe、AOL和Drupal等。如果你需要并行化地挖掘海量数据,那么Mahout就是你最好的选择。
ELKI
ELKI是用Java编写的开源软件。它特别侧重于聚类分析和异常值检测两个领域,集成了大量的相关算法。
ELKI拥有一个图形见面,使用时在其中选定算法并运行即可显示结果。
ELKI的设计目标是高性能、可扩展性、和模块化设计。但是作为开源软件,ELKI目前不提供官方的专业支持,因此,它最适合研究人员。
相关干货:
想要系统地学好机器学习吗?这里有一份精品课程资源等你领取!
请先点击关注;然后私信发送“顶级大学资源”
即可领取一份笔者精心整理的机器学习课程资源(中文字幕)
机器学习干货君致力于原创易于理解的技术原理与细节文章
I Studied Hard,
So YOU Don't Have To !
欢迎大家关注: )
閱讀更多 機器學習乾貨君 的文章