新手入门大数据?

张僮珀


要清楚的一点是,大数据包括要学习的很多:统计学、机器学习、数据挖掘、数据库、分布式计算,云计算,信息可视化等技术或者方法来整理数据。想先说一下大数据工作的三个步骤:

1.原始数据要经过收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;

2.要看数据的规律和特点

3.按照我们的需要,对数据分类,贴标签,总结整理并且做出预测。

经过以上步骤,可以看出数据科学就是复合型的技术,既然是技术就需要语言,现在大家都知道R和python最适合大数据。

所以,新手入门可以从python基础知识开始:

1)计算机组成原理:计算机组成部分、操作系统分类、B/S和C/S架构、理解软件与硬件的区别
2)Python变量以及开发环境:字符串、数字、字典、列表、元祖等
3)流程控制语句:程序的执行顺序,顺序执行、循环执行、选择执行
4)函数:定义函数、调用函数、函数的嵌套、递归函数
5)文件的基本操作:文件的打开、编辑、关闭
6)面向对象编程:类对象、实例对象、定义类、实例化对象
7)异常处理:学会捕捉异常、自定义异常

8)模块和包:理解模块和包的概念并学会使用

后面学习数据挖掘与数据分析:

1)基本概念:顺序表、链表、栈、队列
2)排序与索引:排序、索引、树与树算法
3)Series对象:Series对象、DataFrame对象、DataFrame查询
4)数据操作:数据的操作、存取与统计
5)Pandas绘图:熟练使用Pandas
6)科学计算numpy、pandas:numpy、pandas、matpalotlib、金融数据的综合分析处理

可以不必从python入门,可以从java基础知识开始学习。但是大数据入门要选择一门语言,下面有关java入门的方法我就不一一打出来了,可以看图片。


啊窝额


一提到“大数据”,大家会想到什么?海量数据,快速处理,挖掘数据的价值,数据的模糊处理技术……“大数据”是一种数据,一种技术,一件事情,它还可以指代一种经济模式、创业类型。

和“大数据”这个标签相关的工作职位也越来越多,每一个的职衔听起来都很酷,同时存在的,还有很多很酷的说法,比如“未来10年最赚钱的就是做大数据”之类。众多有为有志的青年学子,包括职场中人,深深为之吸引,生出投身其中的念头。

“大数据行业”还是一个新的行业。新,意味着门槛低,意味着没有旧有势力,意味着大有可为。在方兴未艾的窗口期内,不管你以前是干什么的,只要真心想进来,总能进得来。但同时,也意味着巨大的泡沫,和未来迅速紧缩的风险。

进来容易,要想立足,就得不断学习,内外双修——内:理论知识的习学研究,目前主要包括:统计知识、机器学习知识和数据库知识等;外:对工具的运用,Java, Python, R, SQL,SAS, SPSS, Excel, Tableau等等。


就业职通车


新手要学习大数据需要做的准备其实还挺多。

第一:你是否有一定的基础,例如有没有学过Java之类的,还是说完全不懂计算机语言。倒不是一定要有基础才能学,只是对你没有全面了解就乱给你推方案,实在不靠谱。

第二:你干嘛要学大数据?你是一个能静下心来的码农型人物吗?如果你性格就不适合干这个那不是很苦逼嘛?是的,码农是很苦逼的。

第三:大数据的概念很大。你想学其中的哪部分呢?这个设计到你的学习目的。一般来说是为了入职大数据相关的岗位,因为貌似工资挺高。但是跟大数据相关的岗位也很多啊,职责都不一样,如果全部都学,那就是耽误时间了。

一般来说,大数据涉及的岗位有数据采集,数据挖掘,数据存储,数据可视化等等。难度有高有低,当然收入有是很大差别。

如果还有问题,可以私聊我,我们详谈。


—— IT行业小鸟一只。


老谢侃大山


很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢?

大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。

一、大数据相关工作介绍

  大数据方向的工作目前主要分为三个主要方向:

  1. 大数据工程师

  2. 数据分析师

  3. 大数据科学家

  4. 其他(数据挖掘等)


二、大数据工程师的技能要求

  附上大数据工程师技能图:

必须掌握的技能11条

  1. Java高级(虚拟机、并发)

  2. Linux 基本操作

  3. Hadoop(HDFS+MapReduce+Yarn )

  4. HBase(JavaAPI操作+Phoenix )

  5. Hive(Hql基本操作和原理理解)

  6. Kafka

  7. Storm/JStorm

  8. Scala

  9. Python

  10. Spark (Core+sparksql+Spark streaming )

  11. 辅助小工具(Sqoop/Flume/Oozie/Hue等)


高阶技能6条

  1. 机器学习算法以及mahout库加MLlib

  2. R语言

  3. Lambda 架构

  4. Kappa架构

  5. Kylin

  6. Alluxio


三、学习路径

  可以参考加米谷大数据的课程大纲,理论+代码+实战+实操,独有课程体系,大数据开发,数据分析与挖掘。人工智能等,都可以去guan网查看。


加米谷教育


《爆发》《大数据时代》《大数据》

首先看巴拉巴西的《爆发》,在一个历史故事的连续讲述中,了解大数据的概念实质;接着看舍恩伯格的《大数据时代》,明白大数据理念和生活工作及思维变革的关系;最后翻翻涂子沛的《大数据》,看美国政府在大数据开放上的进程与反复,算是个案。

如果想系统的学习话,建议去华信智原,华信智原在大数据方面还是有所做为的,想了解的话可以去了解下。


非常一般2018


我认为学习任何东西的最好方法就是实际使用它。幸运的是,我们有大量的大数据技术和分析工具,它们都是开源的,或者让您可以通过试用或者dev许可的进行免费学习。

或者为了提供一个简单的答案,我会假设您想要使用的大数据工具是Hadoop技术堆栈。 为了不提供过于简单的答案,您不会寻找已经建立的行业解决方案或SaaS提供商。 一般来说,NoSQL数据库并不真正用于分析(但可能是源)。

1 想想你想解决的大数据问题

传统上,大数据已被“3Vs”描述:体积,品种,速度。你想要捕捉什么样的指标? 现在最常见的用例是涉及大量的日志数据。这是因为日志数据往往是非结构化的,可能来自多个来源,特别是对于热门网站,可能会很大(每天TB)。因此,具有执行分布式计算任务的框架对于解决这个问题至关重要。

2 下载并设置您的大数据解决方案

最简单的方法就是使用预构建的虚拟机,这个虚拟机几乎可以让任何Hadoop提供者免费使用,然后在本地运行它。您也可以使用亚马逊网络服务等服务。大多数人通常会使用map-reduce框架和Hive来处理大量的数据。既然你只是想学习,你不需要兆字节,甚至千兆字节的数据,所以访问一个100个节点的集群并不是一个优先事项。 尽管一旦开始进入多节点环境,肯定会遇到一些克服和理解的挑战。

3 解决你的大数据问题

一旦你建立了你的环境,去编码! 有大量的文档和教程可以参考和学习[2]。 而且,只需在Google中输入问题,就可以获得大量资源。 阅读这些工具并了解该技术如何应用于解决您的使用案例。 考虑一下您希望在数据中捕获的各种指标。 想想你需要写什么样的map-reduce程序来捕获你想要分析的数据。 想想你如何利用像Hive或Pig这样的东西来完成大量的繁重数据处理工作。 在单个节点环境中可能不会显而易见的东西,在分布式环境中会影响性能甚至出现问题。

4 分析与可视化:大数据和BI的性感一面

既然您已经解决了您的大数据问题,并以可管理的格式存储了您的数据,那么您可以利用一些靓丽的报告来向你的老板炫耀。大多数利用Hadoop的企业架构仍然会有一个SQL数据库用于存储和报告Hadoop中的数据(您将很快意识到map-reduce的响应时间非常长,即使在小数据集上也是如此)。将数据从Hadoop加载到SQL数据库中对于现实世界来说是很好的做法,但为了学习大数据它不是必要的。有几个(免费的)报告工具可以直接连接到Hadoop / Hive,并且可以很好地用于学习目的。如果你想成为这个街区上的酷儿(并且在大公司中超级可雇用),我会选择Tableau(产品)。你也可以借助一些工具来获得一些预测建模和机器学习技能,并且可能开始称自己为数据科学家。


独立的互联网从业者


新手入门大数据,首先要搞清楚自己的基础水平,学习本是一件严肃的事情,不能盲目,要有目标。

首先分为两类:一是有一定的编程基础,想要学习大数据以达到技术的提升和深造;

二是零基础想要涉猎大数据行业。

作为零基础的你,建议你不要急于涉猎大数据技术,而是先深入学习一门编程语言(java、Python等等)。当然了如果感兴趣也可以看一下推荐的书籍,但主要任务还是要放在基础上。

作为有基础的你,可以先从以下大数据书籍入手:

大数据书籍

1、《为数据而生》

书中分别阐述在大数据1.0、大数据2.0和大数据3.0时代下,相对应的数据分析需要做到分析、外化、集成。

2、《智能时代》

这本书作者分七章从不同角度对大数据进行介绍,分别以技术和思维方式的改变为主线,从工业革命这个角度嵌入,顺理成章的延伸出大数据与智能化,但是没有将过多笔墨放在技术的深究上,而是选择从应用层面体现大数据的理念。大数据应用则会渗透到各行各业,这正是作者的用心之处。

3、《R语言预测实战》

R语言横跨了金融、生物、医学、互联网等多个领域,主要用于统计、建模及可视化。由于上手快、效率高,备受技术人员青睐。预测是大数据挖掘的主要作用之一,借助R语言来做大数据预测,可以兼具效率与价值于一身。

3、《数据之巅》

这本书中,从小数据时代到大数据的崛起,作者以宏大的历史观、文化观、大数据观,给我们描绘了一幅数据科学、智慧文化的全景图。

4、《Hadoop权威指南》

《Hadoop权威指南(中文版)》从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。

5、《Hive编程指南》

《Hive编程指南》是一本Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。

想要成为大数据工程师,需要以下的专业技术知识:

hadoop 、spark、storm开发、hive 数据库、Linux 操作系统、分布式存储、分布式计算框架大数据处理和分析技术等等

有需要更多学习资料和入门视频教程的,点赞关注联系我,免费分享!!!顶起来吧!


码农视界


现在大数据行业已经趋于稳定,越来越多的中小企业从最初的跟风到冷静下来,如果确实想转行,最基础的,Linux的基础操作,还有就是掌握一门语言,推荐Python,简单易学,且很适合后期的数据挖掘和人工智能,hadoop生态圈的各个产品,离线分析和实时分析,当然,hive和spark了,不过前期你需要会scala,目前金融行业对数据的实时要求很高,哈哈,对于一个小白,这些已经够你学习好长时间得了😄


隆幼枫就是我


这个问题其实还是挺难回答的,结合个人的工作经验,说一下我自己的看法。在我看来任何事情,任何工作都是基于兴趣的前提下,当然兴趣和学习谁先谁后,这是一个循序渐进的过程。第一:我们掌握了一些基本的知识,统计学是必不可少的,概率论等都是大数据的基础,大数据的本职是发现潜在的事物规律,因此统计学是一个再好不过的学科,通过样本来逼进总体,从而发现内在的规律,指导我们业务工作。第二:工具类,我们有基础的知识,但是我们还需要工具,工具是我们处理数据的利器。所以,我们需要掌握一些常用的工具,例如Excel、R、SQL等相关的语言。这样我们才能更加灵活的加工我们的数据,就想拥有神兵利器的战士,驰骋在战场上。第三、兴趣,永远保持兴趣,是一项工作取得成就的前提,能不能在大数据上深入的更深一些,需要我们拥有良好心态和积极主动的探索的精神。只有这样,我们在学习大数据上才能做到循环往复的效果。最后,大数据是一个很大的概念,或者说涉及到的职业比较多,需要我们做好提前的判断,未来自己到底适应哪种职业,才能取得更好的成绩


Visan63


首先得有java基础,因为hadoop生态组件全部用java编写,java的书建议学习《疯狂java》,大数据建议先看两本《hadoop权威指南第四版》和《spark快速大数据分析》,hadoop擅长离线计算,spark擅长在线计算(离线计算也能处理)


分享到:


相關文章: