学习大数据需要什么基础?

汤圆和辣条


大数据涉及的面太广,可以基于我在金融领域做数据的多年经验,谈一点关于入门看法:

定位:走技术,还是走业务?

在一个组织里,大数据的架构基本分中台和前台。中台负责整个集团的数据收集、加工处理、产品整合;前台主要是负责产品的运营、数据的运用。

所以大数据的岗位,也可以分为技术类(中台)和业务类(前台)。

根据你个人的性格、能力以及未来的规划,选定一个方向。

技能:适合于任何岗位的基础技能

1.Excel数据处理、分析、绘图、常用函数、数据透视表等。

2.SQL类语言,基本的查询、统计等。

3.Python语言,这是最适合入门型的语言,而且Python应用广泛,包括数据爬取、自动化任务脚本、数据建模、人工智能等等。

4.PPT制作和一定的表达能力,将分析结果形象、具体的展现出来,可以给你额外加分。

5.业务理解能力,不管你是技术类还是业务类,都需要始终以业务为核心,摆脱业务,数据没有任何价值,所以必须充分的理解业务需求,才能让数据更好的产生价值。

如果对大数据方面的问题感兴趣,欢迎留言交流。


威廉职场成长


1、学习大数据首先要学习Java基础

  怎样进行大数据学习的快速入门?学大数据课程之前要先学习一种计算机编程语言。Java是大数据学习需要的编程语言基础,因为大数据的开发基于常用的高级语言。而且不论是学习hadoop,还是数据挖掘,都需要有编程语言作为基础。因此,如果想学习大数据开发,掌握Java基础是必不可少的。

  2、学习大数据必须学习大数据核心知识

  Hadoop生态系统;HDFS技术;HBASE技术;Sqoop使用流程;数据仓库工具HIVE;大数据离线分析Spark、Python语言;数据实时分析Storm;消息订阅分发系统Kafka等。

  如果把大数据比作容器,那么这个容器的容量无限大,什么都能往里装,大数据离不开物联网,移动互联网,大数据还和人工智能、云计算和机器学习有着千丝万缕的关系,大数据海量数据存储要高扩展就离不开云计算,大数据计算分析采用传统的机器学习、数据挖掘技术会比较慢,需要做并行计算和分布式计算扩展。

  数学知识,数学知识是数据分析师的基础知识。对于数据分析师,了解一些描述统计相关的内容,需要有一定公式计算能力,了解常用统计模型算法。而对于数据挖掘工程师来说,各类算法也需要熟练使用,对数学的要求是最高的。

  编程语言,对于想学大数据的同学,至少需要具备一门编程语言,比如SQL、hadoop、hive查询、Python等均可。

  3、学习大数据可以应用的领域

  大数据技术可以应用在各个领域,比如公安大数据、交通大数据、医疗大数据、就业大数据、环境大数据、图像大数据、视频大数据等等,应用范围非常广泛,大数据技术已经像空气一样渗透在生活的方方面面。大数据技术的出现将社会带入了一个高速发展的时代,这不仅是信息技术的终极目标,也是人类社会发展管理智能化的核心技术驱动力。


西门戒戒


首先,学习大数据是需要有java,python和R语言的基础。

1) Java学习到什么样的程度才可以学习大数据呢?

java需要学会javaSE即可。javaweb,javaee对于大数据用不到。学会了javase就可以看懂hadoop框架。

2) python是最容易学习的,难易程度:python java Scala 。

python不是比java更直观好理解么,因为会了Python 还是要学习java的,你学会了java,再来学习python会很简单的,一周的时间就可以学会python。

3) R语言也可以学习,但是不推荐,因为java用的人最多,大数据的第一个框架Hadoop,底层全是Java写的。就算学会了R还是看不懂hadoop。

java在大数据中的作用是构成大数据的语言,大数据的第一个框架Hadoop以及其他大数据技术框架,底层语言全是Java写的,所以推荐首选学习java

再给你们举例说明下它们的分工和作用,java注重业务,大数据注重数据,前端是脸(页面显示),java是胳膊(业务),大数据是直男大脑,人工智能,深度学习是有情商的大脑。


程序员小樊


本人10年开发培训经验,期间经历了Java Web,Android,H5,大数据,PHP等多个不同的方向的开发,也做过软件培训公司的金牌讲师,很有兴趣回答你这个问题。

大数据作为近几年国家大力倡导的一个技术方向,所以催生了很多的岗位需求,那么也有不少的朋友想学习大数据。

现在一般大数据开发的话,常用的技术体系是Java+大数据,个别也有python+大数据的,当然主流的肯定是Java+大数据。

所以你问学大数据需要什么基础,那一般都需要Java基础了,因为公司里很多大数据的平台,都是用Java来开发的,就比如我之前所在的G7智能物流数据平台,公司里的底层数据就是大数据处理,然后web层接口交互,业务代码都是java实现的。


可以联系我,java学习资料免费送!

我从事互联网开发10年,主要的研究方向集中在Java web微服务架构领域,Android移动端研发,HTML5前端方向,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信你一定会有所收获。

如果有Java,Android,H5等开发方面的问题,或者是开发求职方面的问题,都可以在评论区留言,或者私信我。


我从事互联网开发10年,主要的研究方向集中在Java web微服务架构领域,Android移动端研发,HTML5前端方向,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信你一定会有所收获。

如果有Java,Android,H5等开发方面的问题,或者是开发求职方面的问题,都可以在评论区留言,或者私信我。


一一哥Sun


第一阶段:静态网页基础(HTML+CSS)

1.难易程度:一颗星

2.技术知识点+阶段项目任务+综合能力

3.主要技术包括:html常用标签、CSS常见布局、样式、定位等、静态页面的设计制作方式等

第二阶段:JavaSE+JavaWeb

1.难易程度:两颗星

2.技术知识点+阶段项目任务+综合能力

3.主要技术包括:java基础语法、java面向对象(类、对象、封装、继承、多态、抽象类、接口、常见类、内部类、常见修饰符等)、异常、集合、文件、IO、MYSQL(基本SQL语句操作、多表查询、子查询、存储过程、事务、分布式事务)、JDBC、线程、反射、Socket编程、枚举、泛型、设计模式

4.描述如下:

称为Java基础,由浅入深的技术点、真实商业项目模块分析、多种存储方式的设计与实现。该阶段是前四个阶段最最重要的阶段,因为后面所有阶段的都要基于此阶段,也是学习大数据紧密度最高的阶段。本阶段将第一次接触团队开发、产出具有前后台(第一阶段技术+第二阶段的技术综合应用)的真实项目。

第三阶段:前端框架

1.难易程序:两星

2.技术知识点+阶段项目任务+综合能力

3.主要技术包括:Java、Jquery、注解反射一起使用,XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、Maven、easyui

4.描述如下:

前两个阶段的基础上化静为动,可以实现让我们网页内容更加的丰富,当然如果从市场人员层面来说,有专业的前端设计人员,我们设计本阶段的目标在于前端的技术可以更直观的锻炼人的思维和设计能力。同时我们也将第二阶段的高级特性融入到本阶段。使学习者更上一层楼。

第四阶段:企业级开发框架

1.难易程序:三颗星

3.主要技术包括:Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro、redis、流程引擎activity, 爬虫技术nutch,lucene,webService CXF、Tomcat集群和热备 、MySQL读写分离

第五阶段: 初识大数据

1.难易程度:三颗星

2.技术知识点+阶段项目任务+综合能力

3.主要技术包括:大数据前篇(什么是大数据,应用场景,如何学习大数据库,虚拟机概念和安装等)、Linux常见命令(文件管理、系统管理、磁盘管理)、Linux Shell编程(SHELL变量、循环控制、应用)、Hadoop入门(Hadoop组成、单机版环境、目录结构、HDFS界面、MR界面、简单的SHELL、java访问hadoop)、HDFS(简介、SHELL、IDEA开发工具使用、全分布式集群搭建)、MapReduce应用(中间计算过程、Java操作MapReduce、程序运行、日志监控)、Hadoop高级应用(YARN框架介绍、配置项与优化、CDH简介、环境搭建)、扩展(MAP 端优化,COMBINER 使用方法见,TOP K,SQOOP导出,其它虚拟机VM的快照,权限管理命令,AWK 与 SED命令)

4.描述如下:

该阶段设计是为了让新人能够对大数据有一个相对的大概念怎么相对呢?在前置课程JAVA的学习过后能够理解程序在单机的电脑上是如何运行的。现在,大数据呢?大数据是将程序运行在大规模机器的集群中处理。大数据当然是要处理数据,所以同样,数据的存储从单机存储变为多机器大规模的集群存储。(你问我什么是集群?好,我有一大锅饭,我一个人可以吃完,但是要很久,现在我叫大家一起吃。一个人的时候叫人,人多了呢? 是不是叫人群啊!)那么大数据可以初略的分为: 大数据存储和大数据处理所以在这个阶段中呢,我们课程设计了大数据的标准:HADOOP呐,大数据的运行呢并不是在咋们经常使用WINDOWS 7或者W10上面,而是现在使用最广泛的系统:LINUX。

第六阶段:大数据数据库

1.难易程度:四颗星

2.课时量(技术知识点+阶段项目任务+综合能力):88课时

3.主要技术包括:Hive入门(Hive简介、Hive使用场景、环境搭建、架构说明、工作机制)、Hive Shell编程(建表、查询语句、分区与分桶、索引管理和视图)、Hive高级应用(DISTINCT实现、groupby、join、sql转化原理、java编程、配置和优化)、hbase入门、Hbase SHELL编程(DDL、DML、Java操作建表、查询、压缩、过滤器)、细说Hbase模块(REGION、HREGION SERVER、HMASTER、ZOOKEEPER简介、ZOOKEEPER配置、Hbase与Zookeeper集成)、HBASE高级特性(读写流程、数据模型、模式设计读写热点、优化与配置)

4.描述如下:

该阶段设计是为了让大家在理解大数据如何处理大规模的数据的同时。简化咋们的编写程序时间,同时提高读取速度。

怎么简化呢?在第一阶段中,如果需要进行复杂的业务关联与数据挖掘,自行编写MR程序是非常繁杂的。所以在这一阶段中我们引入了HIVE,大数据中的数据仓库。这里有一个关键字,数据仓库。我知道你要问我,所以我先说,数据仓库呢用来做数据挖掘分析的,通常是一个超大的数据中心,存储这些数据的呢,一般为ORACLE,DB2,等大型数据库,这些数据库通常用作实时的在线业务。总之,要基于数据仓库分析数据呢速度是相对较慢的。但是方便在于只要熟悉SQL,学习起来相对简单,而HIVE呢就是这样一种工具,基于大数据的SQL查询工具呐,这一阶段呢还包括HBASE,它为大数据里面的数据库。纳闷了,不是学了一种叫做HIVE的数据“仓库”了么?HIVE是基于MR的所以查询起来相当慢,HBASE呢基于大数据可以做到实时的数据查询。一个主分析,另一个主查询。

第七阶段:实时数据采集

1.难易程序:四颗星

2.技术知识点+阶段项目任务+综合能力

3.主要技术包括:Flume日志采集,KAFKA入门(消息队列、应用场景、集群搭建)、KAFKA详解(分区、主题、接受者、发送者、与ZOOKEEPER集成、Shell开发、Shell调试)、KAFKA高级使用(java开发、主要配置、优化项目)、数据可视化(图形与图表介绍、CHARTS工具分类、柱状图与饼图、3D图与地图)、STORM入门(设计思想、应用场景、处理过程、集群安装)、STROM开发(STROM MVN开发、编写STORM本地程序)、STORM进阶(java开发、主要配置、优化项目)、KAFKA异步发送与批量发送时效,KAFKA全局消息有序,STORM多并发优化

4.描述如下:

前面的阶段数据来源是基于已经存在的大规模数据集来做的,数据处理与分析过后的结果是存在一定延时的,通常处理的数据为前一天的数据。举例场景:网站防盗链,客户账户异常,实时征信,遇到这些场景基于前一天的数据分析出来过后呢?是否太晚了。所以在本阶段中我们引入了实时的数据采集与分析。主要包括了:FLUME实时数据采集,采集的来源支持非常广泛,KAFKA数据数据接收与发送,STORM实时数据处理,数据处理秒级别。

第八阶段:SPARK数据分析

1.难易程序:五颗星

2.技术知识点+阶段项目任务+综合能力

3.主要技术包括:SCALA入门(数据类型、运算符、控制语句、基础函数)、SCALA进阶(数据结构、类、对象、特质、模式匹配、正则表达式)、SCALA高级使用(高阶函数、科里函数、偏函数、尾迭代、自带高阶函数等)、SPARK入门(环境搭建、基础结构、运行模式)、Spark数据集与编程模型、SPARK SQL、SPARK 进阶(DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支持源、集成KAFKA与SOCKET、编程模型)、SPARK高级编程(Spark-GraphX、Spark-Mllib机器学习)、SPARK高级应用(系统架构、主要配置和性能优化、故障与阶段恢复)、SPARK ML KMEANS算法,SCALA 隐式转化高级特性

4.描述如下:

同样先说前面的阶段,主要是第一阶段。HADOOP呢在分析速度上基于MR的大规模数据集相对来说还是挺慢的,包括机器学习,人工智能等。而且不适合做迭代计算。SPARK呢在分析上是作为MR的替代产品,怎么替代呢? 先说他们的运行机制,HADOOP基于磁盘存储分析,而SPARK基于内存分析。我这么说你可能不懂,再形象一点,就像你要坐火车从北京到上海,MR就是绿皮火车,而SPARK是高铁或者磁悬浮。而SPARK呢是基于SCALA语言开发的,当然对SCALA支持最好,所以课程中先学习SCALA开发语言。什么?又要学另外一种开发语言?不不不!!!我只说一句话:SCALA是基于JAVA做的。从历史数据的存储,分析(HADOOP,HIVE,HBASE),到实时的数据存储(FLUME,KAFKA),分析(STORM,SPARK),这些在真实的项目中都是相互依赖存在的。


闭着眼睛切土豆


1、了解大数据理论要

学习大数据你至少应该知道什么是大数据,大数据一般运用在什么领域。对大数据有一个大概的了解,你才能清楚自己对大数据究竟是否有兴趣,如果对大数据一无所知就开始学习,有可能学着学着发现自己其实不喜欢,这样浪费了时间精力,可能还浪费了金钱。所以如果想要学习大数据,需要先对大数据有一个大概的了解。

2、java

90%的大数据框架都是Java写的。

需要了解java设计与编程思想;Java面向对象;Java高级;Web前端开发;HTML基础;CSS3;JS脚本编程;JavaEE程序开发;JavaWeb后端开发。

3、 MySQL(必须需要掌握的)

4、Linux

大数据的框架安装在Linux操作系统上

大数据开发零基础需要学习什么内容?(1)Java、大数据基础

https://www.toutiao.com/i6684880291628057099/


分享到:


相關文章: