到底什么是大数据,大数据职业的具体工作内容是什么?

用户6327850624959


大数据是指在信息系统中一定范围内的关键信息,难以通过常规方式进行采集、处理和管控的数据集合。由于其具有数据量大、类型多样以及增长迅速的特点,因此是一种需要应用云计算等新兴技术,才能有效进行分析、利用的信息资产。

要了解大数据职业的具体工作内容,首先需要知道大数据产业的基本运转流程,因为在整个产业链的各个环节均涉及相应的大数据职能,当然不同的角色也有不同的定位。下面以医疗健康大数据为例进行简要叙述。

数据的采集

信息时代,信息就是财富,数据的获取是大数据应用的基础。医疗健康行业的数据主要集中在各级医疗卫生机构,包括患者的诊疗、用药、耗材、费用等重要信息。采集这些信息一是需要统一数据标准,保证数据可用性,二是要搭建稳定的采集途径,保证数据的可靠性,三是要形成规范的管控机制,保证数据的安全性。

数据的保存

大数据的有体量大、增长迅速的特点,一般需要建立大型的数据中心才能实现,其要求是:一要有极大的数据吞吐与存储能力,二是要具备实时不间断运行的能力,三是要具备严格的网络安全及攻击防控能力。

数据的应用

发展医疗健康大数据的目的,就是要通过海量的医疗基础信息进行整合、分析,指导医疗决策、提升诊疗能力、改善服务质量、促进医学科研及疾病防治等。举例来说,依托云计算及大数据平台,通过数据分析,我们可以计算出流感的爆发时间、范围、症状等等,从而提前做出应对、防范,以减少发病率。又如,对某一药品的使用情况进行监测,应用大数据分析可以准确、快速地提取成千上万的诊疗数据,从而得到药效、副作用及用药剂量等多方面的评价数据。可见,医疗大数据的广泛应用将极大提升医疗救治能力,显著改善人民健康水平。

总之,大数据关系到社会的方方面面,需要各层次、各行业、各单位的支撑、协作才能有效地发展!

以上是本人对于大数据的一些认知,欢迎各路高手拍砖、指教!


科技漫漫说


什么是大数据?

我们如果从字面意思理解的话,大家的第一反应就是庞大的数据规模,其实大数据的这个大不光是大量/大规模的意思,还有复杂多样等方面的意思。所以咱们可以从以下几点来总结大数据的“大”。

1、海量数据

大数据的大量性是指数据量的大小。

2、复杂多样

大数据的多样性是指数据的种类、关系和来源是多样化的,数据可以是结构化的、半结构化的以及非结构化的,数据的呈现形式包括但不仅限于文本,图像,视频,HTML页面等等。

3、高增长率

大数据的高速性是指数据增长快速,处理快速,每一天,各行各业的数据都在呈现指数性爆炸增长。在许多场景下,数据都具有时效性,如搜索引擎要在几秒中内呈现出用户所需数据。企业或系统在面对快速增长的海量数据时,必须要高速处理,快速响应。

4.、价值密度低

大数据的低价值密度性是指在海量的数据源中,真正有价值的数据少之又少,许多数据可能是错误的,是不完整的,是无法利用的。言简意赅的说,有价值的数据占数据总量的密度极低,当你提炼时,那简直就是大浪淘沙。

5.、真实性

大数据的真实性是指数据的准确度和可信赖度,代表数据的质量。

所以,我们可以理解什么是大数据:符合以上特征的海量数据,往往在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,所以大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

大数据的价值所在

大数据的核心价值,我觉得需要从企业的经营管理、业务运作层面去分析,可以把数据的价值分为两个方面,一方面是给企业创造营收,另一方面是给企业节省成本。具体体现在以下三个维度上:

1、数据辅助经营管理、战略、业务决策

比如,为企业管理者提供基础的数据统计和各维度的分析报表,以便支撑全面了解企业经营情况、战略执行情况、业务运转情况;为风控人员提供用户、交易、履约等维度的分析报告来辅助风控策略的优化;为产品经理提供分析报告可辅助其完善产品功能和改善用户体验;为运营人员提供分析报告可辅助其发现运营问题并确定运营的策略和方向。所以一般对于一个中大型企业来说,都会自己的BI系统。

2、数据驱动业务

通过数据产品、数据挖掘模型实现企业产品和运营的智能化,从而极大的提高企业的整体效能产出。最常见的应用领域有基于个性化推荐技术的精准营销服务、广告服务、基于模型算法的风控反欺诈服务征信服务等。

3、数据对外变现

基于业务本身或从第三方渠道整合的数据,通过对数据进行查重、清洗、质检等处理,从而封装成数据产品,来对外提供数据服务,从而获得现金收入。在当今大数据时代,市场上其实很常见,比如:各种大数据公司利用自己掌握的大数据,提供风控查询、核验、反欺诈、征信等服务;提供引流、精准的智慧营销等服务;提供数据接口平台等服务。

大数据职业的选择思路

针对大数据职业的选择思路,我觉得可以结合三方面去考虑,一是喜好,人只有选择自己最感兴趣的细分领域,才能经得住折磨和考验,才能耐得住性子深耕做好。比如你对大数据方向的数据挖掘岗位感兴趣。二是擅长,不见得你感兴趣的就是你擅长的,所以也要审视一下感兴趣的那个点的技能要求,你是否擅长。三是趋势,你所感兴趣和擅长的领域在行业大环境中是否是未来发展趋势。

大数据职业具体工作内容

至于大数据职业的具体工作内容,这个得看是什么岗位了。

比如数据挖掘工程师,其就需要掌握数据建模、算法实现、BI和机器学习等技能。

比如大数据架构师,其就需要掌握技术架构选型与设计、算法设计、大数据开发和数据分析与挖掘等技能。

比如数据科学家,其就需要掌握数据模型设计与开发、数据分析方法、数据挖掘等技能。

从以上不同岗位的要求能看出,大数据也是一门综合学科,而其中对数学模型的理解与设计、算法、数据挖掘要求较高,所以当你在选择大数据方向的职业时,还是要从自己最擅长的技能分支去考虑,只要精通掌握其中一个分支,就能发挥自身价值,做出成绩。

信息创造价值,学习使人进步。

我是泰瑞聊科技,为您打开科技生活,感谢您阅读与关注!


泰瑞聊科技


综合网络解释加上自己的理解给出了大数据的定义。

大数据就是数据规模达到海量级、极快的速度流转、数据类型和来源多种多样、价值密度低而且能够反映事物真实性的数据就是大数据。

大数据的工作内容包括以下几个方面:

数据采集

调查显示,未被使 用的信息比例高达99.4%,很大程度都是由于高价值的信息无法获取采集。因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一。

数据清洗

将不规整数据转化为规整数据,刚刚采集到的原生数据,格式还无法满足我们对数据处理的基本要求,需要对其进行预处理,转化为我们后面工作所需要的较为规整的数据。

数据存储

是将经过清洗、集成和归约的数据存储在空间中,方便后续数据分析使用的一种技术。面对海量数据,传统的数据库存储方式已经无法满足人们对数据存储的诉求,可以采用分布式文件系统进行存储。

数据分析统计

利用各种类型的全量数据(不是抽样数据),设计统计方案,得到兼具细致和置信的统计结论。数据建模是数据分析的成果。

数据反馈

通过海量历史数据的计算与分析,可以预知未来可能发生的某些故障或风险,比如对不同消费者群体多年消费行为的分析,可以判断得出某些类别或特定商品的销量走势等。


智慧生活一点通


大数据的定义。大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

互联网是个神奇的大网,大数据开发也是一种模式,你如果真想了解大数据,可以来这里,这个手机的开始数字是一八七中间的是三儿零最后的是一四二五零,按照顺序组合起来就可以找到,我想说的是,除非你想做或者了解这方面的内容,如果只是凑热闹的话,就不要来了。

大数据的采集。科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、 GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集也不再是技术问题,只是面对如此众多的数据,我们怎样才能找到 其内在规律。

大数据的特点。数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。

大数据的挖掘和处理。大数据必然无法用人脑来推算、估测,或者用单台的计算机进行处理,必须采用分布式计算架构,依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术,因此,大数据的挖掘和处理必须用到云技术。


爱写推文的数码极客


究竟什么是大数据,每个人都可能给出不同的答案,就我而言,大数据是对海量数据的收集、存储、处理、分析和应用的技术。

(一)大数据不仅仅是大量的数据

数据是大数据的基础,没有数据也就没有大数据这一说法,但是,个人认为,仅仅是海量数据仍然难以称为大数据,还需要数据的广度。维修数据而言,单独的换件时间数据几乎没有太大的作用,但是当换件数据与故障数据、配件参数数据结合在一起综合分析时,其价值将翻好几倍。也就是说,在大数据技术中,需要的数据不仅量大,还需要广,即需要覆盖整个业务的数据。

(二)大数据的技术生态圈

大数据架构的IaaS、PaaS和SaaS的三层划分基本得到大部分企业的认同。IaaS层主要提供基础设施支撑,涉及的技术主要是虚拟化技术,当然还可能会包括多租户、计费、安全访问控制等。PaaS层提供应用支撑,这一层囊括了当前流行的大部分大数据技术,如分布式文件系统HDFS、HBASE、hive、sqoop、MR、storm、yarn、spark、MQ等等;PaaS层提供了大数据分析所必须的几乎所有的软件支撑,同时,一些分析算法和模型也往往放在这一层。SaaS层主要是业务应用,涉及的技术根据框架和业务需求来定,当然,可视化技术是必不可少的。

数据采集部分不同的企业的架构划分略有不同,在此我们不在讨论其放在哪一层,我们仅仅谈一下数据采集相关的技术。数据采集用到的技术包括:ETL工具、flume、网络爬虫等等。在搜索方面,开源的搜索引擎主要就是lucene、solr和elasticsearch。

(三)大数据相关的职业

根据大数据架构可以比较清晰的看出其涉及的职业:

1.虚拟化产品类。专注于底层虚拟化平台或者产品的研发、营销工作。

2.数据采集类。专注于各类数据的采集,通过出售数据和服务盈利。

3.设备类。专注于存储设备、网络设备的研制、营销工作。

4.大数据架构师。专注于PaaS和SaaS层应用的架构的设计。

5.算法工程师。专注于大数据分析相关算法研究。

6.数据分析师。专注于基于业务的大数据分析和模型构建。

7.大数据工程师。基于PaaS层软件接口结合实际业务需求,进行二次开发的工程师。

8.大数据咨询师/顾问。为企业大数据在某行业的发展提供建议和方向。如智慧城市、健康医疗、气象大数据等等。


天码行空


大数据工程师

大数据工程需要解决数据的定义、收集、计算与保存的工作,因此大数据工程师们在设计和部署这样的系统时首要考虑的是数据高可用的问题。

大数据工程角色需要考虑数据的收集、计算(或是处理)和保存,对应的工作岗位是大数据工程师。

大数据分析师

大数据分析角色定位于如何利用数据——即从大数据工程系统中接收到数据之后如何为企业或组织提供有产出的数据分析,并且确实能够帮助到公司进行业务改善或提升服务水平,所以对于大数据分析师来说,他们首要解决的问题是发现并利用数据的价值,具体可能包括:趋势分析、模型建立以及预测分析等。

简单总结一下,大数据工程角色需要考虑数据的收集、计算(或是处理)和保存;大数据分析角色则是执行数据的高级计算。

大数据行业相关的热门岗位有哪些?

https://www.toutiao.com/i6757984260210033166/


加米谷大数据


大数据从诞生开始到现在,概念已经从数据的维度定义开始变成现在一种思维方式了。就是努力用各种相关的周边数据来帮助自己的业务进行提升。