大数据发展简史

admin 2022年5月13日07:40:45云安全评论7 views6856字阅读22分51秒阅读模式

与其相忘于江湖,不如点击“蓝字”关注

最近不少同学咨询如何学习大数据技术?

怎么入门?

怎么做大数据分析?

大数据的发展、应用前景等问题。由于大数据的水太深,各个领域的应用也很广泛,三言两语很难说清楚。


为此,小编请来了外援

当……当……当当


黄崇远,花名博客虫。毕业于哈工大,近6年的大数据行业经验 ,线下组织过大数据技术沙龙,线上授过大数据课程,目前于深圳一B轮创业公司任职大数据主管。


今天有请黄老师给我们讲讲大数据的发展史,大数据在各行业的应用及发展情况,通过大数据领域的学习路线、岗位细分、岗位职能以及供给情况的说明,给大家提供大数据学习方面的参考。


(一)大数据的三生三世发展史

早在08、09那会儿,应该是没有“大数据”这个词的,但是最早的hadoop确实是在那个时候引入国内的,但彼时远没有如此时般成熟的生态,而“大数据”一词应该尚属于生僻词。


但那个时候,除了一些大点的公司,诸如BAT等,在试探着使用,还是鲜为人知的。


直到2013年左右,盛杨燕老师和周涛教授翻译了《大数据时代》一书,“大数据”一词算是正式被国人熟知并认可,并且传说中的“啤酒与尿布的故事”就是在那个时候传开的。

 

但就算如此,大数据也不是马上就成为追捧的对象。

不过很多企业确实面临着大批量数据无法处理,或者处理低效的问题,所以也算开始逐渐试水hadoop相关的东西,探索大数据与实际业务的结合方式。

大数据发展简史

直到14年,算是大数据在国内的一个爆发点。


首先以hadoop为代表的生态日渐完善、趋于成熟,这意味着在实际的数据业务开发中,越来越便捷,而另一方面说,大批量处理数据的模式,解决问题的方式,逐渐被摸索出来,所以大数据逐渐被认可。

 

也就从那个时候开始,大数据的人才市场需求在急剧扩增,很多其他IT领域的开发人员纷纷转型为数据开发人员。


而人才市场的需求,进一步刺激了大数据培训市场的繁荣,在往后的日子里,缓解了部分大数据需求市场的急切性。


对于学术界来说,2014年应该算是很多高校逐渐开展大数据研究方向的元年。


  • 2014年,在国内,大数据从工业界进入到学术界。

 

  • 在2015年的时候,大数据的风潮冲到了顶峰,甚至资本市场都有不少资金往数据上倾斜,很多公司都有点“不谈大数据”都不好意思说自己是做互联网的,而很多小公司,更是以“大数据”为名头,吸引了不少资本的投入。

 

  • 直到2016年,看似大数据的热潮已过,但其实已经逐渐趋于平稳、良性、理智,这恰巧是一个领域方向健康发展的征兆。包括国内政府,开始以政府的名义,从政策上进行大数据经济转型的推动。

 

  • 2015年下旬,国务院印发了《促进大数据发展行动纲要》,从此一发不可收拾,各部委,包括发改委、工信部、国标委等等一系列的政府机构,在2016年纷纷出台了各种大数据相关的红头文件。

大数据发展简史

所以,2016年应该算大数据在国内的政策元年。


而大数据在学术界,进一步得到促进,各大高校纷纷加开大数据相关课程,成立大数据相关学院、研究中心等等,甚至不少学校已经开设本科相关的大数据专业。


这是一个十分良性的征兆,意味着大数据这个事还可以做比较长的一段时间。

 

再到2017年,事实证明,在16年互联网行业普遍不景气的情况下,依然很多做数据的企业,或者以数据为核心驱动力的企业,拿到了不少的融资。


这意味着数据这个事,是被资本认可的。


并且,有着国家政策的推动,大数据也将从互联网这个发源地,会逐渐的蔓延到其他行业,诸如传统IT行业,甚至是其他传统行业,甚至是线下实体。

 

不管怎么说,这意味着大数据已经步入了稳健的发展期,我们仍然还有很多事要去做,而对于那些尚未入门,或者初入门的朋友们来说,我们的机会依然还有很多。


(二)大数据带来的行业变革

大数据快速发展的这五六年,确实给不少方向、行业带来革命性的改变。


首当其冲的是信息获取领域

最典型的案例当属今日头条,它是完全基于数据挖掘的内容推荐引擎产品,基于大数据,为用户推荐有价值、个性化的信息。


在移动互联网盛行的时代,他俨然已经成为了信息分发的“两微一端”三大阵地之一,并且目前已经市值100亿美元。


包括百度,其搜索的排序结果里,依靠大数据的分析挖掘,加了大量的算法逻辑在里头,并且由于知识图谱的引入,搜索获取的信息从过去的点,扩展到相关的面,这是一个伟大的进步。


举个例子,我们在百度搜索今日头条,百度会为你呈现相关的人物、相关的软件等等,这都是通过大批量的数据计算,获得的你可能也关注的相关信息。


到现在,各大主流的信息获取站点、平台,都或多或少的会通过数据、通过一些个性化的挖掘手段,来提供更加个性化的信息获取服务。


很多传统信息编辑的职位,逐渐被数据、算法所取代,所以说,在信息获取领域,由于大数据、由于基于数据的深度挖掘,已经产生了变革性的改变。


电子商务领域

关于电子商务领域,我们只需要举阿里的一个例子就足够了。


我们作为消费者所熟知的各种商品的主动呈现,商品的推荐搭配,智能的凑单等等,一系列更加智能化、个性化的消费服务,这些都是我们所能接触到的。


阿里的CEO张勇曾说,双11期间绝大部分商品都是基于大数据和个性化向消费者推荐的,而2016年天猫双十一超过1200亿的销售额已经能够证明大数据个性化极大的提升了消费体验。


熟知电商领域的朋友或许更清楚,数据化运营对于电商的效果有多大,哪些商品是爆款、每天的入库出库数据、客户的消费偏好等等一系列数据,都是可以为商家作为决策依据的。


这也就是为何淘宝会花巨大的代价,打造商户重度依赖的生意参谋、数据魔方等数据产品。


金融领域

在过去,我们需要办理银行的贷款时,需要提供各种各样的贷款担保凭证,最终才可以把贷款申请下来。


而如今,以阿里的蚂蚁花呗为例,他不需要你的任何其他额外信息,就可以给你开放一定额度的免息信用金额,只要按期返款即可。


他如何为每一个人设置限定的信用额度,他就不怕别人不按时返款?这一切的根据缘由是什么?


因为他已经拿到了你在相关平台上的行为记录数据,并且根据你的行为数据,通过一定的算法模型,评估出来了你的信用等级,并通过信用等级来评估是否借款给你。


是的,支付宝有4亿多的实名用户,他就可以计算出这4亿多用户的信息等级,不需要额外任何的其他实体凭证,来担保你能如期还款。

 

这就是大数据在金融领域带来变革性的地方,通过数据把贷款这种场景从线下搬到了线上,更加的效率,更加的便捷。此外,在金融领域还有很多诸如智能投顾、智能置产配置等相关的应用,这里就不一一列举了。

 

至于大数据在其他领域的影响,或多或少都会有,甚至包括很传统的工业制造领域,目前都有专门为工业制造领域服务的大数据厂商了。


(三)大数据职业发展路线

前面,我们已经讲过了大数据的大体发展情况,以及他在各行各业带来的变革影响,这里,我们来看看大数据这个领域具体的学习路线、以及岗位的细分、供给情况、各个岗位职能。


我们先来看一张图,就以这张通用数据平台架构图为脉络,讲讲大数据各个岗位的分工、技能需求、市场稀缺情况,以及具体的相关应用。

大数据发展简史

这里的假设前提是,这是一个电商平台,或者你把他看成一个电商APP应用也可以,这是为电商业务服务的数据平台。

 

看这张图之前,我们先来思考几个问题,那就是基于上面这种业务场景假设,假设你是平台的决策者,你希望数据能够给你带来什么?


  1. 我希望我能清楚的把握我平台上所有商品的销售情况、用户的留存情况、平台的运营情况,什么商品该重点运营、什么商品该下架、哪些营销策略该调整、哪些促销活动更有效可以持续等等。

  2. 我希望在用户浏览商品,或者在某些模块时,能够体验到个性化的服务,给他们推荐恰巧是他们需要的商品,提升用户的购物体验,提升他们的平台滞留时间,提升商品的转换,提升平台的活跃。

  3. 我希望平台的搜索入口能够带来更多的转化,用户搜索呈现的结果更加的合理、恰巧是他想要的,并且综合以最大利润为导向。

  4. 我有很多活动需要做推广,我希望针对于不同用户,在最合理的时间点,为他/她推送最合理、可能最感兴趣的相关促销信息,让他们觉得一切都那么的顺其自然,而不是不厌其烦。

  5. 我希望我的平台或者产品的设计是合理的、最优的,不会在某些环节上耽误他们的最终购物体验,是的,我希望通过数据来打磨产品。

 

不用再继续列举下去了,上面的那些已经能足够代表电商产品对于数据的诉求了。

 

在继续这个话题前,我们需要明确一个共识就是:大数据的根本是实现业务目标,而不是数据本身。


是的,数据本身没有任何价值,只有结合了业务,挖掘出其内藏的价值才有用。


数据分析师

大数据发展简史

还是刚才那个数据平台架构图,左上角的BI系统,其实就能够解决我们上面说到的第一个问题,通过成熟的BI系统,我们可以把整个业务平台的各种数据进行报表化、图形化,以期找到各种决策依据。


针对于这里,大数据分析师的岗位就应运而生了。他们需要为企业输出各种各样的报表、数据分析结果等等,为商业化决策提供数据依据。

 

那么,他们一方面需要扎实的统计分析理论基础,另外一方面对于基本的数据转换、提取、分析等需要很熟练,在具体的工具语言上,偏SQL类的语言、一些偏传统的数据分析师会掌握R、SAS等分析挖掘工具、而偏大数据时代的数据分析师则更偏爱于诸如能够解决大规模数据统计分析问题的hive等相关组件。


对于数据分析师,更高的要求则是不止于对当前数据走势的分析,还需要对未来数据走势有一定的预测能力,这就涉及到了各种预测分析了。

 

关于数据分析师的市场需求情况,从目前来说,在大数据领域相关细分岗位里对比的话,最不缺应该就是这个岗位了,但整体来说需求量还是蛮大的。


造成这种原因一方面是由于这个岗位对于基础技能的要求并没有想象中高,所以入门门槛相对较低,这也是近几年来大数据培训市场主要的一个人才输出点;另一方面大数据BI体系作为大数据最常见的应用方式,已经在这个细方向累积培养了不少的人才。


数据挖掘/算法工程师

大数据发展简史

按照架构图中,典型如推荐系统、用户画像系统的搭建、各种数据榜单的生成,这些都离不开数据挖掘工程师,或者算法工程师的努力。

 

他们需要设计一个个合理的推荐模型,包含了各种逻辑的推荐算法、设计用户的画像标签体系,通过不同方式,例如统计分析、分类聚类等算法途径去填充画像的属性,去构建数学算法模型等。

 

这一类岗位对于数学基础有一定的要求,然后对于各种算法都比较清晰了解,并且能够建立起实际的业务与数学模型的映射,通过算法来解决实际的业务问题。

 

当然,这里核心依赖的底层依然是大批量的原始数据,只有拥有数据,才能够谈在此之上的挖掘与应用。

 

对于算法工程师来说,要有一定的数学功底,此外,对于常见的基分类、聚类、回归、时间序列、关联分析、预测、文本挖掘、NLP等算法都需要有一定的了解,在此之上,对于一些常见的业务模型也需要有足够的经验,比如推荐系统、搜索的二次排序、用户画像体系、主题提取等等。

 

甚至,在现在很多业务场景里,用到了很多深度学习的东西,所以,各种神经网络算法的掌握也作为了算法工程师的进阶方向。

 

在国内,对于数据的深层挖掘的历史并不长,所以在这方面累积人才并不算很多,特别是在数据的深层价值并进一步证明之后,这一块的人才需求更是紧缺,这一点我们从拉勾之类的相关招聘上也能看到一二,最直接的体现就是薪酬待遇的居高不下。

 

另一方面来说,由于他对于技能基础要求相对较高,所以导致了入行的门槛略高,这也是导致了这一细分领域供血不足的原因。


大数据开发工程师

大数据发展简史

在你所看到的上面那张架构图中,绝大部分的内容都是由大数据开发工程师所完成的。

 

严格来讲,大数据开发工程师会再细分两个更小的方向,偏平台运维搭建、偏数据流程应用开发。

 

偏平台运维搭建其实很好理解,架构图中所看到的各种集群啊、组件啊,例如hive、hadoop、spark、kafka、oozie等等,都需要有人去搭建,架设调度以及各种的监控机制,来保证平台集群的稳定性以及健壮性 。

 

另外一个方向,则跟着数据逻辑在走,负责各种数据的变换、清洗,各种数据的逻辑处理,甚至是通用性的数据应用开发。范围包括数据的清洗、传输、处理、存储,甚至是应用等整个数据流程。

 

但更多的时候,这两者并没有分的这么清,特别是在中小公司里,基本都是一个岗位职能。

 

这个岗位对于开发能力要求还是比较高的,需要懂得各种大数据生态组件的搭建、以及基于上头的应用开发,所以还是有一定的硬开发能力的要求。


对应的语言跟随者大数据生态组件的应用开发语言,主要还是jvm系的语言,其实主要还是java、scala之类的。而由于平台类型的东西需要经常与服务器打交道,所以对于linux也是需要很熟悉的,并且能够灵活的使用各种脚本,一方面是对于平台的管理,另一方面是对于数据灵活处理、另一方面是各种服务的管理。

 

这个岗位的升级方向为大数据架构师,需要架构整个大数据平台的结构,设计整个数据的处理流程,至于说例子的话,看上面那个架构图就够咯(不然你以为是谁设计出来的)。

 

至于说市场需求,这个岗位会介于数据分析师与算法工程师之间,对于普通的大数据开发工程师来说,无论是培训机构或者是高校相关专业学生的投放,或多或少都能解一些“燃眉之急”。


但对于资深的大数据开发工程师,例如达到架构师级别的工程师,依然是市场的香馍馍。这也是没有办法的事,整个大数据领域真正发展起来也就五六年,所以能够有四五年大数据相关专业背景的人才真是少之又少。

 

爬虫工程师

大数据发展简史

在很多人眼里,或许爬虫工程师根本不应该算在大数据领域中,因为这个职位在很久以前就已经存在了,但我个人认为最起码从16年开始,应该是要归于大数据体系的。

 

大家细研究一下就会发现,从16年开始,越来越多的公司依赖于第三方开放型数据而生存,这意味着互联网开放性数据集的价值逐渐被人所挖掘、认可。

 

我们来看一下上面这张架构图的左下角,有一小块,数据来源是来自于爬虫体系,并且目标是互联网开放数据集。

 

那么,作为电商平台,他有什么样的业务场景需要用到爬虫工程师爬取数据作为数据源呢?

  1. 全网同类商品价格波动的监控,用于做价格策略调整。

  2. 全网爆款商品的监控,用于帮助商家进行上架决策参考,以及爆款商品运营指导。

  3. 全网商品类目销量走势监控,用于结合自身销售情况,调整供应链的侧重点。

 

作为把控大批量数据源头的爬虫工程师,也不再像过去那样只是作为一种辅助的角色而存在,他应该是大数据体系中的第一环,也是整个数据处理流程中的第一环。

 

至于说爬虫工程师需要学会掌握什么,或许这个大家应该会更熟悉,各种爬虫框架,python语言都是爬虫工程师的特征标签。

 

不过需要注意的就是,在当前的需求中,对于大规模数据爬取的要求会更多,这意味着掌握了大规模数据爬取、分布式爬取技能的爬虫工程师将会更受欢迎。

 

至于说市场需求,在大数据领域应该还是有不少需求的,但是由于这个岗位入门门槛降低,也容易通过培训等渠道补充人才,所以就薪酬福利来说,并没有想象中高。

 

并且就爬虫的技术面来说,确实会有些窄,对于已经或者即将进入数据团队的爬虫工程师,这里有个建议,那就是在掌握爬虫的前提下,尽量的把自己的知识体系往后续的数据处理流程上扩展,这样将会获得更大的发展空间。


(四)大数据职位需求情况

上面,我们是从大数据领域相关岗位的职能分工、技能需求、市场稀缺性进行分析的,下面我们贴几张图,来看看大数据领域全局的一个需求情况。

 

数据来自于16年,我从智联、前程无忧、拉勾、中华英才等主流招聘网站获取的4600多份大数据相关岗位JD,当然,数据可能存在一定的误差,但不耽误看大体的一个情况。

大数据发展简史

大数据领域的平均薪酬在11807左右,这里是所有岗位的平均薪酬,包括了应届生的招聘数据,整体上看应该算不低了。

大数据发展简史

在整个大数据领域,硕士以下学历,构成了大数据整个需求池的主力部分,所以,对于很多想进入大数据领域的朋友,也不必过于担心学历的门槛。

大数据发展简史

再来看看大数据需求的城市分布,北京作为互联网的集中地,而互联网又是大数据的主要阵地,所以需求量最高。


其次是上海深圳,排在第四位的是杭州,从侧面上也可以看出杭州的互联网行业快速发展。

大数据发展简史

从这个数据统计图可以看出,目前对于绝大部分企业来说,需求的都是中低端相关技术人员,所以大部分新手朋友们还是有很多机会的。

 

最后我们来看看都是什么样的公司在需求大数据相关的人才。

大数据发展简史

不难看出,基本上各个阶段的公司都在招大数据相关的岗位,从初创几十人的公司,到数万人的大公司,无一幸免。


而需求量最大的处于100-300人的中小型企业,从大公司需求为主的阶段过渡到如今一般公司需求为主的阶段,意味着大数据技术已经逐渐成为一个“全民”需求的技术,意味着大数据的市场需求还有很多的机会。

敲黑板,划重点

地球人都知道——DT时代,大数据行业薪资高,前景好,发展空间大,是互联网行业的新宠!想你所想,e安在线历时数月精心打造的【大数据高薪就业班】即将开启,点击阅读原文,申请试听吧!关注大数据,关注e安在线!

大数据发展简史

END

大数据发展简史

点这里关注大数据,关注“e安在线”

大数据发展简史

原文始发于微信公众号(e安在线):大数据发展简史

特别标注: 本站(CN-SEC.COM)所有文章仅供技术研究,若将其信息做其他用途,由用户承担全部法律及连带责任,本站不承担任何法律及连带责任,请遵守中华人民共和国安全法.
  • 我的微信
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年5月13日07:40:45
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                  大数据发展简史 http://cn-sec.com/archives/696666.html

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: