大数据从字面上理解,就是海量数据,非常庞大的数据量。数据规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
我们都知道数据在各行各业中起着非常重要的作用。说到数据,我们脑子里第一反应可能就是那种数字形式的,表格形式的数据,这是传统意义上的数据,也叫结构化数据。那么还有一些数据它不是以表格的形式呈现的,比如:语音,图片,视频,音频等等,这种形式的数据我们统称为半结构化数据和非结构化数据。半结构化数据和非结构化数据我们又统称为大数据。随着科技越来越发达,我们会发现这些半结构化和非结构化数据所蕴含的有意义的信息量要比那些结构化数据蕴含的信息量要更大,更精准,更有意义。大数据就是这个高科技时代的产物,现在已经不是IT时代,而是DT时代。
医疗,能源,电信,金融,电商,交通,教育,农牧等等,各行各业都离不开大数据。
例如医疗行业拥有大量的病例报告博亚体育,治愈方案,药物报告等。在未来我们可以利用大数据这个平台收集不同的病例,治疗方案,以及病人的基本特征来进行专业化分析,建立针对疾病特点的这样一个数据库。这样在医生诊断病人时就可以根据病人的基本特征,病程长短,化验报告,参考疾病数据库来帮病人快速确诊病情并制定有效的治疗方案。再比如电商行业,电商是最早利用大数据进行精准营销的行业,电商可以根据客户的消费习惯来为客户做精准的商品推荐,提前为客户备货并利用便利店作为货物中转站,这样就能在客户下单后以最快的速度将货物送货上门,提高客户体验。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据在国外已经有10年的历史,引入中国并大范围的应用大数据也就三四年的时间。大数据为什么这几年在中国才出现,而以前没有。那是因为现在企业在服务器端对云计算的应用越来越普遍,越来越成熟。
在云计算出现之前,数据的存储成本是非常高的。什么叫云计算,笼统的解释就是硬件设备的虚拟化。打个比方,以前游戏公司,游戏要开新服,都需要去购置和部署新的服务器,还需要安排几个人去维护服务器的安全,保证数据存储的安全性和数据传输的通畅性。而且,机房还会定期进行数据清理,把部分历史数据清理出去,以便存储新的数据。因为服务器的存储空间是有限的,如果服务器的内存占用空间太大,势必会影响游戏的速度,影响玩家的体验效果。再打个比方博亚体育,我们在网站上看到的所有的图片,文字,语音,视频等等,在后台都要以为二进制或者代码的形式以每秒的速度源源不断的往数据库里存,而数据库又是架设在服务器上的。大量的数据占用了服务器的存储空间,势必会影响网站的打开速度,而网站打开速度一旦变慢势必会流失掉很多的客户和点击量。所以互联网公司对网站的打开速度要求都很高。那传统的解决方案有两种,要么花钱购置新的服务器,要么删掉历史的非重要数据,给新的数据腾空间。而对于私企来讲,从成本角度来考虑,显然他们会选择后者。
云计算出现后,数据存储服务衍生出了新的商业模式,集中建设数据中心大大的降低了单位计算和存储成本,比如36大数据,我们要建设网站,现在根本不用去买服务器硬件,也不需要再雇佣人员来管理,使用阿里云的全套服务就解决了我们的问题。而且存储成本的下降,也改变了大家对数据的看法,因为存储成本不高,我们愿意把3个月,6个月甚至更久远的历史数据保存下来,因为这些数据是从市场中来的,而我们要分析的就是消费者,客户的行为有哪些改变,我们的行业有哪些改变,我们的竞争对手有哪些变化。有了历史数据的沉淀,通过不同时间的对比,来发现数据之间的关联和价值。
随着互联网的普及以及网络技术的发展,加上硬件性价比的提高和软件技术的进步,数据的运行,计算速度越来越快。98年你要传个10MB的文件,可能需要一天,现在也就几分甚至几秒的时间。海量数据从原始数据源到产生价值,期间会经过存储,清洗,挖掘,分析等多个环节,如果计算速度不够快,那么很多事情是没办法实现的博亚体育。所以计算速度的越来越快也为大数据的出现奠定了基础。
人类是富有智慧很聪明的,但是人脑的计算速度是赶不上计算机的。但是计算机是需要人控制的。而人工智能的出现就很好的诠释了这一关系。
数据里进行挖掘,管理,处理这些数据,通过专业化的数据分析获得我们想要的信息。表格形式的数据可以放到关系型数据库中进行分析,而要用传统的数据库来分析各种形式的海量数据将会花费大量的时间和金钱。所以分析大数据必然要用到云计算,MapReduce并行运算等这些技术。所以如果以后想从事跟大数据相关的工作,是有很多新技术要学的。
在我们的培训体系里共分为四大模块: linux, java, oracle, hadoop, spark。首先,linux这块我们主要学习的是linux的操作。因为数据库和hadoop是部署在linux操作系统之上的。在这个模块我们不需要学太深,我们只要学会如何用这个系统就行。就像我们平时用的电脑都是windowsXP系统,win7系统的,我们只要会用这个系统,我们就可以在电脑上浏览网页,听歌,看视频,玩游戏对吧。至于windows系统是怎么开发出来的,我们不需要学,也没必要学。在这个模块我们会学到如何安装Linux系统,网络的设置,如何远程控制linux服务器,编写shell脚本等内容。接下来是java,为什么要学java?因为hadoop这个平台是用JAVA语言做开发的。我们以后做数据分析的时候,是要用hadoop这个平台做数据分析的,那么就要求我们能读懂hadoop平台下的源代码,写脚本,编写一些算法的时候,都是要用JAVA语言做编写的。所以学JAVA是要让我们具备编程的能力。在这个模块里,我们要学习java体系和JDK安装,java语法,API,数据结构,算法,JDBC等知识点。接下来是oracle,为什么要学oracle,我们做的工作就是跟数据打交道,做数据分析是我们的核心工作,所以数据库是必须要学的。数据库我们要学的是数据的存储过程,数据的管理,数据的灾备,性能调优以及高级SQL等等这样的一些技术点。在大数据管理中要学到两种数据库,一个是mySQL数据库,一个是ORACLE数据库。例如像数据库的建模,数据的抽取,以及数据的群集等等,这些都是要学的。最后是hadoop,spark。hadoop和spark是两个不同的集群架构,两个不同的生态圈,hadoop是做离线分析的,spark是做在线实时分析的。Hadoop下要学HDFS,海量式的分布存储,Mapreduce并行运算。以及像mahout机器学习,HBase列式数据库,ZooKeeper分布式服务框架等等。
什么是机器学习呢,我们制造一款手机,我们是需要人工配合的。机器学习最终的目的是什么呢,机器制造机器。我们只要跟这台机器说一下我们的想法,我们的需求,我们想要一台什么样的手机,这台机器就给我们做完。又比如你去京东网买东西或者到淘宝网买东西,会推荐给你一些商品,这些技术都是机器学习技术。为什么要学HBase列式数据库?关系型数据库他的一个存储过程是什么样的呢?假设你网购一个东西,关系型存储过程是什么呢?你是在哪天买的,有这样的一条记录,你买的是什么东西,你在哪家店买的,你给的人家是什么评价,、花了多少钱。他是这样一个存储过程。而列式数据库是一列一列的存储。假设我要是抽样一下,在双11那天在淘宝网花1K块钱以上的有多少人?那我所分析的数据就只是价格数据,那么如果说在数据量很大,在关系型数据库下,这家淘宝店这条数据要过一下,客户评价要过一下,它所过得数据量非常非常大,但如果说我把这一条数据抽取过来的话,分析的速度就会大大提高。这就是整个行业当中使用的列式数据库HBase。那么在什么情况下会用到saprk,举个例子,比如在优酷网站上了一部电视剧,《人民的名义》,那优酷指什么赚钱?是广告。但是首先这个广告要打的非常精准,所以说这个时候我们可以在线实时分析。在看《人民的名义》的人是什么样的人群,我们可以分析一秒钟有多少人在看,一分钟有多少人在看,我们会实时做分析大数据,然后广告商可以做精准的广告投放。
大数据开发工程师,大数据运维工程师,大数据分析师,大数据可视化工程师,Hadoop工程师等等职位。数据库开发工程师,BI商业分析师,AI算法工程师博亚体育博亚体育