进入21世纪,我们的生活就迈入了“数据时代”。作为21世纪的新青年,数据一词经常出现。
其实数据的背后都会隐藏着巨大的价值,丰富的数据可以支撑让我们更好的了解事和物在现实世界的运行规律。
大数据技术栈就是:对超大规模的数据进行处理并挖掘出数据背后的价值的技术体系;
数据有什么价值?— 对数据的内容进行深入分析,可以更好的帮助我们了解事和物在现实世界的运行规律— 比如购物的丁丹记录,可以帮助平台更好的了解消费者,从而促进交易。
早期计算机(上世纪70年带之前)大多数事互相独立的,各自处理各自的数据。
上世纪70年带后,逐步出现了基于TCP/IP协议的小规模的计算机互联互通。但多数事军事、科研等用途。
现在知名的互联网公司(谷歌、AWS、腾讯、阿里等)也是在这个年代开始起步的。
在互联网参与者众多的前提下,商业公司、科研单位,所能获得的数据量也是剧增博亚体育。
剧增的数据量,和羸弱的单机性能,让许多科技公司开始尝试以数量来解决问题。
大数据的核心工作其实就是:从海量的高增长、多类别、低信息密度的数据挖掘出高质量的结果博亚体育。也就是数据计算——数据存储——数据传输。
由此,我们可以知道大数据核心工作为:数据存储—数据计算—数据传输
云平台存储组件:除此以外,各大云平台厂商也有相应的大数据存储组件,如阿里云的OSS、UCloud的US3、AWS的S3、金山云的KS3等等
Apache Spark:是目前全球范围内最火热的分布式内存计算引擎博亚体育。是大数据体系中的明星计算产品;
Apache Flink:同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域,Flink占据了大多数的国内市场大数据。
Apache Kafka:Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。Apache Kafka在大数据领域同样是明星产品;
Apache Pulsar:是一款分布式的消息系统。也有非常多的使用者;
Apache Flume:是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。
Apache Sqoop:是一款ETL工具,可以协助大数据体系和关系型数据库之间进行数据传输。
综上所述,大数据体系内的软件种类非常多,在后续的学习中我们都可以逐步的接触到这些软件。