博亚新闻

关于大数据的完博亚体育整讲解

2024-01-18
浏览次数:
返回列表

  博亚体育Variety 数据类型多,大数据包含多种数据维度 比如 日志、视频、图片

  Value 价值密度低,商业价值高 比如监控视频,其中关键1-2秒可能具有极高的价值

  ELT的过程是,在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部计算框架,如Spark来完成转换

  目前数据主流框架是ETL,重抽取和加载,轻转换,搭建的数据平台属于轻量级

  ELT架构,在提取完成之后,数据加载会立即开始,更省时,数据变换这个过程根据后续使用需求在 SQL 中进行,而不是在加载阶段

  目前关系型数据库在DBMS中占据主流地位,常用的关系型数据库有Oracle、MySQL和SQL Server

  SQL是与数据直接打交道的语言,是与前端、后端语言进行交互的“中台”语言

  除了关系型数据库还有文档型数据库MongoDB、键值型数据库Redis、列存储数据库Cassandra等

  Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储博亚体育、查询和分析存储在Hadoop中的大规模数据的机制。

  Hive 是读时模式,保存表数据时不会对数据进行校验博亚体育,而在读数据时将校验不符合格式的数据设置为NULL

  记录业务发生,比如购买行为,发生后,要记录是谁在什么时候做了什么事,数据会以增删改的方式在数据库中进行数据的更新处理操作

  OLAP需要将不同的数据源 = 数据集成 = 数据清洗 = 数据仓库,然后由数据仓库统一提供OLAP分析

  Batch Layer(批处理层),对离线的历史数据进行预计算,能让下游进行快速查询。因为基于完整的数据集,准确性能得到保证。可以用Hadoop博亚体育、Spark 和 Flink 等计算框架

  Speed Layer(加速处理层),处理实时的增量数据,加速层的数据不如批处理层完整和准确,但重点在于低延迟。可以用 Spark streaming、Storm 和 Flink 等计框架算

  Serving Layer(合并层),将历史数据计算与实时数据计算合并,输出到数据库,供下游分析

  一个文件系统,外加一个离线处理框架MapReduce大数据,由于提供的上层api不太友好,加上MapReduce 处理框架比较慢,基本上都用作文件系统

  本身是一个执行引擎,不保存数据,所以需要外部的文件系统(通常会基于hadoop)提出了内存计算的概念,即尽可能把数据放到内存中,还提供了良好的上层使用接口,包括spl语句(spark sql)处理数据十分方便。相比 Hadoop MapReduce 获得了百倍的性能提升,基本上用它来做离线数据处理

  分布式实时计算框架,具有超高的性能,支持Flink流式计算与Storm性能差不多,支持毫秒级计算

  本文主要讲解了大数据的概念和基础知识,帮助读者对大数据有一个基本了解。实践部分可以看之前干货:《分布式机器学习原理及实战(Pyspark)》

搜索