关于大数据的完博亚体育整讲解

博亚新闻byxw

您当前位置：博亚体育 > 博亚新闻

关于大数据的完博亚体育整讲解

2024-01-18

浏览次数：次

返回列表

　　博亚体育Variety 数据类型多，大数据包含多种数据维度比如日志、视频、图片

　　Value 价值密度低，商业价值高比如监控视频，其中关键1-2秒可能具有极高的价值

　　ELT的过程是，在抽取后将结果先写入目的地，然后利用数据库的聚合分析能力或者外部计算框架，如Spark来完成转换

　　目前数据主流框架是ETL，重抽取和加载，轻转换，搭建的数据平台属于轻量级

　　ELT架构，在提取完成之后，数据加载会立即开始，更省时，数据变换这个过程根据后续使用需求在 SQL 中进行，而不是在加载阶段

　　目前关系型数据库在DBMS中占据主流地位，常用的关系型数据库有Oracle、MySQL和SQL Server

　　SQL是与数据直接打交道的语言，是与前端、后端语言进行交互的“中台”语言

　　除了关系型数据库还有文档型数据库MongoDB、键值型数据库Redis、列存储数据库Cassandra等

　　Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储博亚体育、查询和分析存储在Hadoop中的大规模数据的机制。

　　Hive 是读时模式，保存表数据时不会对数据进行校验博亚体育，而在读数据时将校验不符合格式的数据设置为NULL

　　记录业务发生，比如购买行为，发生后，要记录是谁在什么时候做了什么事，数据会以增删改的方式在数据库中进行数据的更新处理操作

　　OLAP需要将不同的数据源 = 数据集成 = 数据清洗 = 数据仓库，然后由数据仓库统一提供OLAP分析

　　Batch Layer（批处理层），对离线的历史数据进行预计算，能让下游进行快速查询。因为基于完整的数据集，准确性能得到保证。可以用Hadoop博亚体育、Spark 和 Flink 等计算框架

　　Speed Layer（加速处理层），处理实时的增量数据，加速层的数据不如批处理层完整和准确，但重点在于低延迟。可以用 Spark streaming、Storm 和 Flink 等计框架算

　　Serving Layer（合并层），将历史数据计算与实时数据计算合并，输出到数据库，供下游分析

　　一个文件系统，外加一个离线处理框架MapReduce大数据，由于提供的上层api不太友好，加上MapReduce 处理框架比较慢，基本上都用作文件系统

　　本身是一个执行引擎，不保存数据，所以需要外部的文件系统（通常会基于hadoop）提出了内存计算的概念，即尽可能把数据放到内存中，还提供了良好的上层使用接口，包括spl语句（spark sql）处理数据十分方便。相比 Hadoop MapReduce 获得了百倍的性能提升，基本上用它来做离线数据处理

　　分布式实时计算框架，具有超高的性能，支持Flink流式计算与Storm性能差不多，支持毫秒级计算

　　本文主要讲解了大数据的概念和基础知识，帮助读者对大数据有一个基本了解。实践部分可以看之前干货：《分布式机器学习原理及实战(Pyspark)》

上一篇：上海基本医保和商业健康保险深度博亚体育合作医保大数据创新实验室启动

下一篇：博亚体育大数据的大意义是什么

博亚体育

首页

关于博亚体育

博亚新闻

产品展示

留言板

咨询研究

联系我们

博亚新闻byxw

关于大数据的完博亚体育整讲解