分享
大数据技术体系
输入“/”快速插入内容
大数据技术体系
飞书用户3253
2023年11月22日修改
大数据的定义
🎼
大数据可以被描述为一种
规模巨大的数据集
,其在
获取
、
存储
、
管理
和
分析
方面远远超出传统数据库软件工具的能力范围。它具有四个主要特征:
数据规模巨大
、
数据流速快
、
数据类型多样
、以及
数据价值密度相对较低
。
大数据的最显著特点在于其庞大的数据量,以至于传统的数据处理工具如
Excel、MySQL等难以有效支持分析
。这意味着在大数据阶段,无论是数据的存储还是加工计算等过程,都需要采用不同的处理技术,比如Hadoop、Spark等。
大数据的架构
Hadoop+Spark主流技术栈图
数据处理环节
❤️
在企业内部,数据从生产、存储,到分析、应用,会经历各个处理流程,它们相互关联,形成了整体的大数据架构。
在我们最终查看数据报表,或者使用数据进行算法预测之前,数据都会经历以下几个
处理环节
:
1.
数据采集:
是指将应用程序产生的数据和
日志
等同步到大数据系统中。
2.
数据存储:
海量的数据,需要存储在系统中,方便下次使用时进行查询。
3.
数据处理:
原始数据需要经过层层
过滤、拼接、转换
才能最终应用,数据处理就是这些过程的统称。
一般来说,有两种类型的数据处理,一种是
离线的批量处理
,另一种是
实时在线分析
。
4.
数据应用:
经过处理的数据可以
对外提供服务
,比如生成可视化的报表、作为互动式分析的素材、提供给推荐系统训练模型等等。
数据处理环节
Hadoop架构
🥇
我们现在常用的大数据技术,其实都是基于
Hadoop生态
的。
Hadoop是一个
分布式系统基础架构
,换言之,它的数据存储和加工过程都是分布式的,由
多个机器
共同完成。通过这样的并行处理,提高安全性和数据处理规模。
Hadoop的框架最核心的设计就是:
HDFS
和
MapReduce
。HDFS为海量的数据提供了
存储
,而MapReduce则为海量的数据提供了
计算
。
我们可以把HDFS(Hadoop Distributed File System)理解为一套分布式的
文件系统
,大数据架构里的海量数据就是存储在这些文件里,我们每次分析,也都是从这些文件里取数。
而MapReduce则是一种
分布式计算
过程,它包括Map(映射)和Reduce(归约)。当你向MapReduce框架提交一个计算作业时,它会首先把计算作业
拆分
成若干个Map任务,然后分配到
不同的节点
上去执行,每一个Map任务处理输入数据中的一部分,当Map任务完成后,Reduce会把前面若干个Map的输出
汇总
到一起并输出。相当于利用了分布式的机器,完成了大规模的计算任务。
企业级大数据技术实现方案
大数据架构
大数据架构图