认识数据管理“性能观”

数据管理平台

“性能爆表”应用场景

百 TB 级数据库

PB 级数据仓库

百亿级小文件

海量虚拟机

大规模测试数据

“性能爆表”数据表现

同行性能对比

AnyBackup Family 8

创新客户价值

我们的客户

副本数据湖

AnyBackup Family 7

AnyBackup Enterprise 7

AnyBackup Master Server 7

AnyBackup 全能备份一体机

AnyBackup 订阅服务

AnyBackup 订阅一体机

国产化替换专题

Commvault 替换

国产化数据库保护

国产化数据保护

异构灾备系统管理与迁移

副本数据中台

体系化防勒索病毒

数据中心分级保护

两地三中心灾备

AnyShare 高性能保护

海量非结构化数据分级保护

体系化数据灾备与可观测性

金融行业测试数据管理

生态方案

副本数据脱敏方案

数据库复制容灾联创方案

纵深防勒索病毒方案

创新灾备特性

通用应用数据保护

应用级灾备

灾难恢复管理

国产化数据库保护

统一运营管理

异构灾备系统管理与迁移

SaaS

云原生

数据库

Oracle | SQL Server | MySQL

虚拟化

大数据

Hadoop | GaussDB | SAP HANA

物理

不可变存储能力演示

强制数据保留能力演示

灾难恢复管理演示

AnyShare 高性能备份恢复演示

虚拟机跨云容灾演示

混合云灾难恢复演示

Kubernetes 应用迁移演示

副本数据脱敏方案演示

智能灾备运维方案演示

测试数据管理方案演示

SAP HANA 数据保护操作演示

开发者社区

软件订阅服务

非结构化数据中台

统一文档管理解决方案

智能知识管理解决方案

AnyShare 智能云盘解决方案

NAS数据迁移

SAP 数据资产管理

华途内容安全管控

数据项素OCR智能内容识别

浩辰CAD图纸管理

睿展ISO质量体系文件管理

网智易通档案管理

永中Office文档在线编辑

亿赛通内容安全管控

揭秘会集锦

立即观看破茧成蝶 · 揭秘会（十）

破茧成蝶 · 揭秘会（十）

一气呵成 · 揭秘会（九）

近在咫尺 · 揭秘会（八）

独树一帜 · 揭秘会（七）

始终如一 · 揭秘会（六）

智者见智 · 揭秘会（五）

洞若观火 · 揭秘会（四）

海纳百川 · 揭秘会（三）

川流之下 · 揭秘会（二）

别有洞天 · 揭秘会（一）

工程勘察设计

AnyShare 认知助手辅助撰写

AnyShare 工作中心-会议纪要自动总结与归档

AnyShare 知识中心-知识推荐，知识找人，轻松学习

数据驱动型组织蓝皮书

全域数据治理白皮书

非结构化数据中台白皮书

AnyShare Family 7 产品手册

AnyShare Family 7 技术白皮书

开发者社区

AnyShare 在线帮助

AnyShare 技术知识库

AnyShare Family 7

从V5/V6版本升级到V7

认识“可观测性”

开发测试可观测

IT运维可观测

业务运营可观测

安全合规可观测

“可观测性” 运用场景

海量日志管理方案

云基础设施可观测性

灾备体系可观测性

AnyShare可观测性

可观测性中台

“可观测性” 的对比表现

可观测性与监控的对比

AnyRobot Family 5

AnyRobot Eyes 5

AnyRobot 订阅服务

AnyRobot 订阅一体机

AnyRobot for 私有云

机器数据管道

KPI 智能分析

AnyRobot 认知助手

可视化及仪表盘

大屏可视化

机器数据湖

AnyShare 可观测性

可观测性中台

海量日志管理方案

云基础设施可观测性

灾备体系可观测性

业务性能监控

AnyShare 可观测性

防勒索病毒可观测性

核心业务可观测性

海量数据可观测性

业务性能监控

ITSM 解决方案

海量日志管理方案

云基础设施可观测性

灾备体系可观测性

可观测性中台

AnyShare 可观测性

业务性能监控

联璧会（五）AnyRobot 认知助手

联璧会（四）机器数据湖

联璧会（三）云基础设施运维解决方案

联璧会（二）AnyRobot Library 5

联璧会（一）AnyRobot Eyes 5

在线研讨会（四）AnyRobot + 听云携手创新智能运维

在线研讨会（三）AnyRobot & 听云业务性能监控方案

在线研讨会（二）智能灾备运维方案

在线研讨会（一）基于 Hub 架构纳管 Splunk

云原生时代的可观测性平台

AnyRobot Eyes 5 产品演示

灾备体系可观测性

灾备可视化大屏

云基础设施可观测性

AnyShare 可观测性

机器数据管道

数据驱动型组织蓝皮书

全域数据治理白皮书

AnyRobot Family 5 产品手册

AnyRobot Family 5 eBook

开发者社区

AnyRobot 在线帮助

AnyRobot 技术知识库

AnyRobot Family 5

AnyRobot 订阅服务

部署在私有云

一对一在线咨询

一对一在线咨询

认识“领域认知智能”

了解领域认知智能

了解领域知识网络

了解领域大模型

了解 RAG 模式

ChatGPT来了，知识图谱何去何从？

复旦大学肖仰华：大模型与知识图谱联合驱动的领域认知智能

GPT 对 NLP 领域是福还是祸

大模型真的“大”吗？

到底多有钱，我才能拥有专属大模型？

AnyDATA Framework 3

领域知识图谱构建

领域认知应用

AnyShare 认知助手

KWeaver 开源框架

智慧城市产业大脑方案

制造业认知中台解决方案

产业链情报分析与管理解决方案

无界会四图分析服务

观看回放

无界会四图分析服务

无界会三产业链知识网络

无界会二走近领域知识网络

无界会一认知驱动·先进制造

知识中台重磅亮相

领域智商点亮认知智能

认知智能在智慧城市建设中的应用分享

产业链知识网络

产业链招商

知识图谱构建

智慧城市产业大脑方案白皮书

数据驱动型组织蓝皮书

全域数据治理白皮书

爱分析·数据产品开发市场厂商评估报告

AGI时代的领域认知智能框架 eBook

AnyDATA Framework 3 技术白皮书

开发者社区

获得认知中台支持，一对一咨询

开源相关技术服务，一对一咨询

爱数博客

全部 AnyBackup AnyShare AnyRobot AnyDATA AnyFabric DIP

Hadoop备份恢复原理解析

2020-12-23 6147 0

早在2016年IDC就预测，全球大数据市场将达170亿美元规模，市场发展前景很大。而Hadoop作为新一代的架构和技术，因为有利于并行分布处理 “大数据”而备受重视。Hadoop分布式文件系统（Hadoop Distributed File System）能提供高吞吐量的数据访问，适合大规模数据集方面的应用，为海量数据提供存储服务，提供类POSIX接口。

Hadoop的核心组件
Hadoop的核心组件是MapReduce和HDFS，MapReduce是一种编程模型，用于大规模数据集的并行运算。Map（映射）和Reduce（化简），采用分而治之思想，先把任务分发到集群多个节点上，并行计算，然后再把计算结果合并，从而得到最终计算结果。HDFS是一个高度容错性的分布式文件系统，能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

Hadoop分布式文件系统（Hadoop Distributed File System）能提供高吞吐量的数据访问，适合大规模
在HDFS内部，一个文件分成一个或多个“数据块”，这些“数据块”存储在DataNode集合里，NameNode负责保存和管理所有的HDFS元数据。客户端连接到NameNode，执行文件系统的“命名空间”操作，例如打开、关闭、重命名文件和目录，同时决定“数据块”到具体DataNode节点的映射。DataNode在NameNode的指挥下进行“数据块”的创建、删除和复制。客户端连接到DataNode，执行读写数据块操作。

备份流程
（以3个AnyBackup Client 为例）：
1.发起备份，相关HDFS节点上的AnyBackup Client执行进程启动，解析备份数据源、备份类型等。
2.执行进程（后称 hdfsclient ）请求下载文件，将需要备份的数据对象传递给NameNode 。
3.NameNode返回文件block信息。（输入流FSDataOutputStream对象与NameNode建立连接，通过RPC getBlockLocations () 确定文件block的保存位置，即DataNode 地址；不会一次返回文件所有的block信息，需多次调用getBlockLocations () ）
4.hdfsclient解析NameNode返回的备份对象元数据，获取文件block的位置信息，和最近的DataNode建立连接并下载文件block。
5.NameNode返回文件block， hdfsclient读取文件block之后验证DataNode中的校验和，保证数据的一致性。
6.Client发送备份数据至AnyBackup Server。
7.一直重复操作4 5 6，逐一备份文件block，直至所有block全部备份完成， hdfsclient关闭输入流FSDataOutputStream对象，以示文件下载并备份完成。
8.一直重复操作2 3 4 5 6 7，逐一下载并备份文件/目录，直至所有文件/目录全部下载并备份完成，即备份结束。

恢复流程
（以单个AnyBackup Client 为例）：
1.发起恢复，相关HDFS节点上的AnyBackup Client执行进程启动。
2.执行进程从备份存储中下载待恢复对象，
3.执行进程（后称 hdfsclient ）跟NameNode通信请求上传文件。
4.NameNode检查检查目标文件是否存在，hdfsclient是否有其父目录中创建文件的权限。若检查通过，则NameNode构造名为file.copying的临时文件，并返回可以上传。
5.hdfsclient向NameNode请求上传文件的第一个block。
6.NameNode返回DataNode信息，表明该block应传输到哪些DataNode上。
7.hdfsclient与第一个DataNode建立pipeline （RPC调用），第一个DataNode再与第二个DataNode建立pipeline ，然后第二个DataNode再与第二个DataNode建立pipeline,直到整个pipeline建立完成。
8.pipeline建立后，按照建立顺序的逆序逐级响应，最后通知hdfsclient。
9.hdfsclient开始上传block，并逆序返回确认消息ack。
10.每个block上传完成后， DataNode向NameNode提交信息，以示该block上传完成。
11.一直重复操作第5、6、7、8、9、10步，逐一上传block ，直至所有block全部上传完成， hdfsclient通知NameNode关闭文件，NameNode将该文件的.copying后缀去掉，文件上传完成。
12.一直重复操作第2、3、4、5、6、7、8、9、10、11步，逐一上传文件/目录，直至所有文件/目录全部上传完成，即恢复结束。

利用Hadoop HDFS Client 提供的接口来完成备份恢复功能，具有如下优点：

提供文件/目录级别的细粒度备份和恢复
支持完全备份、增量备份、永久增量备份、差异备份
支持原HDFS、异HDFS恢复，支持恢复到Linux常见的文件系统（XFS、Ext4、Ntfs）
多节点并发，节点内多线程读/写数据，提高备份/恢复速度，缩小备份/恢复窗口
可根据环境配置，进行数据校验和加密，保证数据传输的安全性（HDFS端->HDFS Client端数据传输加密）
支持远程复制，异地容灾，提高数据的保护等级
支持重删、压缩、加密、远程复制高级特性，减少数据传输和存储空间，提供存储空间的利用率
备份时支持根据文件路径、时间等属性的过滤条件，筛选备份对象

赞

点个赞吧！

请就本文对您的益处进行评级：

返回上一篇:AnyShare Family 7 相似搜索结果折... 下一篇：AnyShare Family 7.0.0.2 正式发布，...

标签

产品技术

热门标签

版本发布在线教学

热门文章

AnyBackup Family 8.0.6.0 发布通知 AnyShare Family 7.0.6.4 版本发布通知 AnyRobot Family 5.0.3.5 版本发布通知

最近文章

AnyRobot Family 5.0.3.5 版本发布通知 AnyShare Family 7.0.6.4 版本发布通知 AnyBackup Family 8.0.6.0 发布通知

关于爱数

客户成功故事

如何购买

已有注册账户

加入伙伴生态

登录合作伙伴门户

进入伙伴赋能中心

快速链接

开发者社区

隐私声明法律声明用户协议 Cookie声明廉洁协议云服务等级协议（SLA）

电话咨询

联系爱数

销售咨询：400 8216055

技术咨询：400 8801569

投诉及建议：400 880 1569转9

在线交流

关注爱数

版权所有 © 2006-2025 上海爱数信息技术股份有限公司沪ICP备09089247号沪公网安备 31011202011832

关于爱数

客户成功故事

如何购买

已有注册账户

加入伙伴生态

登录合作伙伴门户

进入伙伴赋能中心

快速链接

开发者社区

电话咨询

联系爱数

销售咨询：400 8216055

技术咨询：400 8801569

投诉及建议：400 880 1569转9

在线交流

关注爱数

隐私声明法律声明用户协议 Cookie声明廉洁协议云服务等级协议（SLA）

版权所有 © 2006-2025 上海爱数信息技术股份有限公司沪ICP备09089247号沪公网安备 31011202011832

关于爱数

客户成功故事

如何购买

已有注册账户

加入伙伴生态

登录合作伙伴门户

进入伙伴赋能中心

快速链接

开发者社区

电话咨询

联系爱数

销售咨询：400 8216055

技术咨询：400 8801569

投诉及建议：400 880 1569转9

在线交流

关注爱数

隐私声明法律声明用户协议 Cookie声明廉洁协议云服务等级协议（SLA）

版权所有 © 2006-2025 上海爱数信息技术股份有限公司沪ICP备09089247号沪公网安备 31011202011832

扫码关注「爱数官方微信」

扫码关注「爱数服务号」

大数据基础设施领航者

抖音扫一扫查看更多精彩视频

大数据基础设施领航者

拨打400

免费销售咨询热线 400 8216055 7*24 小时免费售后服务热线 400 880 1569 投诉及建议服务热线 400 880 1569 转 9

购买咨询

售后服务

返回顶部

为了给您提供更优质的服务，请您先完善以下信息：

手机号

姓名

企业名称

扫码关注

爱数技术支持中心公众号

请选择：

请选择咨询类型

AnyShare

AnyBackUp

AnyRobot

扫码关注

爱数技术支持中心公众号

contact us

提交成功！

我们将在 24 小时之内联系你。