爱数博客

全部 AnyBackup AnyShare AnyRobot AnyDATA AnyFabric DIP

AnyShare 就近访问特性浅析

2023-06-28 2333 0

一、背景

在多站点分布式部署场景，各站点数据都保存在本地对象存储，各站点间的带宽有限，如果数据统一在主站点处理，带宽压力大，主站点负载重，而分站点系统资源空闲，资源浪费。
为了解决这些问题，需要把分站点数据处理放在站点内部处理，及就近处理，就近处理的优点：
1. 数据无传输到主站点，降低带宽占用，节省成本。
2. 降低对主站点的依赖和资源消耗，充分利用分站点资源，提升数据处理的效率，优化用户体验。

二、技术方案

就近处理通过采用监听数据上传的机制来提升处理的即时性，降低对上层业务服务的依赖，整体流程如下：
1. OSS网关在完成对象上传到对象存储之后，提交“新对象上传”事件
2. 内容处理引擎收到“新对象上传”事件，识别对象类型，提交“内容处理任务”
3. 各内容处理服务接收到到任务后，开始对此对象进行内容处理
4. 处理完成，将内容处理结果通知到上层业务服务

三、就近访问原理

3.1 内容就近处理

内容就近处理包括杀毒、Office/PDF/CAD/音视频文件预览、加密、脱敏等功能，这些功能的特定是需要访问原始文件，并且处理后的数据需要就近保存到对象存储中。
分站点文档集完整的就近处理的逻辑如下：

· 此逻辑覆盖实时生产触发、即时访问触发

·

此逻辑覆盖定时更新触发
· 为避免站点间过多的交互逻辑，由内容引擎负责站点间内容处理相关消息的交互。
· 内容处理引擎调度“加密未服务”、“格式转换服务”、“杀毒微服务”对要处理的对象进行处理，处理完之后通知主站点的文档集服务或者元数据服务，记录相关的信息

3.2 跨区域缓存

用户访问其他站点数据，需要经过网关将数据从其他资源站点拉取到本地站点，进行缓存，以达到跨站点互访加速目的。

Ø 按需缓存：Bucket 级别的缓存配置，文件级粒度的缓存。
Ø 安全可控：访问本地缓存需 S3 标准鉴权。
Ø 灵活配置：可配置缓存时间、缓存数据量大小。

3.3 就近处理提升效果对比

文档集性能对比
场景：多站点（主站点与分站点网络不同，均为内置存储）
无就近处理：主站点集群访问分站点存储网络较差，下载文件时建立连接超时，处理失败的文件多
有就近处理：分站点集群访问分站点存储网络好，文件处理效率与主站点相当

2，office online/wps online 性能对比

3，跨地域缓存性能对比
场景一：5分钟内20个主站点用户持续下载10mb分站点文件
场景二：5分钟内20个主站点用户持续预览10mb分站点文件
场景三：5分钟内100个主站点用户持续下载1mb分站点文件
场景四：5分钟内100个主站点用户持续预览1mb分站点文件