认识数据管理“性能观”

数据管理平台

“性能爆表”应用场景

百 TB 级数据库

PB 级数据仓库

百亿级小文件

海量虚拟机

大规模测试数据

“性能爆表”数据表现

同行性能对比

AnyBackup Family 8

创新客户价值

我们的客户

副本数据湖

AnyBackup Family 7

AnyBackup Enterprise 7

AnyBackup Master Server 7

AnyBackup 全能备份一体机

AnyBackup 订阅服务

AnyBackup 订阅一体机

国产化替换专题

Commvault 替换

国产化数据库保护

国产化数据保护

异构灾备系统管理与迁移

副本数据中台

体系化防勒索病毒

数据中心分级保护

两地三中心灾备

AnyShare 高性能保护

海量非结构化数据分级保护

体系化数据灾备与可观测性

金融行业测试数据管理

生态方案

副本数据脱敏方案

数据库复制容灾联创方案

纵深防勒索病毒方案

创新灾备特性

通用应用数据保护

应用级灾备

灾难恢复管理

国产化数据库保护

统一运营管理

异构灾备系统管理与迁移

SaaS

云原生

数据库

Oracle | SQL Server | MySQL

虚拟化

大数据

Hadoop | GaussDB | SAP HANA

物理

不可变存储能力演示

强制数据保留能力演示

灾难恢复管理演示

AnyShare 高性能备份恢复演示

虚拟机跨云容灾演示

混合云灾难恢复演示

Kubernetes 应用迁移演示

副本数据脱敏方案演示

智能灾备运维方案演示

测试数据管理方案演示

SAP HANA 数据保护操作演示

开发者社区

软件订阅服务

非结构化数据中台

统一文档管理解决方案

智能知识管理解决方案

AnyShare 智能云盘解决方案

NAS数据迁移

SAP 数据资产管理

华途内容安全管控

数据项素OCR智能内容识别

浩辰CAD图纸管理

睿展ISO质量体系文件管理

网智易通档案管理

永中Office文档在线编辑

亿赛通内容安全管控

揭秘会集锦

立即观看破茧成蝶 · 揭秘会（十）

破茧成蝶 · 揭秘会（十）

一气呵成 · 揭秘会（九）

近在咫尺 · 揭秘会（八）

独树一帜 · 揭秘会（七）

始终如一 · 揭秘会（六）

智者见智 · 揭秘会（五）

洞若观火 · 揭秘会（四）

海纳百川 · 揭秘会（三）

川流之下 · 揭秘会（二）

别有洞天 · 揭秘会（一）

工程勘察设计

AnyShare 认知助手辅助撰写

AnyShare 工作中心-会议纪要自动总结与归档

AnyShare 知识中心-知识推荐，知识找人，轻松学习

数据驱动型组织蓝皮书

全域数据治理白皮书

非结构化数据中台白皮书

AnyShare Family 7 产品手册

AnyShare Family 7 技术白皮书

开发者社区

AnyShare 在线帮助

AnyShare 技术知识库

AnyShare Family 7

从V5/V6版本升级到V7

认识“可观测性”

开发测试可观测

IT运维可观测

业务运营可观测

安全合规可观测

“可观测性” 运用场景

海量日志管理方案

云基础设施可观测性

灾备体系可观测性

AnyShare可观测性

可观测性中台

“可观测性” 的对比表现

可观测性与监控的对比

AnyRobot Family 5

AnyRobot Eyes 5

AnyRobot 订阅服务

AnyRobot 订阅一体机

AnyRobot for 私有云

机器数据管道

KPI 智能分析

AnyRobot 认知助手

可视化及仪表盘

大屏可视化

机器数据湖

AnyShare 可观测性

可观测性中台

海量日志管理方案

云基础设施可观测性

灾备体系可观测性

业务性能监控

AnyShare 可观测性

防勒索病毒可观测性

核心业务可观测性

海量数据可观测性

业务性能监控

ITSM 解决方案

海量日志管理方案

云基础设施可观测性

灾备体系可观测性

可观测性中台

AnyShare 可观测性

业务性能监控

联璧会（五）AnyRobot 认知助手

联璧会（四）机器数据湖

联璧会（三）云基础设施运维解决方案

联璧会（二）AnyRobot Library 5

联璧会（一）AnyRobot Eyes 5

在线研讨会（四）AnyRobot + 听云携手创新智能运维

在线研讨会（三）AnyRobot & 听云业务性能监控方案

在线研讨会（二）智能灾备运维方案

在线研讨会（一）基于 Hub 架构纳管 Splunk

云原生时代的可观测性平台

AnyRobot Eyes 5 产品演示

灾备体系可观测性

灾备可视化大屏

云基础设施可观测性

AnyShare 可观测性

机器数据管道

数据驱动型组织蓝皮书

全域数据治理白皮书

AnyRobot Family 5 产品手册

AnyRobot Family 5 eBook

开发者社区

AnyRobot 在线帮助

AnyRobot 技术知识库

AnyRobot Family 5

AnyRobot 订阅服务

部署在私有云

一对一在线咨询

一对一在线咨询

认识“领域认知智能”

了解领域认知智能

了解领域知识网络

了解领域大模型

了解 RAG 模式

ChatGPT来了，知识图谱何去何从？

复旦大学肖仰华：大模型与知识图谱联合驱动的领域认知智能

GPT 对 NLP 领域是福还是祸

大模型真的“大”吗？

到底多有钱，我才能拥有专属大模型？

AnyDATA Framework 3

领域知识图谱构建

领域认知应用

AnyShare 认知助手

KWeaver 开源框架

智慧城市产业大脑方案

制造业认知中台解决方案

产业链情报分析与管理解决方案

无界会四图分析服务

观看回放

无界会四图分析服务

无界会三产业链知识网络

无界会二走近领域知识网络

无界会一认知驱动·先进制造

知识中台重磅亮相

领域智商点亮认知智能

认知智能在智慧城市建设中的应用分享

产业链知识网络

产业链招商

知识图谱构建

智慧城市产业大脑方案白皮书

数据驱动型组织蓝皮书

全域数据治理白皮书

爱分析·数据产品开发市场厂商评估报告

AGI时代的领域认知智能框架 eBook

AnyDATA Framework 3 技术白皮书

开发者社区

获得认知中台支持，一对一咨询

开源相关技术服务，一对一咨询

爱数博客

全部 AnyBackup AnyShare AnyRobot AnyDATA AnyFabric DIP

AnyShare Family 7 相似搜索结果折叠技术解析

2020-12-28 2279 1

传统搜索结果排序所有的文档使用相同的优先级判断算法，被搜索范围内，包含相似、相同文档的情况下，会在结果中排在一起，文档搜索包含大量重复结果，导致使用体验差。AnyShare Family 7 通过文档指纹生成算法技术实现了相似搜索结果折叠的功能，本文我们将对此技术进行相关解析。

part 1 - 效果展示对比

通过下面的示例我们可以看出，在使用相似搜索结果折叠的情况下，可以更为直观快速的定位到我们需要寻找的文档。

传统搜索模式

相似搜索结果模式

part 2 - 相似搜索结果折叠的实现逻辑

AnyShare Family 7 通过 SimHash 文档指纹生成算法对每个文档生成了文档指纹，当前端发起搜索请求时通过指纹相似度算法进行比对，从而将相似文档放入到一个相似集合中，下面图片很好的演示了这一过程。

part 3 - SimHash 文档指纹生成算法的原理

SimHash（LSH局部敏感哈希的一种），主要思想是降维，将高维的特征向量映射成低维的特征向量，通过两个向量的 Hamming Distance 来确定文章是否重复或高度近似，Hamming Distance 即海明距离，在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数，也就是说，它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如：1011101 与 1001001 之间的汉明距离是 2，至于我们常说的字符串编辑距离则是一般形式的汉明距离。

part 4 - 通过搜索结果折叠哪些文档会被识别为相似文档

1、文字内容相同，表达顺序与逻辑差异的文档

复制一篇文档，任意调整词组、语句顺序，能够归类为相似文档

2、部分内容修改的文档

复制一篇文档，修改其中字数 < 10% 左右文字，能够归类为相似文档

3、标准模板编写的文档

基于标准模板编写的文档，在文字内容 90% 相近的情况下，能够归类为相似文档

赞

点个赞吧！

请就本文对您的益处进行评级：

返回上一篇:AnyBackup 7 对象存储（C2D）备份... 下一篇：Hadoop备份恢复原理解析

标签

产品技术

热门标签

版本发布在线教学

热门文章

AnyBackup Family 8.0.6.0 发布通知 AnyShare Family 7.0.6.4 版本发布通知 AnyRobot Family 5.0.3.5 版本发布通知

最近文章

AnyRobot Family 5.0.3.5 版本发布通知 AnyShare Family 7.0.6.4 版本发布通知 AnyBackup Family 8.0.6.0 发布通知

关于爱数

客户成功故事

如何购买

已有注册账户

加入伙伴生态

登录合作伙伴门户

进入伙伴赋能中心

快速链接

开发者社区

隐私声明法律声明用户协议 Cookie声明廉洁协议云服务等级协议（SLA）

电话咨询

联系爱数

销售咨询：400 8216055

技术咨询：400 8801569

投诉及建议：400 880 1569转9

在线交流

关注爱数

版权所有 © 2006-2025 上海爱数信息技术股份有限公司沪ICP备09089247号沪公网安备 31011202011832

关于爱数

客户成功故事

如何购买

已有注册账户

加入伙伴生态

登录合作伙伴门户

进入伙伴赋能中心

快速链接

开发者社区

电话咨询

联系爱数

销售咨询：400 8216055

技术咨询：400 8801569

投诉及建议：400 880 1569转9

在线交流

关注爱数

隐私声明法律声明用户协议 Cookie声明廉洁协议云服务等级协议（SLA）

版权所有 © 2006-2025 上海爱数信息技术股份有限公司沪ICP备09089247号沪公网安备 31011202011832

关于爱数

客户成功故事

如何购买

已有注册账户

加入伙伴生态

登录合作伙伴门户

进入伙伴赋能中心

快速链接

开发者社区

电话咨询

联系爱数

销售咨询：400 8216055

技术咨询：400 8801569

投诉及建议：400 880 1569转9

在线交流

关注爱数

隐私声明法律声明用户协议 Cookie声明廉洁协议云服务等级协议（SLA）

版权所有 © 2006-2025 上海爱数信息技术股份有限公司沪ICP备09089247号沪公网安备 31011202011832

扫码关注「爱数官方微信」

扫码关注「爱数服务号」

大数据基础设施领航者

抖音扫一扫查看更多精彩视频

大数据基础设施领航者

拨打400

免费销售咨询热线 400 8216055 7*24 小时免费售后服务热线 400 880 1569 投诉及建议服务热线 400 880 1569 转 9

购买咨询

售后服务

返回顶部

为了给您提供更优质的服务，请您先完善以下信息：

手机号

姓名

企业名称

扫码关注

爱数技术支持中心公众号

请选择：

请选择咨询类型

AnyShare

AnyBackUp

AnyRobot

扫码关注

爱数技术支持中心公众号

contact us

提交成功！

我们将在 24 小时之内联系你。