为了给您提供更优质的服务,请您先完善以下信息:
确认提交

扫码关注

爱数技术支持中心公众号

请选择:

请选择咨询类型

AnyShare
AnyBackUp
AnyRobot

扫码关注

爱数技术支持中心公众号

contact us

提交成功!

我们将在 24 小时之内联系你。

性能爆表
AnyShare
如何购买
我想先试用
我已是Anyshare 客户
AnyRobot
如何购买
购买 AnyRobot 订阅服务
我已是 AnyRobot 客户
一对一在线咨询
我是 AnyRobot 新客户
一对一在线咨询

非结构化数据管理难,爱数AnyShare Family革新企业内容管理 | 爱分析调研

2020-07-22

指导 | 李喆

调研 | 李喆 晓娜

撰写 | 晓娜

 

01

海量非结构化数据激发企业数字化转型新需求

 

随着移动互联网、社交网络等新媒介发展及人工智能等新技术的突破性进展,企业面临的内外部数据快速增长。IDC数据表明,2020年全球新建和复制的信息量将超过40ZB,是2012年的12倍,其中中国的数据量将在2020年超过8ZB,比2012年增长22倍。

数据大幅增长为企业的数据及内容管理带来了挑战,信息过载导致信息维护和搜索的效率降低,企业用户员工经常花费大量时间搜索无用数据。同时,信息来源复杂且格式多样,在企业储存的信息中,非结构化信息的比重越来越大。据Gartner估计,在快速增长的数据中,非结构化信息占比已达80%,企业现有架构通常无法应对海量非结构化数据的管理与应用。

伴随海量非结构化数据的产生,客户也面临新的数据管理挑战:

  • 第一,企业底层架构未打通,往往存在数据孤岛,数据存在不一致、多版本问题,业务流程脱节;
  • 第二,海量非结构化数据意味着海量小文件,为数据备份和恢复带来挑战;
  • 第三,非结构化数据中有大量影像、图片等多媒体信息,信息搜索困难;
  • 第四,法律法规监管要求严格,企业需要提升数据安全防护,对于敏感信息识别和文件加密有需求;

目前为止,行业内还没有一套有效的解决方案能应对企业的非结构化数据管理需求。国内的企业内容管理平台主要集中在内容存储、传统企业网盘、文档管理及协作等方面,无法满足企业非结构化数据管理的需求。同时,很多客户即使上线了国外最好的系统,但由于缺乏统一架构,仍然存在很多问题无法解决。

例如,一家农信银行曾上线了一套影像平台,基于Documentum内容管理平台开发了内容门户,并部署在Oracle数据库上,这已经使用了全球领先的技术与平台,但目前该银行数据每天增长300~500G,架构扩容难;同时,影像文件都是非结构化数据,文件小,每一次备份都不低于20天,严重影响业务连续性。因此,基于行业基本的架构,海量非结构化数据的扩展能力和备份恢复能力都无法得到保证,企业需要架构创新,能够满足同时将业务数据、知识数据、桌面数据在一个平台里面进行统一内容级的管理能力。

 

02

承载爱数非结构化数据战略,AnyShare Family 7应运而生

 

面对客户在非结构化数据方面的痛点和需求,爱数基于其新发布产品AnyShare Family 7(智能内容云),为客户提供非结构化数据的内容管理平台。AnyShare Family 7不仅是存储和管理非结构化数据的产品,而且以利用与共享作为其核心价值,为用户提供数据整合、管理和洞察。

作为一家大数据基础设施提供商,爱数从2010年就开始打磨AnyShare产品。2011年,爱数推出AnyShare 3.0版本,产品定位于更好的NAS,即网盘原型,解决用户数据存储的问题;随后,爱数逐步推出AnyShare 3.5、AnyShare 5.0等产品,解决用户集中管理文档、桌面备份等问题,并于2018年推出AnyShare Family 6(统一文档云),不断拓展产品的深度与广度,为客户建立非结构化数据中心,将海量、分散的非结构化数据管理起来。

随着爱数的企业战略由过去的企业内容存储和文档管理向企业内容管理转型,爱数的系列产品也随之不断演进。经过多个技术的创新突破之后,爱数于2020年7月揭秘AnyShareFamily 7,定位于企业内容管理,并融合大量核心人工智能技术,面向整合业务应用、内容应用开发、文档管理、团队协作和非结构化数据洞察等五大关键场景,使爱数从企业云盘市场进入企业内容管理市场。

AnyShare Family 7具有特殊的产品体系架构,是一个一体化的内容云平台,覆盖应用、桌面、移动端的非结构化数据;采用一套内容总线架构进行各类数据的统一集成;基于一个内容数据湖提供海量非结构化数据的管理和分析能力;同时具有一套文档管理体系和一套安全服务框架。AnyShare Family 7可以部署在公有云、私有云及混合云,满足各种IT架构。基于云原生架构,实现系统架构弹性扩展,可以应对海量用户并发访问高吞吐量的访问请求,这也是AnyShare Family 7相比于国际知名内容管理平台厂端的核心优势之一。

 

AnyShare Family 7进行了诸多技术创新,其中包括两个突破性的技术:第一个特性是智能搜索能力。基于微服务+索引集成、IVFFLAT倒排索引、支撑集+PQ编码优化等技术,AnyShare Family 7可以提供强大的计算能力,以极小查找计算量实现数十亿文件的以图搜图功能,并有效减少内存空间。AnyShare Family 7的智能搜索的功能包括全文搜索、标签搜索、编目搜索、以文搜图、以图搜图等,相对上一代AnyShare Family 6(文档云)性能提高5倍以上。

例如,一家银行有超过6000万个影像文件,包括身份证、合同等60多种影像数据类型,爱数提供了多功能引擎,包括特征向量搜索引擎、源数据服务引擎、全文检索引擎,并将这些引擎结合在一起,完成6000万影像文件的自动分类和搜索。

第二个特性是小文件的高效恢复与备份。大部分非结构化数据都是小文件,而海量小文件备份恢复的性能和效率低下。例如,用行业领先的备份恢复软件进行数据备份恢复时,若数据小于1MB,备份恢复性能则急剧下降,甚至降为0。因此,平均1MB的文件在100TB的数据量情况下需要十多天时间备份恢复。

爱数结合AnyBackup Family和AnyShare Family 7两款产品,并创新性地开发了OSS网关技术,保证系统不再只备份海量小文件,而是备份合并后的大对象,能够保障小文件的备份恢复性保持在240MB以上,且性能稳定不抖动,解决了困扰行业30年的小文件备份恢复的难题。

 

03

打造非结构化数据中台,赋能企业数据内容复用

 

非结构化数据管理之所以难,不仅因为其数量多、分散性高,还在于用户对于非结构化数据的需求是多层次的。在数据、内容、信息和知识层面分别有不同的需求。所以,目前为止,行业在非结构化数据层面很难从数据层面到知识层面提供完整有效的方案。

 

爱数将AnyShare Family 7与其他产品AnyBackup、AnyRobot、AnyDATA组合,基于人工智能驱动和数据架构底座,提出非结构化数据中台,可应用于智慧企业、金融科技、智慧城市、智慧教育等领域,真正解决用户内容管理的需求。

 

爱数的非结构化数据中台目前已经面向四类场景落地应用:数据资产管理赋能数字化运营、内容自动化赋能业务流程自动化、智能知识运营赋能学习型组织、立体安全赋能业务合规性管理。

在数据资产管理场景下,传统文档管理体系主要以网盘、文件仓库等形式存在,但数据系统仍然处于割裂状态,数据管理和运营存在存放杂乱、存储不够、长期保存难、资产种类多样、使用率低等问题。爱数的非结构化数据中台围绕结果型文档进行数字资产管理,全面梳理数字资产定义、活动、流程,完成管理制度优化;并基于AnyShare Family 7搭建,将底层数据打通,从源头就保障了数据资产的复用能力,实现数字资产统一运营、全面合规、高效利用。AnyShare Family 7具有全球化运营能力,能够实现多文档域分享文档管理体系,支持不同云基础设施,保障全终端一致的用户体验。

内容自动化场景应用出自大量企业降低出错率、提高生产效率、降低人力成本等诉求,以期实现业务流程自动化。传统内容自动化技术识别内容主要基于页面实现填表自动化,但爱数的非结构化数据中台基于AnyShare平台和源数据提取及SmartSheets核心技术,能够针对不同的页面需要重复识别,覆盖数据采集、内容分析和数据生成、业务系统对接等全环节,实现内容自动化+智能检索,进而实现数据处理流程自动化。例如,某银行需要对贷后800家上市公司的财务报表进行监控与核查,使用RPA后,实现全流程自动化,此前40个人的工作量仅需一个人完成,提升工作效率与员工的工作满意度。

在智能知识运营场景下,知识运营贯穿企业经营全局,企业对建立知识创新体系、提升企业的知识传承与复用的需求强烈。传统知识管理系统只涉及文档,不涉及业务流程中的各环节,且没有探索性的知识分析的能力,从而无法实现真正的知识沉淀,大多知识管理体系依赖于人工分享,员工缺乏动力。非结构化数据中台基于AnyShare Family 7和AnyDATA搭建,提供基于多模态知识图谱的智能知识运营解决方案,通过对知识进行推荐并不断训练反馈,构建大规模企业知识图谱,实现企业信息知识网络,进而实现精准的智能内容搜索、进行智能知识推荐,赋能企业成为学习型组织。

在业务合规管理场景下,随着海量数据产生及人工智能技术应用,企业内外部的合规性要求愈发严格。传统的数据安全方案大多只解决了企业文档层面的安全问题,但没有解决内容方面的安全问题。爱数的非结构化数据中台基于AnyShare Family 7和AnyRobot,从数据安全、内容安全、信息安全、知识安全等多层次建立立体安全体系。同时,爱数在其应用生态中引入第三方安全应用或程序,保障客户的数据安全合规。

 

04

平台+生态合作,创造领先商业模式

 

全球内容服务市场是一个超过180亿美元的市场,增长迅速,中国市场的应用成熟度尚且不够。

全球内容管理平台的领导者是微软、OpenText、IBM、Box等,但是这些企业的内容管理平台并非是完美的。根据Gartner发布的报告,各企业平台都有或多或少的缺陷。在未来,人工智能技术是内容管理创新共同的突破点,而在人工智能方面,全球企业都处于初始阶段。因此,尽管全球领先厂商具有较高的内容成熟度,但从行业角度来看,AnyShare Family 7仍有很大的发展空间。

借着国产化浪潮来临的市场机遇、人工智能和云计算等快速发展的技术机遇,以及数字化转型的行业机遇,爱数创新性地开辟了能够迎头赶上的企业发展战略和商业模式:平台+生态。

AnyShare Family 7通过和合作伙伴构建全新的生态系统,将AnyShare Family 7打造成一个开放平台。因此,AnyShareFamily 7 可以由爱数与合作伙伴生态,联合创新,共同为客户提供覆盖广泛、功能丰富的内容管理解决方案。目前,AnyShare已经与数据安全整体解决方案厂商华途、PDF内容管理解决方案厂商福昕等,在不同细分行业领先的企业全面展开生态合作。

爱数的平台+生态的商业模式体现在两方面:一是爱数与合作伙伴共同创新研发,基于爱数的四大数据服务平台,结合基础设施生态、行业生态、应用生态、服务商生态等合作伙伴,帮助各行业用户进行数字化转型;二是和商业伙伴形成创新的商业模式,爱数向合作伙伴开放其平台及市场,与合作伙伴相互销售产品、共享收获收益,进而快速地实现规模效益。

未来,爱数将会连接更多的生态伙伴,与爱数深度融合,为客户提供最佳的数字化服务。

 

近日,爱分析对爱数创始人兼总裁贺鸿富先生进行了专访,就非结构化数据中台、内容管理平台、AnyShare Family 7等内容进行了深入交流,现将部分内容分享如下。
 

智能内容云,打造数据化时代的生产力平台

 

爱分析:如何定义智能内容云?

贺鸿富:智能内容云的定义可以拆解为三个部分:第一是云,我们利用大量的云计算技术,帮助用户解决海量非结构数据问题。云计算的技术特点包括弹性、敏捷性、可靠性等,涉及对象存储技术、索引技术、云原生技术、外部接口技术等,客户既可以部署在私有云里面,可以部署在它信任的服务合作伙伴里面,也可以选择爱数公有云。

第二是内容,内容就是把数据打开能看到的信息、查看方式、数据合法性、知识点等。如果只是把数据打包从A点移动到B点,那是对象存储。爱数平台的核心价值之一是云中立,广泛兼容各种云基础设施,包括各种对象存储,我们已经兼容了18个对象存储的选择,客户可以选择用自己的平台或者我们提供的开源平台。

第三是智能,客户的很多需求得不到满足就是因为还不够智能,AnyShareFamily 7最大的创新的点就是融合了大量的智能技术,包括机器学习、深度学习、自然语言处理等,实现对非结构化数据内容的搜索、识别、抽取以及知识生成。例如,图片搜索就是利用了人工智能技术。

 

爱分析:AnyShare的产品是如何迭代到目前的版本的?

贺鸿富:AnyShare定位很明确,是作为下一代的企业内容管理平台,“下一代”这三个字如何解读,是我们探索和创新的方向。我们从两个视角来看这个问题。

第一是非结构数据的生命周期角度,我们发现数据生成来自桌面、业务系统等,并且来源于多个流程与环节;其次,在数据使用环节,数据使用场景多,有的直接使用数据本身,有的使用数据转化的结果,这就需要数据洞察,利用和挖掘非结构化数据,赋能整体业务;最后,数据保存、归档、保护以及销毁等环节有内容自动化、数据归档、高性能备份恢复等技术应用场景,我们的出发点就在于要确保整个数据生命周期的管理能够得到比较好的支持。

第二是从企业内容管理平台应用角度, Gartner、IDC、Forrester等研究公司在定义企业内容管理平台的时候,都认为作为企业内容管理平台,需要具备几大核心能力:整合业务系统中的非结构化数据、给特定的业务系统提供内容能力、文档管理、团队协作等功能。

所以,我们原来做内容总线,只解决数据集成和数据共享流转的问题,解决的问题领域其实是非常有限的。后面我们又提出内容数据湖,到现在提出非结构数据中台,逐步演进,能比较完整地支撑下一代企业内容管理平台,有效地管理整个数据生命周期,并且能够实现数据洞察赋能业务。这是我们新的AnyShare Family 7的演进过程。

 

爱分析:AnyShare Family 7相比AnyShareFamily 6有哪些技术突破与升级?

贺鸿富:有很多创新。例如,在图片搜索图片分类方面,首先产品架构要能支持海量数据处理,需要具有微服务化、索引集群化等;其次,我们不采用大规模的计算模型,注重性价比,所以可以采用很多算法来帮客户做计算压缩、内存压缩、并行处理等处理。所以爱数的重点不是算法创新,而是应用创新。
 

爱分析:智能内容云平台会融入哪些新的AI技术?如何在实际业务场景中和客户的需求和业务诉求结合?

贺鸿富:涉及的技术点非常多,从总体来看,技术分成几大类别:第一是对内容的识别方面涉及NLP和知识图谱,第二在图片方面涉及技术机器学习和深度学习,第三对表格数据自动化等系列产品应用的是模式识别等。

但是,人工智能技术经过这几年的蓬勃发展,已经有了很好的发展。大量的人工智能基础平台技术提供方(如谷歌、华为、微软等)开放了算法框架,所以爱数在人工智能方面主要是应用,而不是算法创新。我们会根据客户的需求去寻找最佳匹配的算法,并且集成到产品中。

 

联合创新合作伙伴生态,赋能行业数字化转型

 

爱分析:中国的内容管理市场跟国外相比有什么特点?爱数的机会在哪里?

贺鸿富:中国有很多独特的行业,所以有很多的内容管理公司。但是,中国的内容管理市场刚刚起步,企业会根据客户需求搭建数据库、操作系统、中间件等,并逐渐模块化。但是,越来越多的客户意识到,从上到下全部开发有很大的局限性。

国外企业应用跟中国不一样,几乎每一个领域都有平台厂商,也有大量的专业服务商,根据客户的要求基于平台做实施服务和应用。

所以平台化的商业路径在中国才刚刚开始,很多企业客户发现平台和应用要分开,当业务在变化的时候,实际的应用一定会变化。平台的能力是高度抽象的,这些高度内聚的能力是不变的,变的是业务流程,这样企业就变得非常敏捷。钉钉和企业微信就是国内的启蒙者,他们一开始就是平台化的,企业能力靠其生态无限延展,他们只做其中最核心的一部分。

 

爱分析:爱数和生态合作伙伴采取什么样的合作形式?

贺鸿富:第一,我们的生态战略不是简单地找一些合作伙伴作为销售渠道,而是双方一起联合创新,在研发阶段进行技术融合,给客户创造更大价值。

第二,我们把合作伙伴生态战略定位为整个公司的发展战略,把公司的商业模式从原来的产品销售模式演变成平台+生态的商业模式。因此,目前的合作伙伴关系发生了很大转变,你中有我我中有你,我们和合作伙伴可以相互销售对方的产品。

第三,我们选择的合作伙伴要有核心的开发能力,我们的合作都是强强合作,我们在每一个细分领域里面寻找最优秀的这些公司,所以我们有独特的平台价值。

 

爱分析:爱数的生态合作的战略与其他竞争对手的生态有什么区别?

贺鸿富:爱数的平台加生态的战略思路是把我们的平台能力无限拓展,大部分内容服务的能力都不是由爱数开发,而是把内容服务能力完全开放出去,只要是合作伙伴能提供的我们就不做了,这是我们的一个原则,而且我们是开放给所有的合作伙伴。我们的生态开放精髓不是开放服务能力给服务商更好地服务客户,这只是其中重要的一部分,更重要的是应用厂商在我们的平台上面更好地开发应用。
 

爱分析:如何定义数字时代的生产力平台?

贺鸿富:数字化时代的生产力和企业的数字化转型息息相关,加速企业数字化转型。核心价值是把非结构化数据的潜能释放出来,即对非结构化数据的洞察、赋能,做大量的技术创新。比如,在合规性方面,我们利用非结构数据中台满足个人信息保护里的敏感内容识别,并且进行合适的保护,保证企业业务合规;在智能知识运营方面,不同于传统知识管理的用户或专家产生知识的模式,我们靠机器和知识图谱技术改善效率。同时,对于知识密集型的企业,在知识管理和知识运营再推进学习型组织知识战略的时候将得到非常大的突破,用新的生产力模式做知识服务,很多生产方式的问题就迎刃而解了。

 

爱分析:爱数的平台战略是否能够满足客户的个性化需求?

贺鸿富:解决这个问题的办法有很多种,一种就是按照客户的要求从上到下全部开发,另一种是基于高度内聚能力的平台做延伸和定制。我们选第二种方案,所以我们从不避讳客户的定制化需求,我们要解决的问题是如何用我们的方式满足客户的定制需求。我们依据于研发体系,打造平台,平台本身是没有任何定制需求的,但是这个平台里面有大量的开放性的特征,比如我们提供了超过400个API、大量的可配置的模块、大量可集成技术开发框架,满足用户各种场景下的集成需求,这考验的是我们平台的抽象能力和开发能力。

同时,我们提供了一个先进和完整的商业模式改变在中国建设生态的问题,其中有两个精髓:第一是要创造更大的平台吸引合作伙伴;第二是我们要打造开放性的合作模式,保证合作伙伴能共享利益并且有话语权。我们不是参考国内产品销售代理的模式,而是把爱数的服务和市场完全开放给合作伙伴,让他们独立销售。

 

非结构化数据中台赋能企业内容级管理
 

爱分析:当前在数据化转型阶段企业客户目前主要面临的挑战是什么?

贺鸿富:几乎没有一家企业能够告诉企业如何落地其数字化战略,企业有很强烈的意愿要做数据驱动,但他们对数据驱动的实现路径并不清楚,所以当有一个新的物种出来的时候,他们就会去尝试,建设结构化数据中台,但是发现建设并不是可以一步到位的。因为从结构化数据着手包袱太重,面临的业务重构的问题太多了。

 

爱分析:目前,在这四大场景下,面临的技术挑战有哪些?

贺鸿富:主要的挑战在于深度学习、知识图谱、自然语言处理等技术,以及如何更加深入到业务场景。在数据资产管理方面,数据的生命周期保存还所需要更多的介质层面支持,包括和云平台的结合等;在业务合规性方面,难点主要在于利用深度学习进行敏感内容的精准识别和管理;在内容自动化方面,难点在于识别准确率,需要很长时间进行积累和突破;在知识运营方面的挑战在于国谱构建,要面向不同行业构建有效图谱实现知识化运营。

同时,算法也是难点之一。有些企业客户的算力和数据都很有限,在这样的情况下,要保证好的效果就要保证算法有一定的突破。

 

爱分析:什么行业、哪种类型的客户最先有可能落地非结构化数据中台?

贺鸿富:每个行业都有相应的企业,只是不同行业中企业自身的经营战略和领导风格不同,会导致大家在数字化的态度上参差不齐。

数字化转型走在前列的企业会先落地。第一,数字化要成为整个公司的战略重点;第二,公司已经有一些很好的数字化基础了;第三,公司出于外部环境或自身战略需求,需要进一步加大数字化的投入和推进。

 

爱分析:如何看待数字化转型中懂行的必要性?

贺鸿富:做数字化转型必须得懂行,因为数字化是业务转型,是业务智能化,不懂行业无法提供相应针对性的解决方案的。

同时,数字化和信息化不一样,信息化是全球堆栈,系统、中间件、应用分工很明朗,但是在数字化里实现业务智能化,背后是大量新技术驱动,原来只专注应用的堆栈全部都要重构,因此技术性公司必须要懂行。客户也必须要转型成一家软件公司,两者结合才可能实现数字化落地。

 

爱分析:未来,非结构化数据中台会如何演进?

贺鸿富:从用户的角度来看,非结构化数据的管理有几个核心需求:数字资产管理、业务流程自动化、知识运营、业务合规性管理。从爱数的角度来看,我们现在已经提供了这些场景解决方案,但在技术层面要解决的问题非常多。未来2~3年内,爱数都会围绕这些场景解决方案在技术层面持续突破,这并非是一蹴而就。例如,目前我们在知识图谱方面构建的应用场景还很有限,无法覆盖各行各业。所以,未来我们会围绕这4个方向,持续深化、帮助用户实实在在地创造更多基于海量非结构化数据的价值。

ai-assistant
chat
support
trial
需求助手 (内容由 AI 大模型生成,请仔细甄别)