“唯一不变的就是变化本身。ChatGPT 不到两个月就突破1亿月活用户,而此前 TikTok 实现1亿月活用户的时间为9个月。”
随着社会信息的快速增长与各类系统的日益复杂,人类智能发展受限于缓慢的生物进化速度,其认知能力是有限的;发展具备认知能力的机器,是认知日益复杂世界的必经之路。以生成式人工智能为代表,通用人工智能时代到来,引发新一轮产业变革。大规模生成式语言模型规模越来越大,“涌现”出了令人惊讶的“智能”,生成式大模型成为认知智能新底座。
实现领域认知智能的两条路径
一直以来,实现智能有着两种路径:第一种是将数据转换成符号知识,比如知识图谱、规则等,但是这种方式往往伴随着巨大的信息损失。第二种是用统计模型将数据建模,这种方式的优点是可以保留数据中所有信息,包括信息中蕴含的隐性知识,使得“数”尽其用。大语言模型以参数化形式编码了数据中蕴含的知识(海量的通用知识、不同学科知识),是参数化的知识容器。
这两种路径对于实现智能都是不可或缺的。
将大模型和知识图谱相结合,两者形成循环,把统计得出的结论沉淀为知识增强知识图谱,并利用已沉淀的知识提升大模型的学习效率,能够促进双方进一步发展,形成领域认知智能。
领域大模型是大模型的重点发展方向,因为基础大模型与行业应用场景之间存在鸿沟,需要通用大模型向领域适配。
知识图谱技术由于是静态的,目前也难以满足以工业互联网为代表的领域应用需求,需要发展动态的、能够持续学习的知识图谱,发展下一代知识图谱技术。
领域认知智能离不开大模型
通用认知是实现领域认知的前提,实现领域认知智能离不开大模型。
没有通用认知能力,就没有领域认知能力。大模型的出现宣告了通用人工智能(AGI)时代的带来,意味着机器的通识能力显著提升,而只有掌握广泛而多样的通识,才能有理解领域内的专业知识的能力,所以领域认知智能是建立在实现通用人工智能基础之上的。
大模型具备了开放世界的理解能力,同时是目前唯一能胜任常识理解的技术。除此之外,大模型也具备强大的组合创新能力,评估评价能力,复杂指令理解与执行能力,多模态、跨模态认知能力等,这使大模型成为了智能的新基座。
领域认知智能离不开知识图谱
知识图谱仍是解决领域问题过程中重要的力量。
通用大模型难以直接胜任领域任务:第一,通用大模型具有通用知识,有广度,缺深度;大模型在垂直领域的专业知识仍然匮乏。第二,生成式大模型回避不了幻觉问题,增强大模型规模和训练量只能一定程度缓解,其自身无法从根本上解决这一问题。第三,大模型对缺乏领域“忠实度”,并不会按照领域里的规范解决问题。第四,大模型不可控、难编辑,对于敏感、不安全的内容难以控制其生成和展示。
对于以上问题,利用知识图谱对大模型进行干预能够有效优化。大模型相关的绝大多数常规任务能够被分解为“提示(prompt)、生成(Generation)、评估(Evaluation)”三个阶段,其中,提示、评估是大多知识图谱等外部工具容易干预的环节知识图谱对大模型优化的主要方式。知识图谱能够指引prompt生成、评估生成结果,并能够通过使用知识图谱增强生成效果。同时,数据库、知识图谱存储了大量高质量数据、知识,将数据、知识接入语言模型,能有效提升模型的信息丰富度与知识水平,从而缓解幻觉现象。最后,知识图谱可以降低语言模型的学习成本,提升其推理能力以及可解释性。
领域大模型与知识驱动的知识图谱进行深度融合,化解领域知识壁垒严重、专业性强、大量专家经验难以替代等大模型领域落地难题,实现领域认知智能,赋能产业发展与变革,推动社会发展与生产力提升。