达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

从文档中提取细粒度知识点,构建文档知识图谱的方法
一、引言

随着信息技术的飞速发展,数据呈爆炸式增长,如何从海量的文档中提取有价值的知识点并构建知识图谱成为了一个重要的课题。从文档中提取细粒度知识点构建知识图谱,不仅可以帮助人们更好地理解和管理知识,还可以为各种应用提供有力的支持。

知识图谱作为一种有效的知识组织和管理方式,在各个领域都有着广泛的应用。本文将聚焦于从文档中提取细粒度知识点构建知识图谱的方法和经验,以达观智能知识库的知识图谱功能为例,为相关领域的研究和实践提供参考。

达观智能知识库的知识图谱功能在这方面具有独特的优势。它结合了先进的自然语言处理技术和人工智能算法,能够高效地从文档中提取细粒度知识点,并构建出准确、丰富的知识图谱。下面将详细介绍达观智能知识库在构建知识图谱方面的方法和经验。

二、细粒度知识点提取在知识图谱中的应用
(一)内容中心知识图谱与大语言模型的整合

以实体为中心的知识图谱节点代表特定概念或实体,边表示概念间特定关系。这种细粒度的知识图谱允许使用图查询语言如 Cypher 或 Gremlin 表达各种查询,且已成为存储和检索信息供大语言模型在高级检索增强生成技术中使用的流行替代方法。知识图谱能捕获向量相似性搜索会遗漏的信息之间的关系,而大语言模型使得仅通过提示就能从非结构化内容中提取知识图谱三元组。然而,从非结构化信息中提取这种细粒度的知识图谱很困难、耗时且容易出错。为获得最佳结果,需要使用大语言模型处理所有非结构化内容以提取信息,创建“知识模式”来指导大语言模型提取的节点和关系类型,检查提取信息的图以确保正确性,且在更改知识模式时需重新处理所有内容。这导致构建和维护此图的成本很高,也使得大多数使用知识图谱进行检索增强生成的示例仅对几个句子或段落进行操作。

以内容为中心的知识图谱节点代表文本块等内容,边代表结构、语义和元数据属性。其节点代表原始内容,允许大语言模型处理上下文并挑选出重要信息。与细粒度知识图相比,这种以内容为中心的知识图谱具有无损、免维护、可扩展等优势。无损是指原始内容保存在节点中,不会在创建过程中丢弃信息,减少了根据需求变化重新索引信息的需要,并允许大语言模型根据问题从该上下文中提取答案。免维护是指不需要专家来调整知识提取,可以在现有向量搜索管道中添加一些基于关键字、超链接或数据其他属性的边提取,然后自动添加链接。可扩展是指创建过程可以使用对内容的简单操作来实现,无需调用大语言模型来创建知识图。创建过程也更简单,不需要领域专家,内容被加载、分块并写入存储后,可通过各种分析识别链接,如内容中的链接可变成 links_to 边,从块中提取关键字可链接到同一主题的其他块,还在开发更多用于链接的技术。对这些粗粒度图的检索结合了向量搜索和知识图遍历的优点,可以根据与问题的相似性识别起点,通过遵循边选择其他块,并对遍历的深度进行限制,包含通过嵌入距离和图距离相关的节点会导致更广泛的块集,图中的许多边会使信息加深上下文。

(二)多模态知识图谱补全

引入新颖的框架 MyGO,用于处理、融合和增强多模态知识图谱中的细粒度模态信息。MyGO 框架由模态标记模块、层次三元组建模架构和细粒度对比学习模块三个组成部分组成。模态标记模块将多模态知识图谱中的实体模态信息标记为细粒度离散标记序列,通过将非文本模态处理成 token 序列,再使用向量量化技术将每个 token 映射到离散标记中,生成细粒度的多模态标记。层次三元组建模架构包括跨模态实体编码器、上下文三元组编码器和关系解码器,跨模态实体编码器用于编码多模态实体信息,生成细粒度的实体表示;上下文三元组编码器用于捕捉实体间的上下文关系,进一步细化实体表示;关系解码器用于评估三元组的合理性,并生成预测结果。细粒度对比学习模块通过生成多样化的对比样本来增强模型性能,采用新的策略生成高质量的对比样本,从而实现更详细和有效的自监督对比学习,通过对比学习,模型能够更好地捕捉多模态数据中的细微差别和相互作用。在公共基准数据集上进行全面实验,MyGO 在多模态知识图谱补全任务中超过了 20 个最新基线方法,达到了新的最先进性能。

三、达观智能知识库知识图谱功能介绍

(一)核心功能
  1. 异构数据知识获取的全流程自动化
    • 利用达观 RPA 无侵入对接各个系统,解析多源异构数据,构建专业领域知识图谱。在规划、研发、设计、生产、制造、客户服务、设备管理中有 FMEA、FTA、FA、产品和设备手册、工单、品质报告等专业文档,以及存在于 MES、PLM、APS、OA、ERP、MRP、CRM、SCM、PDM 等系统中大量数据。通过知识抽取技术对这些数据进行解析和理解,充分挖掘“人机料法环测”等多维信息,应用知识推理和知识融合等技术构建知识图谱。
    • 支持多种格式文档的解析、表格提取、关键实体关系信息抽取和知识融合。达观知识图谱支持对 Word、Excel、PPT、PDF 等格式文档进行解析,能够快速针对故障报表和故障报告全流程、自动化解析和构建图谱。
  1. 故障问题归因分析
    • 输入失效或故障的描述信息,系统会自动理解并抽取出关键信息,并从知识图谱中提取出与失效现象相匹配的子图,实现失效原因的定位,给出相应的解决方法和改善措施。
    • 归因分析解析结果页提供所有可能的原因,原因之间能做到相互独立,完全穷尽,每一条结果支持查看失效原因的图谱,并提供原始 FTA、FA 数据的溯源信息,在需要时得以获取原始数据进行细节审查和可信度鉴别。整个过程采用领先的自然语言理解、知识推理、图语义匹配和信息检索等技术,实现高效、全面的失效智能分析。
  1. FMEA 失效模式自动发现与辅助制作
    • 在产品生产及日常维护过程中,若存在技术更替或者设备更换,设备资料也会随之更新。达观智能制造知识图谱平台可以从新上传失效文件中深度挖掘新失效模式、新原因、新的解决方法和新的改善措施,更新到相应的图谱中。
    • FMEA 制作人员在设计过程中可能存在疏漏,当生产运营过程发生了 FMEA 文件中未考虑到的故障现象,可将对应失效故障模式抽取出来更新到 FMEA 图谱中,提示人工确认并更新相应的 FMEA 文档,保持图谱中的信息和实际情况同步更新迭代,使整个图谱中的信息处于最新的状态。以此实现 FMEA 制作的智能化,提升设备、工艺和产品的质量和可靠性,为数字化和智能化工厂赋能。
  1. 智能问答和检索
    • 基于自然语言语义分析技术的智能问答系统,帮助用户更快、更智能地找到设备、人员、物料、工序、环境因素之间关联关系,答案可解释,同时支持答案结果的文档溯源。
    • 达观知识图谱问答系统采用业内领先的自然语言理解和知识抽取技术,理解问题中的关键信息并识别用户的意图,结合知识推理、子图匹配、信息检索等技术精准找到问题的答案,并根据答案的特点以合适的样式返回给用户。

(二)在不同领域的应用
  1. 先进制造业
    • 在先进制造业的多个环节提供认知智能能力,实现失效与故障归因分析、FMEA 管理和辅助制作、设备维护与维修工单等功能。达观数据智能制造知识图谱平台通过对FMEA、FMECA、FMEDA、FTA、失效分析报告、失效案例、设备手册等文档构建成知识图谱,并实现智能化的、全面的、高效的和准确的故障诊断与失效归因分析,助力先进制造业企业打造基于认知智能的质量体系,持续提升产品质量和生产可靠性水平。深度挖掘失效分析报告和其他与失效有关的文档,使用知识推理技术发现新失效模式、新原因、新的解决方法和新的改善措施,通过历史数据评估严重度、探测度、频度和风险分析,基于 DFMEA、MFMEA、PFMEA、SFMEA 等模板实现 FMEA 的辅助制作,实现快速、高效、全面的 FMEA 制作。能够实现对维修工单、故障记录、流程审批、维修手册、产品和设备手册、故障分析报告等文档进行解析、抽取和结构化,同时结合设备属性和关联关系,构建出先进制造业的故障知识库,并充分应用当前最前沿的认知智能技术,实现设备维护和维修的智能化应用。
    • 广泛应用于“集成电路、生物医药”等先导行业,“电子信息、生命健康、汽车、高端装备、先进材料”等重点产业,全方位赋能企业充分利用所积累的知识财富,实现知识化和智能化转型,激活企业创新能力。
  1. 故障分析
    • 针对制造型企业故障分析的痛点,提供智能故障排查、FMEA 智能更新、FMEA 辅助制作、故障案例统计分析等核心功能。
    • 智能故障排查:当用户发现故障,对故障现象问题收集后,可以将故障问题描述内容输入到检索框,图谱平台会智能解析该故障描述,通过引导用户逐步补充故障信息、定位故障位置,推荐排查措施、相似案例,辅助工程师高效排故。
    • FMEA 智能更新:故障解决后,产线会输出故障报告,用户可以将该报告上传至故障分析知识图谱平台,平台会对里面涉及到的 FMEA 故障知识进行识别和抽取,与平台里面历史 FMEA 文档做比较,若有新知识,会给相关用户推送结果,经审核后更新历史 FMEA。
    • FMEA 辅助制作:用户可以通过多种复杂组合筛选条件进行故障知识的查找,比如筛选两个产线的不同的生产工序过程、选择要制作的新 FMEA 模版、由专家审核组合条件结果,并下载成一份新 FMEA 文档。
    • 故障案例统计分析:主要针对故障报告、FMEA 文档里面的一些数据指标项进行统计分析,并将结果应用到产线进行持续优化改善,如对零部件、供应商、工艺、性能指标等进行统计分析,以辅助产线工程师制定优化策略。
四、达观智能知识库构建知识图谱的经验
(一)知识图谱的构建方法
  1. 从多源异构数据构建知识图谱
    • 结构化数据通过映射式配置导入,非结构化数据通过文档智能解析和信息智能抽取构建。达观智能知识库支持常见公开文档类型(如财务报表、招股说明书、商业合同等)和企业内部文档类型的信息抽取,能够从繁杂的文本、文档等非结构化资料中,利用自然语言处理中智能抽取的技术,抽取出业务相关知识构建知识图谱。
    • 达观智能知识库可构建专业领域知识图谱,例如在先进制造业中,通过知识抽取技术对 FMEA、FTA、FA、产品和设备手册、工单、品质报告等专业文档,以及 MES、PLM、APS、OA、ERP、MRP、CRM、SCM、PDM 等系统中的大量数据进行解析和理解,充分挖掘“人机料法环测”等多维信息,应用知识推理和知识融合等技术构建知识图谱。
  1. 基于知识图谱的问答打造行业专家系统
    • 达观智能问答专家系统,能够在准确识别用户问题意图的基础上,在图谱中找到相应的答案,支持对实体、属性、关系等各种数据的问答,且能对知识进行溯源。例如在金融领域,通过构建知识图谱,投资者可轻松获取所感兴趣的上市公司在专业机构研究中的投资观点;在军工领域,通过对数据进行信息挖掘、数据分析和信息融合,为军事行动和作战指挥提供更加科学、精确、及时、到位的决策依据。
(二)智能问答系统技术架构
  1. 问句预处理
    • 进行分词、词性标注等操作,还可根据知识图谱中已有的模式、实体名称、关键属性值对问句进行纠错。实际场景下,通过句法分析提取 query 中的短语作为实体提及,如采用 HanLP 自然语言处理包中的短语提取接口对 query 提取名词短语,通过中文树库限制短语的词性过滤重要的短语,避免单词或 Ngram 作为实体提及检索带来的巨大开销。
  1. 实体链接和词槽提取
    • 结合精确链和模糊链接提高实体链接精度。实体精确链接利用知识库中已有的知识点,将模式(schema)名称、实体名称、可遍历的枚举属性值集合构建字典树(即 Trie 树),通过 Trie 前缀树提取查询中的精确实体名称,并以 query 分词结果 token 作为基本粒度构建 Trie 树进行优化,避免提取出不相关的实体提及。

五、结论

知识图谱作为一种有效的知识组织和管理方式,在从文档中提取细粒度知识点构建知识图谱方面展现出了巨大的潜力。达观智能知识库的知识图谱功能在先进制造业、故障分析等领域的成功应用,为我们提供了宝贵的经验。知识图谱在各个领域的应用前景广阔,随着技术的不断进步,知识图谱的构建方法将不断创新和完善,为知识管理和应用带来更多的价值。