论文信息
标题:unifying large language models and knowledge graphs: a roadmap
作者:shirui pan
摘要
llms,例如chatgpt和gpt4,由于其涌现能力和泛化性,对自然语言理解和人工智能领域产生了新的冲击。
然而,llms是一个黑箱模型,往往缺乏捕获和获得事实知识。相反,知识图谱,例如维基百科等,是有结构模型。存储着丰富的事实知识。kgs可以通过提供额外的知识去增强大语言模型的推理和解释性。同时,知识图谱也很难去自然构造和进化,对于现有的知识图谱方法来说,生成新的事实和表示未知数据是一个挑战。因此,统一llms和kg,同时利用他们的优点是一种补充。
在这篇文章中,我们提出了统一llms和kg的路线图。我们的路线图包含三个通用框架:
- kg-enhanced llms:在llms的预训练和推理阶段,融入kg,增强对llms学到的知识的理解。
- llm-augmented kgs:利用llms执行知识图谱的各项任务,例如嵌入,补全,构造,图-文本生成 以及问答系统。
- synergized llms+kgs:llms和kgs发挥平等作用,相互合作,以数据和知识驱动的双向推理方式增强llms和kgs的能力
我们在路线图中回顾和总结了这三个框架内的现有成果,并指出了它们未来的研究方向。
背景
kgs
优点
- 结构化
- 准确率
- 确定性
- 可解释性
- 领域专业知识
缺点
- 不够完整
- 语言理解能力匮乏
- 对没见过的数据泛化性差
llms
优点
- 通用知识
- 语言处理
- 泛化性强
缺点
- 隐式知识(implicit)
- 幻觉(hallucination)
- 犹豫(indecisiveness)
- 缺乏领域/新知识
kgs中现有方法的不足
- 不能对新事物或关系进行有效处理
- 忽略大量的文本信息
- 泛化能力较差
llm可以帮助kg更好的利用和理解文本信息。
大模型分类
encoder-only | encoder-decoder | decoder-only | |
---|---|---|---|
代表模型 | bert | t5 | gpt |
训练方法 | predict masked words | masking and predicting spans of masking words | predict the next word |
下游任务 | 文本分类,实体命名 | summariaztion, translation, and question answering | generally perform downstream tasks from a few examples or simple instructions |
知识图谱分类
encyclopedic kgs | commonsense kgs | domain-specific kgs | multimodal kgs |
---|---|---|---|
百科知识图谱 | 常识知识图谱 | 领域知识图谱 | 多模态知识图谱 |
研究内容
llms和kgs统一的三种通用框架:
- kg-enhanced llms
- llm-augmented kgs
- synergized llms + kgs
kg-enhanced llms
- 在预训练阶段,融入kgs
- 在推理阶段,融入kgs
- 利用kgs解释事实和llms的推理过程
llm-augmented kgs
将llms作为 text encoder用于知识图谱的相关任务。
- take advantage of llms to process the textual corpus in the kgs and then use the representations of the text to enrich kgs representation
- 借助llms提取关系和实体。
- 设计一个kg promot,将结构化的kgs高效地转换成llms可以理解的格式,从而llms可以直接作用于kg相关的任务。
synergized llms + kgs
包含四个layer:
- date
- llms和kgs分别处理文本和结构化数据以及多模态数据 - synergized model
- technique
- application
- 搜索引擎、推荐系统、ai助手
kg-enhanced llms
kg-enhanced llm pre-training
- integrating kgs into training objective(将知识图谱整合到训练目标)
- 利用知识图谱结果分配mask的概率
- 使用知识图谱来选择实体进行遮蔽
- 使用知识图谱获取遮蔽实体的干扰项
- 实体预测 (预训练任务)
发表评论