背景:Graph RAG
简而言之:GraphRAG建立在RAG的概念基础之上,同时利用了知识图谱(KGs)。
生成模型通过图结构信息(知识图谱)来访问精确并上下文相关的数据。由此能够更加有效地结合外部知识库,从而提升生成模型对复杂问题的理解与处理能力。
在特定用途部署大型语言模型(LLM)时,确实存在一些复杂性。首先,由于LLM在处理极长上下文时的挑战以及在特定数据集上微调大型模型的高昂成本或不切实际,使得为特定用途部署训练有素的LLM变得复杂。其次,在医学等对精确度要求极高的领域中,LLM可能会产生幻觉——即看起来准确但可能导致错误结论的输出,这可能是危险的。此外,它们有时提供的答案过于简单,没有提供新的见解或发现,这在需要高级推理以得出正确答案的领域中是不够的。
为了解决这些问题,提出了一种名为Medical Graph RAG(MedGraphRAG)的新型基于图的检索增强生成(RAG)框架。MedGraphRAG专为医疗领域设计,旨在通过以下方式增强LLM的能力和生成基于证据的结果,从而在处理私人医疗数据时提高安全性和可靠性:
- 混合静态语义方法进行文档分块:通过结合字符分割和基于主题的分割,提高了上下文捕获的准确性。
- 构建三层层次图结构:将提取的实体链接到来自医学论文和词典的基础医学知识,然后通过语义相似性合并这些实体,形成一个全面的整体图。
- U-检索方法:平衡了LLM的全局意识和索引效率,通过自上而下的检索和自下而上的响应生成相结合,以精确和上下文相关的医学响应。
MedGraphRAG通过以下方式验证了其方法的有效性:
- 通过全面的消融研究,比较了文档分块、图构建和信息检索的各种方法。
- 结果表明,其层次图构建方法在多个医学问答基准测试中持续优于最新模型,并且生成的响应包括源文档,显著提高了医学LLM在实际应用中的可靠性。
MedGraphRAG的主要贡献包括:
- 提出了一个全面的流程,专门用于在医学领域应用Graph RAG。
- 开发了独特的图构建和数据检索方法,使LLM能够利用整体私有数据生成基于证据的响应。
- 在主流基准测试中进行了验证实验,使用各种模型变体实现了最新性能。
此外,MedGraphRAG的代码和更多详细信息可以在相关GitHub找到。
论文:《Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation》。