Dynamic Contexts：基于 RAG 的对话系统中生成建议问题-天翼云开发者社区

论文：Dynamic Contexts for Generating Suggestion Questions in RAGBased Conversational Systems

引言

RAG（检索增强生成）对话系统通过从知识库检索相关信息来增强生成能力，但在实际使用中，用户常常难以准确构建查询，导致问题模糊，系统需要进一步澄清以理解用户意图。为解决这一问题，论文提出了一种建议问题生成器，利用动态上下文来改善用户交互体验。

提出的解决方案

建议问题生成器的核心在于使用动态上下文，这一概念包括两部分：

动态少样本示例（Dynamic Few-Shot Examples）：与传统少样本学习不同，动态少样本示例根据当前上下文或用户交互动态调整，而不是固定不变。
动态检索上下文（Dynamically Retrieved Contexts）：根据当前对话或用户查询，从知识库实时检索相关信息。

通过结合这两者，生成器能够提供更相关、更有效的建议问题，帮助用户更好地构建查询。

方法论

数据集

研究使用的数据集来源于Pamper’s Baby Sleep Coach的228篇博客文章。由于缺乏公开的专门数据集，研究者手动标注了其中35篇，以生成建议问题。这些博客内容主要与婴儿睡眠相关，提供了一个实际的测试场景。

模型与评估

研究采用了三种大型语言模型（LLM）：

ChatGPT
GPT-4
Claude-2

评估分为多个部分：

手动评估：对48个问题-答案-建议（QAS）对进行评估，检查正确性、相关性和合理性。结果如下：
- ChatGPT：44个正确
- Claude-2：44个正确
- GPT-4：46个正确
比较分析：将动态上下文方法与零样本、少样本和动态少样本方法进行比较，评估48个样本的正确问题数，结果见下表：

方法 ChatGPT Claude2 GPT-4

零样本 35 30 43

少样本 42 35 40

动态少样本 42 35 43

动态上下文 44 44 46
偏好基准测试：通过盲测对48个样本进行人机偏好评估。人类评估结果显示：
- GPT-4：43%偏好
- Claude-2：33%偏好
- 无偏好：24% 此外，GPT-4在57%的情况下更倾向于Claude-2的输出，而Claude-2则显示无偏好。
消融研究：研究改变查询和上下文的顺序，评估对结果的影响。结果显示：
- GPT-4：原始顺序46个正确，改变顺序后46个正确
- Claude-2：原始顺序44个正确，改变顺序后44个正确这表明顺序变化对结果影响不大，证明方法的鲁棒性。

方法	ChatGPT	Claude2	GPT-4
零样本	35	30	43
少样本	42	35	40
动态少样本	42	35	43
动态上下文	44	44	46

结果与讨论

动态上下文方法在所有三种模型中表现优于其他方法，尤其是在生成正确建议问题方面。比较分析表明，动态上下文方法在ChatGPT和Claude-2上的提升尤为显著，而GPT-4在零样本和动态少样本方法上表现已较强，但动态上下文仍略胜一筹。

偏好基准测试揭示了一个有趣的现象：尽管人类更倾向于GPT-4，但GPT-4本身更倾向于Claude-2的输出（57%），这可能反映了模型间评估与人类判断的差异。这种现象值得进一步研究，特别是在模型偏好与用户体验的关系上。

消融研究的结果进一步验证了动态上下文方法的稳定性，表明查询和上下文顺序的变化不会显著影响生成质量，这为实际部署提供了信心。

结论与未来工作

论文总结道，动态上下文方法有效地解决了RAG对话系统中用户查询构建的难题，通过生成建议问题改善了交互体验。未来，作者计划探索基于用户历史的个性化建议问题生成，以进一步提升系统的适应性和用户满意度。

方法	ChatGPT	Claude2	GPT-4
零样本	35	30	43
少样本	42	35	40
动态少样本	42	35	43
动态上下文	44	44	46

方法

ChatGPT

Claude2

GPT-4

零样本

少样本

动态少样本

动态上下文

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Dynamic Contexts：基于 RAG 的对话系统中生成建议问题

引言

提出的解决方案

方法论

数据集

模型与评估

结果与讨论

结论与未来工作

Dynamic Contexts：基于 RAG 的对话系统中生成建议问题

引言

提出的解决方案

方法论

数据集

模型与评估

结果与讨论

结论与未来工作

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Dynamic Contexts：基于 RAG 的对话系统中生成建议问题

引言

提出的解决方案

方法论

数据集

模型与评估

结果与讨论

结论与未来工作

Dynamic Contexts：基于 RAG 的对话系统中生成建议问题

引言

提出的解决方案

方法论

数据集

模型与评估

结果与讨论

结论与未来工作