searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

Dynamic Contexts:基于 RAG 的对话系统中生成建议问题

2025-03-28 06:19:32
1
0

论文:Dynamic Contexts for Generating Suggestion Questions in RAGBased Conversational Systems

引言

RAG(检索增强生成)对话系统通过从知识库检索相关信息来增强生成能力,但在实际使用中,用户常常难以准确构建查询,导致问题模糊,系统需要进一步澄清以理解用户意图。为解决这一问题,论文提出了一种建议问题生成器,利用动态上下文来改善用户交互体验。

提出的解决方案

image.png

建议问题生成器的核心在于使用动态上下文,这一概念包括两部分:

  1. 动态少样本示例(Dynamic Few-Shot Examples):与传统少样本学习不同,动态少样本示例根据当前上下文或用户交互动态调整,而不是固定不变。
  2. 动态检索上下文(Dynamically Retrieved Contexts):根据当前对话或用户查询,从知识库实时检索相关信息。

通过结合这两者,生成器能够提供更相关、更有效的建议问题,帮助用户更好地构建查询。

方法论

数据集

研究使用的数据集来源于Pamper’s Baby Sleep Coach的228篇博客文章。由于缺乏公开的专门数据集,研究者手动标注了其中35篇,以生成建议问题。这些博客内容主要与婴儿睡眠相关,提供了一个实际的测试场景。

模型与评估

研究采用了三种大型语言模型(LLM):

  • ChatGPT
  • GPT-4
  • Claude-2

评估分为多个部分:

  1. 手动评估:对48个问题-答案-建议(QAS)对进行评估,检查正确性、相关性和合理性。结果如下:

    • ChatGPT:44个正确
    • Claude-2:44个正确
    • GPT-4:46个正确
  2. 比较分析:将动态上下文方法与零样本、少样本和动态少样本方法进行比较,评估48个样本的正确问题数,结果见下表:

    方法 ChatGPT Claude2 GPT-4
    零样本 35 30 43
    少样本 42 35 40
    动态少样本 42 35 43
    动态上下文 44 44 46
  3. 偏好基准测试:通过盲测对48个样本进行人机偏好评估。人类评估结果显示:

    • GPT-4:43%偏好
    • Claude-2:33%偏好
    • 无偏好:24% 此外,GPT-4在57%的情况下更倾向于Claude-2的输出,而Claude-2则显示无偏好。
  4. 消融研究:研究改变查询和上下文的顺序,评估对结果的影响。结果显示:

    • GPT-4:原始顺序46个正确,改变顺序后46个正确
    • Claude-2:原始顺序44个正确,改变顺序后44个正确 这表明顺序变化对结果影响不大,证明方法的鲁棒性。

结果与讨论

动态上下文方法在所有三种模型中表现优于其他方法,尤其是在生成正确建议问题方面。比较分析表明,动态上下文方法在ChatGPT和Claude-2上的提升尤为显著,而GPT-4在零样本和动态少样本方法上表现已较强,但动态上下文仍略胜一筹。

偏好基准测试揭示了一个有趣的现象:尽管人类更倾向于GPT-4,但GPT-4本身更倾向于Claude-2的输出(57%),这可能反映了模型间评估与人类判断的差异。这种现象值得进一步研究,特别是在模型偏好与用户体验的关系上。

消融研究的结果进一步验证了动态上下文方法的稳定性,表明查询和上下文顺序的变化不会显著影响生成质量,这为实际部署提供了信心。

结论与未来工作

论文总结道,动态上下文方法有效地解决了RAG对话系统中用户查询构建的难题,通过生成建议问题改善了交互体验。未来,作者计划探索基于用户历史的个性化建议问题生成,以进一步提升系统的适应性和用户满意度。

0条评论
0 / 1000
Andy
6文章数
0粉丝数
Andy
6 文章 | 0 粉丝
原创

Dynamic Contexts:基于 RAG 的对话系统中生成建议问题

2025-03-28 06:19:32
1
0

论文:Dynamic Contexts for Generating Suggestion Questions in RAGBased Conversational Systems

引言

RAG(检索增强生成)对话系统通过从知识库检索相关信息来增强生成能力,但在实际使用中,用户常常难以准确构建查询,导致问题模糊,系统需要进一步澄清以理解用户意图。为解决这一问题,论文提出了一种建议问题生成器,利用动态上下文来改善用户交互体验。

提出的解决方案

image.png

建议问题生成器的核心在于使用动态上下文,这一概念包括两部分:

  1. 动态少样本示例(Dynamic Few-Shot Examples):与传统少样本学习不同,动态少样本示例根据当前上下文或用户交互动态调整,而不是固定不变。
  2. 动态检索上下文(Dynamically Retrieved Contexts):根据当前对话或用户查询,从知识库实时检索相关信息。

通过结合这两者,生成器能够提供更相关、更有效的建议问题,帮助用户更好地构建查询。

方法论

数据集

研究使用的数据集来源于Pamper’s Baby Sleep Coach的228篇博客文章。由于缺乏公开的专门数据集,研究者手动标注了其中35篇,以生成建议问题。这些博客内容主要与婴儿睡眠相关,提供了一个实际的测试场景。

模型与评估

研究采用了三种大型语言模型(LLM):

  • ChatGPT
  • GPT-4
  • Claude-2

评估分为多个部分:

  1. 手动评估:对48个问题-答案-建议(QAS)对进行评估,检查正确性、相关性和合理性。结果如下:

    • ChatGPT:44个正确
    • Claude-2:44个正确
    • GPT-4:46个正确
  2. 比较分析:将动态上下文方法与零样本、少样本和动态少样本方法进行比较,评估48个样本的正确问题数,结果见下表:

    方法 ChatGPT Claude2 GPT-4
    零样本 35 30 43
    少样本 42 35 40
    动态少样本 42 35 43
    动态上下文 44 44 46
  3. 偏好基准测试:通过盲测对48个样本进行人机偏好评估。人类评估结果显示:

    • GPT-4:43%偏好
    • Claude-2:33%偏好
    • 无偏好:24% 此外,GPT-4在57%的情况下更倾向于Claude-2的输出,而Claude-2则显示无偏好。
  4. 消融研究:研究改变查询和上下文的顺序,评估对结果的影响。结果显示:

    • GPT-4:原始顺序46个正确,改变顺序后46个正确
    • Claude-2:原始顺序44个正确,改变顺序后44个正确 这表明顺序变化对结果影响不大,证明方法的鲁棒性。

结果与讨论

动态上下文方法在所有三种模型中表现优于其他方法,尤其是在生成正确建议问题方面。比较分析表明,动态上下文方法在ChatGPT和Claude-2上的提升尤为显著,而GPT-4在零样本和动态少样本方法上表现已较强,但动态上下文仍略胜一筹。

偏好基准测试揭示了一个有趣的现象:尽管人类更倾向于GPT-4,但GPT-4本身更倾向于Claude-2的输出(57%),这可能反映了模型间评估与人类判断的差异。这种现象值得进一步研究,特别是在模型偏好与用户体验的关系上。

消融研究的结果进一步验证了动态上下文方法的稳定性,表明查询和上下文顺序的变化不会显著影响生成质量,这为实际部署提供了信心。

结论与未来工作

论文总结道,动态上下文方法有效地解决了RAG对话系统中用户查询构建的难题,通过生成建议问题改善了交互体验。未来,作者计划探索基于用户历史的个性化建议问题生成,以进一步提升系统的适应性和用户满意度。

文章来自个人专栏
文章 | 订阅
0条评论
0 / 1000
请输入你的评论
0
0