维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%
来源:新智元
图片来源:由无界 AI生成
大模型固有的幻觉问题严重影响了LLM的表现。斯坦福最新研究利用维基百科数据训练大模型,得到的WikiChat成为首个几乎不产生幻觉的聊天机器人。
大语言模型的幻觉问题被解决了!
近日,来自斯坦福的研究人员发布了WikiChat——被称为首个几乎不产生幻觉的聊天机器人!
论文发表在EMNLP 2023,并且在Github上开源了代码:
论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf
项目代码:https://github.com/stanford-oval/WikiChat
作者表示自己的最佳模型在新的基准测试中获得了97.3%的事实准确性,而相比之下,GPT-4的得分仅为66.1%。
在「recent」和「tail」两个知识子集中,这个差距甚至更大。
另外,作者还发现了检索增强生成(RAG)的几个缺点,并添加了几个重要步骤,以进一步减轻幻觉,并改进「对话性」指标。
通过这些优化,WikiChat在事实性方面比微调后的SOTA RAG模型Atlas高出8.5%,
在相关性、信息性、自然性、非重复性和时间正确性方面也大大领先。
最后,作者将基于GPT-4的WikiChat提炼成7B参数的LLaMA,这个模型在事实准确性方面仍然能拿到91.1%的高分,
并且运行速度提高了6.5倍,能效更好,可以本地部署。
大模型+维基百科,一起击败幻觉
众所周知,LLM的幻觉问题由来已久、根深蒂固,
而且曾给各家的大语言模型都造成过不同程度的影响。
基于LLM使用概率来推断输出的原理,幻觉这个问题很难彻底解决,
研究人员们为此投入大量的心血,小编也是很期待这个WikiChat的表现!
WikiChat,顾名思义,就是基于维基百科的知识进行训练,听起来还挺靠谱的。
除了论文和代码,研究团队还部署了可以直接对话的demo供大家测试,好文明!
Demo地址:https://wikichat.genie.stanford.edu/
于是小编迫不及待地要试一试WikiChat的实力。
WikiChat首先进行了自我介绍,表示自己会记录对话用于研究,
另外,WikiChat有以下三种模式:
默认状态是平衡输出速度和准确性,我们可以在右边的设置中调节。
WikiChat还额外添加了TTS功能,输出是个温柔的女声。
好了,让我们赶紧「Ask her about anything on Wikipedia」!
——开个玩笑,既然你不会中文,那小编这点英文水平,只能献丑了......
(注意上面的这句中文不要点击语音输出,有可能导致整个聊天卡住无法恢复)
下面,我们首先问一个常识性问题:Sam Altman是OpenAI的CEO吗?
其实小编想测试她知不知道Altman被开除,然后又王者归来这件事,
不过这一句「在2020年离开YC,全职加入OpenAI」,貌似就有事实性的错误。
小编接下来使用游戏信息进行测试:介绍一下「原神」中的「宵宫」。
这个回答确实没什么问题,卡池时间和配音演员也正确,
既然提到了配音演员,那顺便问一下中文CV是谁:
这......不知道她为什么产生了这样的幻觉?实际上维基百科中是有相关信息的:
那我们提醒她反思一下:
好家伙,给出了另一个错误答案,小编想了一下,应该说的是游戏中另一位角色的CV(负责《神女劈观》中的戏腔部分,知名度较高)。
那么测试一下,知名度比较高的角色。
小编选择了在维基百科上有单独条目的雷电将军:
这下连卡池时间都有事实性错误,——而维基百科中的相关描述是没有问题的。
WikiChat对于自己一直心心念念的配音演员,倒是没有回答错误。
小编于是不死心地又测试了一遍之前的问题:
WikiChat也是不死心地给出了和之前同样的回答,并且在要求反思之后,变成了「道歉机器人」。
把模式调整到事实性优先:
WikiChat给出回答的速度要慢了很多,但还是只能道歉。
小编于是换了另一位有单独百科条目的角色:
除了第一句,后面就开始满嘴跑火车了。
最后,来问一下配音演员的问题(维基百科的单独条目中包含此信息):
......你这个聊天机器人是什么情况,认准了Juhuahua了是吗?
测试到此结束,小编不知如何总结,有可能是我的问题有问题吧。
比如我问题的相关信息,在英语维基百科的语料中重要性很小。
不论如何,WikiChat在一些问题上的表现确实还不错,比如宵宫那个问题,换成ChatGPT,就几乎没有任何沾边的事实。
这说明研究人员确实采取了一些有效的优化方法,来解决LLM的幻觉问题。
WikiChat架构
这项工作的事实性基础是信息检索(IR),它基于聊天机器人的响应、以及从可信语料库中检索到的信息,然后生成方法利用检索到的数据生成响应。
上图展示了WikiChat的组件,以及一段示例对话(关于即将上映的电影)。
生成响应所采取的步骤包括:
1. 生成从维基百科检索的查询,
2. 总结和过滤检索到的段落,
3. 从LLM生成响应,
4. 从LLM响应中提取声明,
5. 使用检索到的证据对LLM响应中的声明进行事实核查,
6. 起草响应,
7. 完善响应。
研究人员使用用户话语来检索LLM可能不知道的信息,要求LLM做出回应,并对其进行事实检查。
阻止LLM产生幻觉并不容易。一般情况下,当IR没有检索到任何相关信息,或知识语料库中没有相关信息时,LLM会产生幻觉来弥补不足。
因此,WikiChat会汇总和过滤检索到的信息,而不是直接生成响应。
这里分别对LLM生成的每个声明进行事实核查,并在必要时教系统说「我不知道」。
教LLM理解时间背景:例如,文章中的将来时态可能是指对话时的过去事件。
最重要的是,不能通过放弃这些必要的步骤来过早地优化速度,而是依靠模型蒸馏来减少延迟,直到达到高质量。
上图中管道的每个阶段都是使用上下文学习实现的。
生成的管道不特定于任何语料库。虽然本文将管道应用于维基百科以创建WikiChat,但它适用于任何自由文本语料库,包括个人和公司机密信息。
该管道也不特定于任何LLM,作者在本文中将其应用于三个不同的LLM。
策划正确且与对话上下文相关的信息
LLM能够解释用户话语,制定检索范围之外的响应,或者需要聚合来自多个来源的信息或得出结论,比如:
用户:你认为苹果会继续成为科技行业的重要参与者吗?
GPT-4:是的,......苹果拥有良好的创新记录、忠实的客户群和稳健的财务状况。全球市值最高的公司,市值超过2万亿美元。继续探索增强现实、人工智能、自动驾驶汽车等新技术。这将帮助他们在竞争中保持领先地位。
但我们不能完全相信LLM,而是需要对它们的输出进行事实检查。此外,LLM不知道最近发生的事件。
在与用户的对话中,WikiChat会识别何时需要访问外部信息。这可能是因为最后一个用户话语包含直接问题(例如「斯蒂芬·库里是谁?」),或者需要其他信息才能做出全面的回答(例如「我真的很喜欢斯蒂芬·库里」)。
第1阶段,WikiChat生成一个搜索查询,该查询通过提示捕获用户的兴趣(如下图所示)。作者发现,现有的系统尤其难以适应时间环境。
WikiChat在查询旁边生成用户需求的推断时间。查询时间可以是最近、year=yyyy或none之一,分别表示检索到的信息应尽可能近、特定年份或时间不重要。
将查询发送到信息检索系统,从语料库中获取相关段落,并根据时态信息对排名靠前的结果进行重新排序,得到Npassages。
第2阶段,由于这些段落可能包含相关和不相关部分的混合,WikiChat会提取检索到的段落的相关部分,并将它们总结为要点,同时过滤掉不相关的部分(如下图所示)。
第3阶段,提示LLM生成对对话历史记录的响应。这种回应通常包含有趣且相关的知识,但本质上是不可靠的。
第4阶段,LLM响应被分解为多种声明(如下图),此阶段解析共同引用以减少歧义,并解析相对时间信息(如「当前」和「去年」),以使所有声明自包含。
然后使用IR从知识语料库中检索Nevidence段落,以便每个声明作为证据,并使用基于时间的重新排名来更好地处理时间敏感的主题。
第5阶段,验证提示(如下图)使用思维链提示,将每个声明分配给以下三类之一:检索到的证据是否支持该声明、反驳该声明,或者证据中是否没有足够的信息来做出此决定。只有有证据支持的主张才会被保留。
使用收集到的信息来形成响应
实验表明,在满足所有会话标准的情况下一次性编写最终响应,对于上下文学习具有挑战性,尤其是有限的上下文长度,使得很难提供足够的多轮对话,作为少量示例来涵盖所有必要的方面。因此,这里采用两步法:
第6阶段,WikiChat根据给定的要点列表和对话历史记录生成响应草稿。
第7阶段,生成反馈并进行优化——基于相关性、自然性、非重复性和时间正确性的响应。
反馈包含模型对每个标准的推理,以及每个标准的分数介于0到100之间,细化以此反馈为条件。
改进是以这种反馈和分数为条件的,作为一个思维链。
最后,我们来看一下WikiChat的效果:
上表展示了WikiChat的评估结果和模拟对话的基线。事实和时间准确性是百分比,其他指标是介于1和5之间的整数的平均值。
事实准确性来自人类评估,其他指标来自小样本GPT-4。所有指标都是越高越好。
参考资料:
https://twitter.com/WikiResearch/status/1742151646627377382