影视神剪手2024年10月11日日发布:Hallucination Leaderboard——聊天 AI 产生幻觉的排行榜

现在ChatGPT 等大语言模型(Large Language Model)可以像人类一样出口成章，但另一方面，可能会出现“幻觉(Hallucination)”，即说出与事实不符的内容，就好像它是真的一样。人工智能公司Vectara公布了各种大型语言模型中幻觉幻觉(Hallucination)发生率的调查结果。

vectara/hallucination-leaderboard: Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents

https://github.com/vectara/hallucination-leaderboard

Cut the Bull…. Detecting Hallucinations in Large Language Models - Vectara

https://vectara.com/cut-the-bull-detecting-hallucinations-in-large-language-models/

实际幻觉的例子如下。原文中没有的信息将显示在PaLM摘要中。

原文内容：

植物在周六早上搜查阿什伯恩近郊的仓库时被发现。警方说，他们在“精心设计的种植设施”里。一名四十多岁的男子当场被捕。

The plants were found during the search of a warehouse near Ashbourne on Saturday morning. Police said they were in “an elaborate grow house.” A man in his late 40s was arrested at the scene.

PaLM摘要：

在阿什伯恩附近的一个仓库中发现了价值约10万英镑的大麻植物，警方逮捕了一名40多岁的男子。

Police have arrested a man in his late 40s after cannabis plants worth an estimated £100,000 were found in a warehouse near Ashbourne.

您可以看到 PaLM 推断该文章是关于大麻植物的，并添加了估计的市值，这两者都没有出现在源文本中。

幻觉发生率的评价是通过向各个大规模语言模型传递以下提示，通过Hughes Hallucination Evaluation Model的调查结果来进行排名。

用来生成排行榜摘要的提示是：

You are a chat bot answering questions using data. You must stick to the answers provided solely by the text in the passage provided. You are asked the question ‘Provide a concise summary of the following passage, covering the core pieces of information described.’ <PASSAGE>’

（你是一个使用数据回答问题的聊天机器人。你必须坚持只根据文章中的文字提供的答案。你会被问到这样一个问题：“提供以下文章的简要摘要，涵盖所描述的核心信息。”<段落>）

然后我们将 <PASSAGE> 替换为源文档。您可以在下面找到源文档和 LLM 生成的摘要。

https://github.com/vectara/hallucination-leaderboard/blob/main/leaderboard_summaries.csv

结果如下表所示。GPT4在准确性和幻觉率低两方面都获得了最高得分，GPT3.5和谷歌Gemini Pro紧随其后。另外，生成摘要太短的情况下被认为是“不回答”。

为了能够进行定期更新，每次出现新模型或模型更新时，都会在 GitHub 上使用新数据更新检查此幻觉概率的表。

但是，在这次的调查中，只以各自输出的摘要和原文的事实的连贯性为评价对象，只是将原文的一部分剪切粘贴的模型的评价会变高。幻觉发生率和摘要的质量是完全不同的评价轴，应该进行不同的测量独立评价。

Vectara表示，虽然距离解决大型语言模型的幻觉问题还有很长的路要走，但通过将本次评估中使用的“Hughes Hallucination Evaluation Model”开源化，希望让社区参与解决幻觉问题，使解决大型语言模型的幻觉问题的应对更上一层楼。

【新澳门2024年资料大全管家婆开奖结果】【一码一肖100%精准】

【新澳历史最新结果】 【澳门精准正版资料免费看】

【澳门六开彩天天结果生肖卡开奖结果查询】 【澳门免费精准正版资料】

【天天彩澳门天天彩结果查询】 【澳门资料大全】

【2024澳门天天开好彩】 【澳门一码一肖一特一中五码必中】

【ww4949现场直播开奖记录今晚】 【新澳精准资料免费提供彩吧助手开奖记录查询】【2024新澳免费资料成语平特开奖结果记录】

点赞数: 0

影视神剪手APP介绍

新奥资料免费精准APP名:影视神剪手

版本:V6.81.348

更新时间:2024-10-10 17:22

管家婆八肖版资料大全这是一个功能强大的澳门正版资料大全免费六肖APP，可以帮助你完成各种任务。包括最新24小时热点资讯，今日最新：”<段落>）然后我们将 <PASSAGE> 替换为源文档。

澳门一肖一码必中一肖一码APP介绍

2024香港结果记录及查询APP名:影视神剪手

版本:V1.20.958

更新时间:2024-10-10 24:15

4949cn资料免费大全这是一个功能强大的新澳门资料大全正版资料APP，可以帮助你完成各种任务。包括最新24小时热点资讯，今日最新：PaLM摘要：在阿什伯恩附近的一个仓库中发现了价值约10万英镑的大麻植物，警方逮捕了一名40多岁的男子。

香港二四六资料大全2022年APP介绍

六开彩澳门网站APP名:影视神剪手

版本:V1.68.853

更新时间:2024-10-10 14:14

二四六香港天天开彩大全这是一个功能强大的打开澳门网站资料大全APP，可以帮助你完成各种任务。包括最新24小时热点资讯，今日最新：一名四十多岁的男子当场被捕。

澳门正版资料免费大全2020年APP介绍

2024澳门历史记录APP名:影视神剪手

版本:V1.46.632

更新时间:2024-10-10 21:18

澳门码资料版本大全这是一个功能强大的2024澳门今天晚上开什么生肖APP，可以帮助你完成各种任务。包括最新24小时热点资讯，今日最新：现在ChatGPT 等大语言模型(Large Language Model)可以像人类一样出口成章，但另一方面，可能会出现“幻觉(Hallucination)”，即说出与事实不符的内容，就好像它是真的一样。

澳门六开彩结果记录2024年APP介绍

澳门一码一肖100%APP名:影视神剪手

版本:V8.26.128

更新时间:2024-10-10 18:19

新奥彩今晚开什么生肖这是一个功能强大的2024澳门六开彩查询记录APP，可以帮助你完成各种任务。包括最新24小时热点资讯，今日最新：你必须坚持只根据文章中的文字提供的答案。

2024新澳今晚资料66期APP介绍

494949结果最快APP名:影视神剪手

版本:V1.65.168

更新时间:2024-10-10 13:20

澳门六结果资料查询网站这是一个功能强大的澳门精准一肖一码精准确2024APP，可以帮助你完成各种任务。包括最新24小时热点资讯，今日最新：com/vectara/hallucination-leaderboardCut the Bull….

新澳精准资料免费提供630期APP介绍

一码中精准资料APP名:影视神剪手

版本:V7.49.122

更新时间:2024-10-10 21:19

澳门正版准最快免费资料这是一个功能强大的澳门精准三肖三码三期结果APP，可以帮助你完成各种任务。包括最新24小时热点资讯，今日最新：Vectara表示，虽然距离解决大型语言模型的幻觉问题还有很长的路要走，但通过将本次评估中使用的“Hughes Hallucination Evaluation Model”开源化，希望让社区参与解决幻觉问题，使解决大型语言模型的幻觉问题的应对更上一层楼。

澳门彩资料大全最新最快APP介绍

4949澳门精准免费大全高手安卓版APP名:影视神剪手

版本:V3.90.701

更新时间:2024-10-10 17:24

澳门4949资料免费大全这是一个功能强大的2O24澳门结果APP，可以帮助你完成各种任务。包括最新24小时热点资讯，今日最新：csv结果如下表所示。