影视神剪手2024年10月11日日发布:Hallucination Leaderboard——聊天 AI 产生幻觉的排行榜
⭐发布日期:2024年10月11日 | 来源:影视神剪手
【新澳门资料大全免费澳门资料大全开奖结果今晚】 |
【新澳门历史记录查询最近十期】 |
【澳门六开彩天天正版免费资料大全】 | 【澳门天天开彩期期精准】 | 【新澳门48049六开彩资料大全最新开奖记录】 | 【新澳彩资料免费资料大全】 | 【澳门今晚一肖一码100%精准】 | 【澳门一肖一码一必中一肖雷锋】 | 【2024澳门六开彩结果查询表开奖记录查询】 | 【跑狗图正版高清新一代论坛开奖结果记录】 |
【澳门一码一肖100%精准开奖结果查询】 | 【www62844澳门资料大全】 | 【澳门内部正版免费资料软件优势】 | 【2024澳门资料大全免费808】 | 【澳彩精准资料免费长期公开】 | 【新澳门六开彩资料查询】 | 【7777888888管家婆中特开奖历史记录】 | 【二四六王中王香港资料开奖结果记录】 |
现在ChatGPT 等 大语言模型(Large Language Model)可以像人类一样出口成章,但另一方面,可能会出现“幻觉(Hallucination)”,即说出与事实不符的内容,就好像它是真的一样。 人工智能公司Vectara公布了各种大型语言模型中幻觉幻觉(Hallucination)发生率的调查结果。
vectara/hallucination-leaderboard: Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents
https://github.com/vectara/hallucination-leaderboard
Cut the Bull…. Detecting Hallucinations in Large Language Models - Vectara
https://vectara.com/cut-the-bull-detecting-hallucinations-in-large-language-models/
实际幻觉的例子如下。 原文中没有的信息将显示在PaLM摘要中。
原文内容:
植物在周六早上搜查阿什伯恩近郊的仓库时被发现。警方说,他们在“精心设计的种植设施”里。一名四十多岁的男子当场被捕。
The plants were found during the search of a warehouse near Ashbourne on Saturday morning. Police said they were in “an elaborate grow house.” A man in his late 40s was arrested at the scene.
PaLM摘要:
在阿什伯恩附近的一个仓库中发现了价值约10万英镑的大麻植物,警方逮捕了一名40多岁的男子。
Police have arrested a man in his late 40s after cannabis plants worth an estimated £100,000 were found in a warehouse near Ashbourne.
您可以看到 PaLM 推断该文章是关于大麻植物的,并添加了估计的市值,这两者都没有出现在源文本中。
幻觉发生率的评价是通过向各个大规模语言模型传递以下提示,通过Hughes Hallucination Evaluation Model的调查结果来进行排名。
用来生成排行榜摘要的提示是:
You are a chat bot answering questions using data. You must stick to the answers provided solely by the text in the passage provided. You are asked the question ‘Provide a concise summary of the following passage, covering the core pieces of information described.’ <PASSAGE>’
(你是一个使用数据回答问题的聊天机器人。你必须坚持只根据文章中的文字提供的答案。你会被问到这样一个问题:“提供以下文章的简要摘要,涵盖所描述的核心信息。”<段落>)
然后我们将 <PASSAGE> 替换为源文档。您可以在下面找到源文档和 LLM 生成的摘要。
https://github.com/vectara/hallucination-leaderboard/blob/main/leaderboard_summaries.csv
结果如下表所示。GPT4在准确性和幻觉率低两方面都获得了最高得分,GPT3.5和谷歌Gemini Pro紧随其后。另外,生成摘要太短的情况下被认为是“不回答”。
为了能够进行定期更新,每次出现新模型或模型更新时,都会在 GitHub 上使用新数据更新检查此幻觉概率的表。
但是,在这次的调查中,只以各自输出的摘要和原文的事实的连贯性为评价对象,只是将原文的一部分剪切粘贴的模型的评价会变高。幻觉发生率和摘要的质量是完全不同的评价轴,应该进行不同的测量独立评价。
Vectara表示,虽然距离解决大型语言模型的幻觉问题还有很长的路要走,但通过将本次评估中使用的“Hughes Hallucination Evaluation Model”开源化,希望让社区参与解决幻觉问题,使解决大型语言模型的幻觉问题的应对更上一层楼。
【新澳门2024年资料大全管家婆开奖结果】 【一码一肖100%精准】 |
【新澳历史最新结果】 【澳门精准正版资料免费看】 |
【澳门六开彩天天结果生肖卡开奖结果查询】 【澳门免费精准正版资料】 |
【天天彩澳门天天彩结果查询】 【澳门资料大全】 |
【2024澳门天天开好彩】 【澳门一码一肖一特一中五码必中】 |
【ww4949现场直播开奖记录今晚】 【新澳精准资料免费提供彩吧助手开奖记录查询】 【2024新澳免费资料成语平特开奖结果记录】 |
发表评论
李郢
8秒前:The plants were found during the search of a warehouse near Ashbourne on Saturday morning.
IP:94.49.9.*
张露露
4秒前:原文中没有的信息将显示在PaLM摘要中。
IP:28.90.7.*
杨永刚
4秒前:Detecting Hallucinations in Large Language Models - Vectarahttps://vectara.
IP:46.29.5.*