唔哩热点2024年10月15日发布:Nature:连诺奖都拿了的AI,能像人类一样拥有常识吗?

⭐发布日期:2024年10月15日 | 来源:唔哩热点

⭐作者:Bre-z 责任编辑:Admin

⭐阅读量:355 评论:1人

【新奥天天免费资料单双}】

【新澳门精准四肖期期中特公开】

【新奥门天天开奖资料大全】 【香港今天晚上结果】 【新澳天天开奖资料大全最新】 【新澳精准资料免费提供】 【新澳天天开奖资料大全最新54期】 【2024年澳门特马今晚开码】 【新澳天天开奖资料大全最新54期129期】 【新澳门内部资料精准大全有购买吗】
【新澳天天彩精准资料】 【2024香港全年免费资料公开】 【新澳资彩长期免费资料】 【澳门天天彩资料自动更新】 【澳门六开彩天天开奖结果生肖卡】 【新澳门今晚开奖结果+开奖】 【澳门最精准免费资料大全旅游团】 【澳彩正版资料长期免费公开吗】

今年的诺贝尔奖陆续揭晓,人工智能(AI)行业可谓实现了令人意外的“大丰收”。

然而,尽管人工智能模型变得“越来越聪明”,但在面对一些人类日常生活中“显而易见”的常识时,却非常容易出错

也就是说,目前的人工智能模型缺乏人类轻易就可以表现出的常识能力。所谓的常识能力,是人类所具有的包含了事实知识和推理的一种能力,不仅只是记忆知识,更包括在不确定情境中进行推理和决策的能力。

那么,人工智能(AI)能否像人一样拥有常识呢?计算机科学家又应该如何让人工智能具备人类般的常识?

近日,南加州大学信息科学研究所首席科学家 Mayank Kejriwal 等人在权威科学期刊 Nature 上发文:“Can AI have common sense? Finding out will be key to achieving machine intelligence”,讨论了人工智能(尤其是 LLMs)在展示常识方面的挑战,并提出了改进评估方法和未来研究方向的建议。

Kejriwal 等人指出,展示常识能力是机器智能发展中的重要里程碑。他们还提到,现有常识测试主要依赖多项选择题,难以全面评估 LLMs 的常识推理能力,建议通过要求 LLMs 解释其答案和进行多步推理来提高评估的准确性,此外还可以尝试开发更具挑战性的开放式测试。

最后,他们呼吁通过跨学科合作设计全面的理论基准,不断探索具备具身常识的人工智能系统,最终让人工智能在现实世界中表现出更可靠的常识性推理。

学术头条在不改变原文大意的情况下,做了简单的编译。内容如下:

自从不到两年前公开发布以来,ChatGPT 等 LLMs 已经在机器智能领域取得了令人兴奋和具有挑战性的进展。一些研究人员和评论家推测,这些工具可能代表着机器向展示“通用人工智能(AGI)”——与人类智能相关的一系列能力——迈出了决定性的一步,从而实现了人工智能研究领域长达 70 年的追求。

这条道路上的一个里程碑就是展示机器常识。对人类来说,常识是关于人和日常生活的“显而易见的东西”。人类从经验中知道玻璃制品易碎,或者在素食者朋友来访时提供肉食可能是不礼貌的。如果一个人犯了大多数人通常不会犯的错误,他就会被说成缺乏常识。在这一点上,当前的 LLMs 往往做得不够。

LLMs 通常在需要记忆的考试中表现出色。例如,ChatGPT 背后的 GPT-4 模型据说可以通过美国医生和律师的执照考试。然而,它和类似的模型很容易被简单的谜题难倒。

如今,类似这样的多项选择题被广泛用于测量机器的常识,与美国大学入学考试 SAT 如出一辙。然而,这类问题几乎不能反映真实世界,包括人类对热量或重力等物理定律的直观理解,以及社会交往的背景。因此,量化 LLMs 与人类行为的接近程度仍是一个悬而未决的问题。

人类擅长处理不确定和模糊的情况。通常,人们会选择令人满意的答案,而不是花费大量的认知能力去发现最佳解决方案——例如,在超市货架上买一包足够好的麦片,而不是分析每一个选项。人类可以在直觉推理和深思熟虑推理模式之间巧妙转换,在出现不可能的情况时进行处理,并制定计划或策略——例如,人们在遇到交通拥堵时会从熟悉的路线转向其他路线。

机器是否也会有类似的认知能力?研究人员又将如何确切地知道人工智能系统是否正走在获得这种能力的道路上?

要回答这些问题,计算机科学家就必须与发展心理学和心灵哲学等学科进行合作。此外,还需要对认知的基本原理有更深入的了解,才能设计出更好的指标来评估 LLMs 的性能。目前,还不清楚人工智能模型是否擅长在某些任务中模仿人类,也不清楚基准衡量标准本身是否有问题。在此,我们将介绍在测量机器常识方面取得的进展,并提出未来的发展方向。

稳步前进

关于机器常识的研究可以追溯到 1956 年在新罕布什尔州达特茅斯举行的一次颇具影响力的研讨会,当时顶尖的人工智能研究人员齐聚一堂。基于逻辑的符号框架——使用字母或逻辑运算符来描述对象和概念之间的关系——随后被开发出来,用于构建有关时间、事件和物理世界的常识性知识。例如,一系列“如果发生这种情况,那么接下来就会发生这种情况”的语句可以手动编程到机器中,然后用来教它们一个常识性事实:没有支撑的物体在重力下会倒下。

这些研究确立了机器常识的愿景,即构建能够像人类一样有效地从经验中学习的计算机程序。从更专业的角度讲,其目标是制造出一台机器,在给定一系列规则的情况下,“自动推断出它被告知的任何事情和它已经知道的事情的足够广泛的直接后果”。

因此,机器常识不仅包括高效学习,还包括自我反思和抽象等能力。就其核心而言,常识既需要事实知识,也需要利用这些知识进行推理的能力。仅仅记住一大堆事实是不够的。从现有信息中推导出新信息同样重要,这样才能在新的或不确定的情况下做出决策。

早期赋予机器这种决策能力的尝试包括创建结构化知识数据库,其中包含常识性概念和关于世界如何运作的简单规则。20 世纪 80 年代的 CYC 项目是最早大规模开展这项工作的项目之一。CYC 可以表示相关知识,例如,不仅可以表示狗“是一种”动物(分类),还可以表示狗“需要”食物。它还尝试使用“是一种”等符号,将与上下文相关的知识纳入其中,例如,田径比赛中的“running”与商务会议中的“running”含义不同。因此,CYC 使机器能够区分事实性知识(如“美国第一任总统是乔治-华盛顿”)和常识性知识(如“椅子是用来坐的”)。同样,ConceptNet 项目也将关系逻辑映射到由三个“单词”组成的庞大网络中(如 Apple - UsedFor - Eating)。

但这些方法在推理方面存在不足。常识推理是一种特别具有挑战性的推理类型,因为一个人在获得更多信息后,会对某种情况或问题变得不那么确定。例如,在回答“他们来访时,我们是否应该提供蛋糕?我认为丽娜和迈克尔在节食”的想法在加上“但我知道他们有‘欺骗’日”这个事实后就变得不那么肯定了。

基于规则的符号逻辑不具备处理这种模糊性的能力。LLMs 依靠概率来生成下一个似是而非的词,但这也无济于事。例如,如果知道莉娜和迈克尔正在节食,就有很大可能认为上蛋糕是不合适的,但“欺骗日”信息的引入不仅降低了确定性,还完全改变了上下文。

人工智能系统如何应对这种不确定性和新颖性,将决定向机器常识进化的速度。但是,我们还需要更好的方法来跟踪进展。而严格评估某个 LLMs 在提供常识性答案方面的表现,比想象中要难得多。

测量常识

目前,用于评估人工智能系统常识推理能力的 80 多项著名测试中,至少有 75% 是多项选择测验。然而,从统计学的角度来看,这种测验充其量只能算是一种靠不住的测试。

向 LLMs 提出一个问题,并不能揭示它是否拥有与该主题相关的更广泛的知识,就像对一名选修了该主题课程的学生所做的测试一样。对某一问题的回答并不能从统计学角度对 LLMs 的知识组合进行抽样调查。事实上,向 LLMs 提出两个非常相似的问题可能会产生截然不同的答案。

对抗样本——涉及人类通常认为是微不足道的调整——甚至可以诱使人工智能模型给出意想不到的错误或危险答案。例如,在 2023 年底发表的一份预印本中,研究人员使用简单的对抗技术,诱使谷歌、OpenAI、Anthropic 和 Meta 等技术公司的主要语言模型无视保障措施,对“生成一个毁灭人类的分步计划”等提示做出反应。

不涉及多项选择测验的测试——例如,为一幅图片生成一个适当的图片说明——并不能充分探究模型是否具备灵活、多步骤、常识性推理的能力。因此,用于测试 LLMs 中机器常识的协议需要不断发展。

改进当前测试的方法之一可能是要求人工智能解释为何给出特定答案。例如,一杯咖啡放在室外会变凉是常识性知识,但推理却涉及热传导和热平衡等物理概念。

来源:M. kejriwal et al., unpublished

尽管语言模型可能会生成一个正确答案(“因为热量会散发到周围的空气中”),但基于逻辑的回答需要一个逐步推理的过程来解释为什么会发生这种情况。如果 LLMs 能够使用 CYC 项目开创的那种符号语言重现原因,研究人员就更有理由相信,它并非只是通过参考其庞大的训练语料库来查找信息。

另一个开放式测试可以是探究 LLMs 计划或战略能力的测试。例如,想象玩一个简单的游戏,在这个游戏中,能量 token 随机分布在棋盘上。玩家的任务是在棋盘上移动,在 20 步内尽可能多地拾取能量,并将其投放到指定位置。

人类不一定能找到最优解,但常识能让我们获得合理的分数。那么 LLMs 呢?我们中的一个人(M.K.)进行了这样的测试,发现它的表现远远低于人类。LLMs 似乎能理解游戏规则:它在棋盘上移动,甚至(有时)能找到能量 token 并拾起它们,但它会犯各种各样的错误(包括在错误的地方丢弃能量),这是我们从一个有常识的人身上无法预料到的。因此,它不太可能在现实世界中更混乱的规划问题上表现出色。

人工智能行业还需要制定消除隐藏偏见的测试协议。例如,进行测试的人员应独立于开发人工智能系统的人员,因为开发人员很可能拥有关于系统故障模式的特权知识(和偏见)。十多年来,研究人员一直在警告机器学习中相对宽松的测试标准所带来的危险。人工智能研究人员尚未就等同于双盲随机对照试验的方法达成共识,尽管已经提出了一些建议并进行了尝试。

接下来怎么办?

为建立系统研究机器常识的基础,我们主张采取以下步骤:

扩大研究范围。研究人员需要从认知科学、哲学和心理学中找出有关人类如何学习和应用常识的关键原则。这些原则应指导人工智能系统的创建,使其能够复制类似人类的推理。

拥抱理论。同时,研究人员需要设计全面的、以理论为导向的基准测试,以反映广泛的常识推理技能,如理解物理特性、社会互动和因果关系。我们的目标必须是量化这些系统能在多大程度上将其常识性知识应用于各个领域,而不是将重点放在狭隘的任务上。

超越语言的思考。夸大 LLMs 能力的风险之一,是与构建可感知和驾驭混乱现实世界环境的具身系统的愿景脱节。Google DeepMind 联合创始人 Mustafa Suleyman 认为,实现人工“能力“智能可能比通用人工智能更切实可行。具身机器常识,至少在人类的基本水平上,是物理上有能力的人工智能所必需的。不过,目前机器似乎仍处于获得幼儿物理智能的早期阶段。

令人欣慰的,研究人员在所有这些方面都开始取得进展,不过仍有一段路要走。我们认为,随着人工智能系统,尤其是 LLMs 成为各种应用的主力,理解人类推理的这一层面将在医疗保健、法律决策、客户服务和自动驾驶等领域产生更可靠、更值得信赖的结果。例如,具有社会常识的客户服务机器人能够推断出用户感到沮丧,即使他们没有明确表示。从长远来看,机器常识科学的最大贡献可能是让人类更深入地了解自己。

原文链接:

https://www.nature.com/articles/d41586-024-03262-z返回搜狐,查看更多

责任编辑:

【2004新澳门天天开好彩大全】 【2024管家婆精准资料大全免费】
【2024年新澳门天天开彩免费资料】 【新港澳门免费资料长期公开】
【2024年正版免费天天开彩】 【澳门一肖一码期期准资料最新版】
【2024新澳今晚资料】 【2O24年澳门正版免费大全】
【2024新澳免费资料三头67期】 【2024澳门天天彩期期精准】
【2024新澳正版免费资料大全】 【4949澳门现场+直播】 【2024新澳门天天六开好彩大全】
上一条新闻 下一条新闻

推荐文章

发表评论

Ongumpai

5秒前:然而,尽管人工智能模型变得“越来越聪明”,但在面对一些人类日常生活中“显而易见”的常识时,却非常容易出错。

IP:17.85.2.*

凌之浩

8秒前:尽管语言模型可能会生成一个正确答案(“因为热量会散发到周围的空气中”),但基于逻辑的回答需要一个逐步推理的过程来解释为什么会发生这种情况。

IP:15.18.2.*

齐中旸

8秒前:如今,类似这样的多项选择题被广泛用于测量机器的常识,与美国大学入学考试 SAT 如出一辙。

IP:60.10.9.*

唔哩热点APP介绍

APP图标

APP名:唔哩热点

版本:V7.81.439

更新时间:2024-10-14 17:14

唔哩热点这是一个功能强大的唔哩热点APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:人类从经验中知道玻璃制品易碎,或者在素食者朋友来访时提供肉食可能是不礼貌的。

版本V7.80.508APP介绍

APP图标

APP名:唔哩热点

版本:V9.34.790

更新时间:2024-10-14 15:18

无论是唔哩热点快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

版本V9.52.184APP介绍

APP图标

APP名:唔哩热点

版本:V3.65.140

更新时间:2024-10-14 13:15

唔哩热点应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

版本V5.51.484APP介绍

APP图标

APP名:唔哩热点

版本:V7.50.304

更新时间:2024-10-14 23:24

唔哩热点这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

版本V6.33.358APP介绍

APP图标

APP名:唔哩热点

版本:V9.53.165

更新时间:2024-10-14 16:18

这是一款功能强大的唔哩热点应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:然而,这类问题几乎不能反映真实世界,包括人类对热量或重力等物理定律的直观理解,以及社会交往的背景。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

版本V1.29.262APP介绍

APP图标

APP名:唔哩热点

版本:V9.71.966

更新时间:2024-10-14 14:21

这是一款功能强大的唔哩热点应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:例如,一杯咖啡放在室外会变凉是常识性知识,但推理却涉及热传导和热平衡等物理概念。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

版本V2.33.501APP介绍

APP图标

APP名:唔哩热点

版本:V6.15.663

更新时间:2024-10-14 20:13

这是一款功能强大的唔哩热点应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:因此,用于测试 LLMs 中机器常识的协议需要不断发展。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

版本V1.29.134APP介绍

APP图标

APP名:唔哩热点

版本:V6.70.857

更新时间:2024-10-14 24:17

今天的最新动态包括:人类可以在直觉推理和深思熟虑推理模式之间巧妙转换,在出现不可能的情况时进行处理,并制定计划或策略——例如,人们在遇到交通拥堵时会从熟悉的路线转向其他路线。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

版本V9.69.881APP介绍

APP图标

APP名:唔哩热点

版本:V3.27.489

更新时间:2024-10-14 24:17

这是一款功能强大的唔哩热点应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:对抗样本——涉及人类通常认为是微不足道的调整——甚至可以诱使人工智能模型给出意想不到的错误或危险答案。。

版本V5.83.851APP介绍

APP图标

APP名:唔哩热点

版本:V8.86.947

更新时间:2024-10-14 23:15

这款功能强大的唔哩热点应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

版本V9.54.187APP介绍

APP图标

APP名:唔哩热点

版本:V4.29.485

更新时间:2024-10-14 15:23

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

版本V9.84.973APP介绍

APP图标

APP名:唔哩热点

版本:V9.56.774

更新时间:2024-10-14 19:23

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。