实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解

⭐发布日期:2024年10月04日 | 来源:新浪科技

⭐作者:理查德·里尔 责任编辑:Admin

⭐阅读量:160 评论:7人

【2024香港历史开奖记录查询结果】

【澳门四肖八码期期准免费资料大全】

【4949免费的资料港澳台】 【澳门最精准免费资料大全98期】 【一肖一码100%】 【澳门正版资料大全免1】 【澳门码的全部免费的资料】 【新澳门码精准资料】 【香港六给彩资料】 【今天晚上澳门三肖兔羊蛇】
【澳门六开彩资料查询最新2024年网站】 【新澳最新最快资料22码】 【2024新澳历史开奖记录香港开】 【今晚澳门开奖结果开奖记录表65】 【2024正版资料免费公开】 【新奥长期免费资料大全】 【新澳今天最新资料晚上】 【2024新奥资料免费精准天天大全】

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

OpenAI传说中的“草莓”终于正式上线!

不仅可以胜任更复杂的推理任务,在数学、代码和其他科学领域也能解决更难的问题。

OpenAI这次“无预警发布”震撼了科技圈,o1更是被CEO奥特曼称它为了一种新范式的开始

发布之后,各路大神和网友都纷纷用各种问题测试OpenAI o1的表现:

还有人进行了花式考验,结果被o1强大的推理能力秀到了。

Q:你的回复中有几个字?
A1:这句话有七个字
A2:一共五个字

量子位也进行了一番实测,下面就一起来了解。

推理能力大进化,但还是难敌弱智吧

该说不说,o1虽然在推理能力上取得了很大进步,但面对充满心机的弱智吧问题,还是掉进了人类挖的陷阱

当然了,对于正经问题,o1的表现还是很强的,首先看看逻辑推理能力。

思考这道题时,preview和mini分别用时21秒和14秒,不过从文本上看mini思考得反而更多。

其中还出现了一些西里尔字母乱入,不过对整体影响不大。

最终,二者也都给出了正确的答案——丙。

值得注意的是,mini(右)的解答当中还出现了修正的过程。

接下来看下o1在大学数理化题目上的表现。

首先是这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:

还是分别看下preview和mini的思考,可以看到mini的思考过程大概是preview的简略版,当然速度也快了不少。

不过preview给的思考过程当中再次出现乱入,这次是泰语。

实际解答过程也是preview比mini更加详细,不过不知道为什么preview用了英文回答。

最后的计算结果化简方式也有所不同,但数值上是相等的,而且也做对了。

对比4o这边,先偷懒后作弊(调用了代码解释器),结果最后答案还是错的。

第二道数学题关于概率

这道题preview依然是用英语进行了作答,步骤比mini更加详细,当然都是对的。

而4o的答案前面的过程倒是基本都对,但是最后一步的求解出现了问题,只给出了1这一个解,并且不是本题答案。

物理方面,这里选择了一道大学物理中的光学题:

preview(左)和mini都给出了正确解答,内容也基本一致。

化学的题目是一道物化题,主要涉及电化学等内容。

这里把AgCl/Ag的标准电极电势作为已知条件一同输入给模型。

Preview(左)和mini大致的解题思路还是差不多,在计算步骤上有指对运算先后的差别,当然最后的结果还是对的。

最后一项测试就不再做考试题了,而是看看模型编写代码的能力如何。

这里选择的题目难度非常高,真人的通过率只有14%。

以下是preview(左)和mini的解题思路:

从代码上看,两者核心逻辑相似,但在具体操作上略有区别。

两套代码均通过了测试,内存消耗也比较接近,而mini给出的代码运行时间更短(38毫秒)。

小数比较还是不会?

测试发现,对于大模型难以答对的名场面——小数比大小,preview(左)和mini都答不对。

甚至preview在思考过程中明明已经提到过9.8比9.11大。

但同时preview在思考过程中表示,9.8和9.11有可能指的是日期,所以做不对也许另一原因。

针对这个问题,大神谢赛宁也晒出了他的测试结果,发现o1在思考过程中将9.8当成了重力常数,而9.11是一个“意义不明的数字”。

所以o1可能不是不会,而是把这个问题想复杂了。

为了进一步探究,我们把问题改得具体些,强调一下9.8和9.11都是数字,这下没有了歧义之后就能一次做对了。

可以看出,提示词的影响还是不小的。

由于o1在内部采用了一些类思维链过程,因此prompt的设计和普通版本也有所区别,OpenAI官方发布了一则提示:

  • 提示词应简单且直接
  • 避免在提示词中使用思维链
  • 使用分隔符让promot更清晰
  • 控制RAG内容的长度

回到我们的测试,面对其他几个大模型败北名场面,o1也有不小的进步。

比如在数字母的任务上就有所进化,即使是一串乱打的字母也能数对。

还有面对经典的“反转诅咒”(即知道A是B却不知道B是A)问题,也终于一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的儿子是谁。

One More Thing

关于这次发布的o1,除了各个方面的成绩之外,还有一些其他的发现。

比如前特斯拉自动驾驶负责人、两度进入OpenAI又两度离职的大神Andrej Karpathy发现,o1-mini在被要求证明黎曼猜想的时候出现了拒绝回答的情况,表示大模型“犯懒”依然是一个大问题。

还有网友说觉得mini的表现比preview好,想问下有没有人知道原因或者有啥看法。

这条消息也把奥特曼吸引了过来,回复了一句“Yes I have one”。

根据OpenAI内部员工Kevin Lu发布的一则推文来看,mini的性价比确实比preview更高。

根据这张图显示,preview版本论性能比不上尚未公布的满血o1,论经济性又比不上mini。

顺便提一句,preview版本存在消息数量限制,并且数量是按周进行重置的,几轮测试下来已经快要用尽了。

参考链接:
[1]https://x.com/rowancheung/status/1834300353619075494

[2]https://x.com/karpathy/status/1834374965942255835
[3]https://x.com/sama/status/1834381401380294685
[4]https://x.com/_kevinlu/status/1834278160038592633

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

【2024澳门天天开好彩大全免费】 【新澳天天开奖资料大全最新】
【2024年天天开好彩资料】 【新澳天天开奖资料大全最新54期】
【2024澳门天天开好彩大全53期】 【澳门天天开彩期期精准】
【2024全年资料免费大全】 【新澳天天开奖资料大全】
【澳门内部最精准免费资料】 【2024澳门天天开好彩大全】
【2024年新奥门天天开彩免费资料】 【新澳2024今晚开奖资料】 【新澳王中王资料大全】
上一条新闻 下一条新闻

推荐文章

发表评论

Celina

9秒前:接下来看下o1在大学数理化题目上的表现。

IP:79.90.4.*

何汶峰

7秒前:参考链接:[1]https://x.

IP:81.11.8.*

乔尔·金纳曼

7秒前:值得注意的是,mini(右)的解答当中还出现了修正的过程。

IP:64.18.3.*

新浪科技APP介绍

APP图标

王中王精准资料期期中澳门2023APP名:新浪科技

版本:V5.80.960

更新时间:2024-10-03 16:22

2024天天彩资料大全免费这是一个功能强大的7777788888王中王论坛APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:由于o1在内部采用了一些类思维链过程,因此prompt的设计和普通版本也有所区别,OpenAI官方发布了一则提示:提示词应简单且直接避免在提示词中使用思维链使用分隔符让promot更清晰控制RAG内容的长度回到我们的测试,面对其他几个大模型败北名场面,o1也有不小的进步。

新奥资料免费精准新奥肖卡APP介绍

APP图标

澳门六开彩天天开奖结果APP名:新浪科技

版本:V6.94.944

更新时间:2024-10-03 18:15

新澳精选资料免费提供网站这是一个功能强大的最准一码一肖100%精准,管家婆APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:比如在数字母的任务上就有所进化,即使是一串乱打的字母也能数对。

新澳门六开彩开奖网站APP介绍

APP图标

澳门资料大全免费资料APP名:新浪科技

版本:V1.79.198

更新时间:2024-10-03 21:21

4949澳门开奖免费大全49图库这是一个功能强大的新澳门期期准APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:11有可能指的是日期,所以做不对也许另一原因。

2024新澳门资料最精准免费大全APP介绍

APP图标

2024年新澳门夭夭好彩APP名:新浪科技

版本:V5.48.241

更新时间:2024-10-03 13:20

2024澳门六开彩最简单处理这是一个功能强大的新澳高手论坛资料大全最新APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:当然了,对于正经问题,o1的表现还是很强的,首先看看逻辑推理能力。

澳门王中王100%期期中APP介绍

APP图标

2024新澳门天天彩开奖记录APP名:新浪科技

版本:V5.64.897

更新时间:2024-10-03 14:19

澳门平特一肖100%准资软件截图这是一个功能强大的澳门免费公开资料大全APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:比如前特斯拉自动驾驶负责人、两度进入OpenAI又两度离职的大神Andrej Karpathy发现,o1-mini在被要求证明黎曼猜想的时候出现了拒绝回答的情况,表示大模型“犯懒”依然是一个大问题。

新澳门最新资料APP介绍

APP图标

2023澳门天天六开好彩大全APP名:新浪科技

版本:V9.98.693

更新时间:2024-10-03 19:14

新澳门4949最新开奖记录这是一个功能强大的澳门正版挂牌免费挂牌大全APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:第二道数学题关于概率。

2024新奥历史开奖记录46期APP介绍

APP图标

2024年正版资料免费大全APP名:新浪科技

版本:V3.68.115

更新时间:2024-10-03 20:18

澳门正版资料大全免费歇后语这是一个功能强大的澳门六开彩+开奖结果查询49APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:不过preview给的思考过程当中再次出现乱入,这次是泰语。

2024新澳天天彩免费资料APP介绍

APP图标

澳门六开彩今晚开奖记录APP名:新浪科技

版本:V6.87.762

更新时间:2024-10-03 23:17

新澳精选资料免费提供开这是一个功能强大的港彩开奖结果2024开奖记录查询表APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:还有网友说觉得mini的表现比preview好,想问下有没有人知道原因或者有啥看法。