OpenAI重磅推出o3/o4-mini新模型!能看图思考|openai|人工智能|编程|智能体|python

文章ID:38时间:2025-04-18人气:

openai mini 人工智能 编程 智能体 python

用微信扫码二维码

OpenAI重磅推出o3o4mini新模

分享至好友和朋友圈

4月17日消息,北京时间今日凌晨,发布了两款突破性AI模型,它们能够通过图像进行推理,并可独立使用工具,专家称它们为能力的一次飞跃。

这两款新模型分别被称为o3与o4-,它们都是openai “o系列” 推理模型的最新成员,并被称为迄今为止最智能、最强大的模型。这些系统能将图像直接整合到推理过程中,并在单一任务流程中执行网页搜索、代码运行、文件分析乃至图像生成等操作。

OpenAI总裁格雷格·布罗克曼(Greg Brockman)在发布会上表示:“有些模型会让人觉得像是迈入未来的质变,gpt-4就是其中之一。今天也将成为这样的历史时刻。这是首批让顶尖科学家都承认能产出确实优秀、实用新颖创意的模型。”

OpenAI新模型通过“图像思维”帮助解决视觉问题

这些新模型最显著的特征是“图像思维”能力。它们不仅是识别图像,还能在问题解决流程中操控并推理。

在发布会演示环节,研究人员展示了o3如何分析一份来自十年前实习项目的物理海报:它能独立解析其中复杂的图示,甚至识别出海报本身未呈现的最终结论。

OpenAI多模态推理研究员布兰登·麦肯锡(Brandon McKenzie)在演示中说道:“它相当于在几秒内为我阅读了至少10篇不同的论文。”他估计,这项任务如果由他本人完成,“光是重新熟悉当年的项目背景就要好几天,然后可能还得几天才能完成文献查阅。”

人工智能在推理过程中操控图像的能力,比如放大细节、旋转图像或裁剪冗余元素等,被行业分析师认为可能彻底改变从科研到教育等多个领域。

沃顿商学院研究人工智能、创新与创业公司的伊森·莫里克教授(Ethan Mollick)在社交平台上发文称:

我获得了o3的早期使用权限,这款模型令人印象深刻,能力非常强大。以下为一些有趣的示例:

1️⃣ 解构了我课堂上使用的商业案例

2️⃣ 生成纯代码构建的SVG矢量图

3️⃣ 创作双螺旋结构的约束性短篇故事

4️⃣ 创作硬科幻太空战斗场景

超越AI模型:o3与o4-mini如何通过先进工具集成作为完整AI系统运行

OpenAI的高管强调,这次发布的不仅仅是推理模型的升级版本,而是完整的人工智能系统,它们能够在解决问题时独立调用并串联多个工具。

布罗克曼特别强调了这些模型在工具调用方面的强大能力:“它们实际上是在思维链中调用这些工具,以尝试解决困难问题。例如,我们曾看到o3为了解并执行一个极其困难的任务,连续调用了大约600次工具。”

这种能力使模型能够执行复杂的、多步骤的工作流任务,而无需用户持续介入。比如,当被问到“加州未来的能源使用趋势”时,人工智能系统可以搜索公用事业数据、编写Python代码进行分析、生成可视化图表,并撰写出一份全面的报告——所有步骤都作为一个流畅、连贯的过程完成。

OpenAI超越竞争对手,在关键AI基准测试中表现优异

OpenAI宣称,o3在多个关键人工智能能力基准测试中确立全新行业标杆,包括Codeforces(竞赛平台)、SWE-bench(软件工程基准)和MMMU(多模态理解评估)。

据外部专家评估,在复杂现实任务中,o3的重大错误率较前代模型降低20%。

而轻量级模型o4-mini在保持强大推理能力的同时,更注重速度与成本效益。配备Python解释器时,其在2025年AIME数学竞赛中取得99.5%的惊人准确率。

OpenAI研究负责人马克·陈(Mark Chen)在发布会上说道:“我真的相信,凭借这套模型组合,o3和o4-mini,我们将会看到更多的突破。”

OpenAI发布新模型的时机也非常关键,该公司在两天前刚刚推出了GPT-4.1模型,该模型在编程任务中表现优异。接连不断的发布表明,OpenAI在竞争激烈的人工智能领域正在加速推进,并面临来自谷歌Gemini、Anthropic Claude以及埃隆·马斯克(Elon Musk)旗下xAI等日益激烈的竞争压力。

上个月,OpenAI完成了历史上最大规模的私募融资,筹集了400亿美元资金,估值达3000亿美元。另外,该公司还在考虑构建自己的社交网络,可能对标马斯克的X,并确保拥有独立的训练数据源。

OpenAI新模型如何通过代码导航能力重塑软件工程领域

新模型在软件工程领域的表现特别出色。布罗克曼在发布会上提到,o3在“检索OpenAI内部代码库时的表现比我还要出色,这真的很有用。”

作为此次发布的一部分,OpenAI还推出了Codex CLI,这是一款轻量级的编程,可以直接在用户的终端运行。这个开源工具让开发者能够利用这些模型的推理能力来完成编程任务,支持截图和草图输入。

OpenAI在公告中写道:“我们还分享了一个新的实验:Codex CLI,一个可以从终端运行的轻量级编程智能体。通过将截图或简略草图传递给模型,并结合对本地代码的访问,用户可以从命令行获得多模态推理的好处。”

为了鼓励采用,OpenAI启动了一项100万美元的扶持计划,支持使用Codex CLI和OpenAI的模型,每个项目将获得2.5万美元的API信用额度。

OpenAI首席执行官山姆·奥特曼(Sam Altman)发帖称:“由于o3和o4-mini在编程领域表现优异,OpenAI还推出了一个新产品——Codex CLI,旨在简化它们的使用。这是一款运行在你计算机上的编程智能体,完全开源,并已于今日发布;我们预计它将迅速改进。”

OpenAI强化安全协议内幕:如何防范AI滥用

OpenAI表示,已对新模型进行了广泛的安全测试,特别是针对它们拒绝有害请求的能力。该公司的安全措施包括完全重建安全训练数据,并开发了系统级的缓解措施来标记危险的提示。

OpenAI在公告中称:“我们对这两个模型进行了迄今为止最严格的安全测试。o3和o4-mini在生物学、网络安全和AI自我改进能力等领域的潜在风险,仍然低于OpenAI的高风险阈值。”

在发布会上,OpenAI两位研究人员展示了详细的基准测试结果,并指出新模型在训练计算量上超过了以往版本的10倍,才能实现这些强大的能力。

获取o3和o4-mini的时机与方式:部署时间表与商业策略

OpenAI的新模型目前已立即向ChatGPT Plus、Pro和Team用户开放,Enterprise和Education客户将在下周获得访问权限。免费用户可以通过在提交查询前选择“Think”来体验o4-mini。

开发者可以通过OpenAI的Chat Completions API和Responses API试用这两个模型,尽管部分组织需要验证才能访问它们。

此次发布对OpenAI来说是一个重要的商业机会,因为这些模型似乎比前代更强大且更具成本效益。该公司举例称,在2025年AIME数学竞赛中,o3的性价比严格优于o1。同样,o4-mini在成本表现上也优于o3-mini。

业内分析人士认为,这些发布是人工智能能力融合的更广泛趋势的一部分,模型越来越多地将专业推理与自然对话能力和工具使用结合起来。

OpenAI在发布会中指出:“最新发布反映了我们的模型发展方向:我们正在将o系列的专门推理能力与GPT系列更多的自然对话能力和工具使用结合起来。”

不过,莫里克教授发帖称,o3是“非常强大的模型,但仍有明显短板”。

随着人工智能领域的竞争日益加剧,谷歌、Anthropic等公司推出越来越强大的模型,OpenAI在推理能力和实际工具使用上的双重关注表明,其战略是旨在通过提供智能和实用性来保持领先地位。

通过o3和o4-mini,OpenAI已经跨越了一个门槛——机器开始像人类一样感知图像,将视觉信息的处理作为思维过程的组成部分,而不仅仅是分析它们所看到的。这种从被动识别到主动视觉推理的转变,可能比任何基准分数都更具意义,代表着人工智能终于开始通过“思考的眼睛”来看待世界。(小小)

内容声明:

1、本站收录的内容来源于大数据收集,版权归原网站所有!
2、本站收录的内容若侵害到您的利益,请联系我们进行删除处理!
3、本站不接受违规信息,如您发现违规内容,请联系我们进行清除处理!
4、本文地址:https://www.717b.com/jxwxwz/38.html,复制请保留版权链接!


温馨小提示:在您的网站做上本站友情链接,访问一次即可自动收录并自动排在本站第一位!
随机文章:

中国工程院院士刘韵洁:5G时代将诞生规模更大的“BAT”|bat|互联网

中国工程院院士刘韵洁:5G时代将诞生规模更大的“BAT”,刘韵洁,bat,中国工程院院士,互联网,院士

互联网资讯 2025-04-18 20:20:27

清华张扬军教授:飞行汽车应先载物再载人|飞行器|智能驾驶|飞机|电动汽车

清华张扬军教授:飞行汽车应先载物再载人,飞行汽车,汽车,飞行器,智能驾驶,飞机,电动汽车

互联网资讯 2025-04-18 20:20:14

江亿院士:建立新型电力系统建设是实现“双碳”的关键|储能|光伏|充电桩|风电

江亿院士:建立新型电力系统建设是实现“双碳”的关键,储能,光伏,充电桩,风电,电力

互联网资讯 2025-04-18 20:20:09

独家专访星际荣耀彭小波:中国商业航天未见终局|spacex|火箭发射

独家专访星际荣耀彭小波:中国商业航天未见终局,彭小波,spacex,火箭发射,火箭,航天

互联网资讯 2025-04-18 20:19:21

专访凌空天行:太空旅游布兰森卖票45万美金我们可以45万人民币|超音速|飞机|火箭|飞行器|维珍

专访凌空天行:太空旅游布兰森卖票45万美金我们可以45万人民币,布兰森,超音速,飞机,火箭,飞行器,维珍

互联网资讯 2025-04-18 20:19:04

神舟十六号顺利出征马斯克:中国航天超牛!|载人飞船|航天员|航天器|航天工程

神舟十六号顺利出征马斯克:中国航天超牛!,载人飞船,航天员,飞船,神舟,航天器,航天工程

互联网资讯 2025-04-18 20:18:30

专访航天女教官王一:我和航天的双向奔赴|航天员|杨利伟|飞船|载人飞船|景海鹏

专访航天女教官王一:我和航天的双向奔赴,航天员,杨利伟,飞船,载人飞船,航天,景海鹏

互联网资讯 2025-04-18 20:18:24

对话李佳琦:“因为我是李佳琦,要带头做好合规的事”|直播间|潮头|电商

对话李佳琦:“因为我是李佳琦,要带头做好合规的事”,李佳琦,直播间,潮头,直播,电商

互联网资讯 2025-04-18 20:18:18

揭秘预制菜的爆火逻辑|潮头|专营店|品牌力

揭秘预制菜的爆火逻辑|潮头,潮头,预制菜,专营店,品牌力

互联网资讯 2025-04-18 20:18:09

滴滴渡劫|顺风车|后厂村7号|客服

滴滴渡劫,滴滴,顺风车,后厂村7号,李健,客服

互联网资讯 2025-04-18 20:17:20

直播“救”车?|卖车|车市|二手车|汽车

直播“救”车?,卖车,车市,直播,二手车,汽车

互联网资讯 2025-04-18 20:16:31

荣耀MagicVs至臻版体验:现阶段折叠屏产品的理想之选|手机|手写笔|magic|样张|分屏

荣耀MagicVs至臻版体验:现阶段折叠屏产品的理想之选,手机,手写笔,magic,样张,分屏

互联网资讯 2025-04-18 20:12:54

三大关键词看懂2023年智能小家电发展趋势|厨房家电

三大关键词看懂2023年智能小家电发展趋势,家电,小家电,智能小家电,厨房家电

互联网资讯 2025-04-18 20:12:47

motorazr40ultra体验:精准取舍一款很纯粹的竖向折叠屏产品|摩托罗拉|手机|像素

motorazr40ultra体验:精准取舍一款很纯粹的竖向折叠屏产品,摩托罗拉,手机,ultra,像素

互联网资讯 2025-04-18 20:12:06

iQOO11S体验:性能表现强悍,标准版也能有Pro级实力|iqoo|电竞|游戏|手游|亚运会|iqoo11s

iQOO11S体验:性能表现强悍,标准版也能有Pro级实力,iqoo,电竞,游戏,手游,亚运会,iqoo11s

互联网资讯 2025-04-18 20:08:19

荣耀MagicV2拍照体验:折叠屏也可以成为影像旗舰|手机|magic|像素|变焦|样张

荣耀MagicV2拍照体验:折叠屏也可以成为影像旗舰,手机,magic,像素,变焦,样张

互联网资讯 2025-04-18 20:07:54

一图看懂苹果秋季新品发布会:全系Type-C+灵动岛你会买单吗?|iphone|type-c

一图看懂苹果秋季新品发布会:全系Type-C+灵动岛你会买单吗?,新品发布会,苹果,iphone,type-c

互联网资讯 2025-04-18 20:07:47

专业影像,vivo的满分答卷|相机|手机|蔡司|长焦|镜头

专业影像,vivo的满分答卷,vivo,相机,手机,蔡司,长焦,镜头

互联网资讯 2025-04-18 20:07:18

小米14熔岩橙图赏:SU7限定色珠光漆高饱和|配色|亮面|光影

小米14熔岩橙图赏:SU7限定色珠光漆高饱和,熔岩,小米,配色,珠光,亮面,光影

互联网资讯 2025-04-18 20:06:43

iQOOPad2Pro轻体验:首发天玑9300+大电池全能平板|手写笔|pad|触控笔

iQOOPad2Pro轻体验:首发天玑9300+大电池全能平板,手写笔,天玑,pad,大电池,触控笔,平板

互联网资讯 2025-04-18 20:05:34

探月工程首席科学家欧阳自远:为何各国都要探月|探索月球|航天

探月工程首席科学家欧阳自远:为何各国都要探月,探索月球,航天

互联网资讯 2025-04-18 20:04:41

中科院院士吴新智:现代人类进化很多疑点待解|裴文中|化石|古猿

中科院院士吴新智:现代人类进化很多疑点待解,吴新智,裴文中,古人类学,化石,古猿

互联网资讯 2025-04-18 20:04:02

专访曾庆存:他的工作是数值天气预报发展的一个里程碑|卫星|pm2.5|气象学|叶笃正

专访曾庆存:他的工作是数值天气预报发展的一个里程碑,曾庆存,卫星,pm2.5,气象学,叶笃正

互联网资讯 2025-04-18 20:03:46

独家|仝小林院士:中西医别比高低,抗疫各有优势

独家|仝小林院士:中西医别比高低,抗疫各有优势,仝小林,中医,中医药,中西医,中医治疗

互联网资讯 2025-04-18 20:03:39

卢春房院士:高铁能自主创新成功,其他领域也可以|铁道部|动车组|铁路

卢春房院士:高铁能自主创新成功,其他领域也可以,卢春房,铁道部,高铁,动车组,铁路

互联网资讯 2025-04-18 20:02:44

闻玉梅院士:打了疫苗百分百不会死亡,不打就很危险|病毒|活疫苗|接种

闻玉梅院士:打了疫苗百分百不会死亡,不打就很危险,闻玉梅,疫苗,病毒,活疫苗,接种

最新资讯 2025-04-18 20:02:24

何祚庥院士:杨振宁和翁帆是段千载难逢的良缘,可遇不可求|物理学家

何祚庥院士:杨振宁和翁帆是段千载难逢的良缘,可遇不可求,何祚庥,杨振宁,翁帆,院士,物理学家

最新资讯 2025-04-18 20:02:18

刘嘉麒院士:中国境内有不少活火山百年内有喷发危险|科学大师

刘嘉麒院士:中国境内有不少活火山百年内有喷发危险,刘嘉麒,科学大师,活火山,火山

最新资讯 2025-04-18 20:02:13

马斯克“地球上最聪明AI”Grok3发布:20万张GPU,号称强过DeepSeekV3|人工智能|gpu|spacex|grok|deepseekv

马斯克“地球上最聪明AI”Grok3发布:20万张GPU,号称强过DeepSeekV3,马斯克,人工智能,gpu,spacex,grok,deepseekv

最新资讯 2025-04-18 19:58:25

“智驾”厮杀战已至!特斯拉中国版“FSD”入华比亚迪华为小米们谁接招|自动驾驶|智能驾驶

“智驾”厮杀战已至!特斯拉中国版“FSD”入华比亚迪华为小米们谁接招,特斯拉,比亚迪,智驾,入华,自动驾驶,智能驾驶

最新资讯 2025-04-18 19:58:16

受美AI芯片出口管制影响AMD要计提8亿美元减值费用|amd|英伟达|英特尔|图形处理器

受美AI芯片出口管制影响AMD要计提8亿美元减值费用,amd,芯片,英伟达,英特尔,图形处理器

最新资讯 2025-04-18 19:55:54

传三星HBM4的逻辑BaseDie测试良率已超40%|海力士|dram|知名企业|三星hbm4

传三星HBM4的逻辑BaseDie测试良率已超40%,良率,海力士,dram,知名企业,三星hbm4

最新资讯 2025-04-18 19:55:03

“工业大脑”x“极客智造”,大湾区工业互联网平台绘制“智造湾区”新蓝图|制造业|朱云

“工业大脑”x“极客智造”,大湾区工业互联网平台绘制“智造湾区”新蓝图,极客智造,互联网,大湾区,制造业,朱云

最新资讯 2025-04-18 19:53:47

拓数派和中船海舟强强联合,全面推动国产「工业软件x大模型数据计算」生态|公域

拓数派和中船海舟强强联合,全面推动国产「工业软件x大模型数据计算」生态,大模型,拓数派,公域

最新资讯 2025-04-18 19:53:45

一个App轻松管理多个邮箱!鸿蒙版QQ邮箱已支持三方邮箱登录|qq|app|gmail

一个App轻松管理多个邮箱!鸿蒙版QQ邮箱已支持三方邮箱登录,qq,app,gmail,云盘

最新资讯 2025-04-18 19:53:42

淘宝海外爆红,全球购物车少不了“中国货”|美国|关税|电商平台

淘宝海外爆红,全球购物车少不了“中国货”,淘宝,美国,关税,中国货,电商平台

最新资讯 2025-04-18 19:53:00


TOP