当前位置: 首页 >
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 人气:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-29你见过最极致的节省能省到什么程度?
- 2025-06-29如何写出军工级的代码?
- 2025-06-29病毒会不会逃出虚拟机?
- 2025-06-29如何评价前端框架 Solid?
- 2025-06-29obsidian用一两年后会有多大?全文搜索还快吗?
- 2025-06-29剪映和camtasia哪个更适用于剪辑?
- 2025-06-29为什么感觉淘宝现在不如拼多多了?
- 2025-06-29为何近两年,女性创作者与女性题材佳作喷涌而出?
- 2025-06-29什么是 AI Agent(智能体)?
- 2025-06-29想找人开发简易答题类的一个小程序,大概多少费用?
- 2025-06-29已经给了30万律师费了,律师说可以尝试找关系运转争取缓刑,但要60万奖励金,能不能信?
- 2025-06-291MB其实是一个很大的存储单位,那么它的存储容量究竟有多大?
- 2025-06-29MiniMax Week第三天推出通用 Agent,体验如何?对行业会带来哪些影响?
- 2025-06-29如何看待 Rust 的应用前景?
- 2025-06-29尼康的镜头里哪款拍摄人像好呢?
- 2025-06-29为什么macOS软件生态不敌Windows?
推荐产品
-
剪映和camtasia哪个更适用于剪辑?
目前我觉得camtasia更好, 相比pr和剪映,camta -
卫监查实医院当天排班表中没有该医生,但是在封存的医院住院病历中却有“上级医师查房记录”是病历造***吗?
卫监的人,可能没有做过临床。 不知道真实临床环境中,有“工 -
男朋友说我穿衣服太开放,难道好身材不应该显示出来吗?
上次爬华山遇上一对夫妻,女的30出头,男的明显大些,女士穿白 -
白人女性是不是很美,为什么?
自从去上海游玩看到好多白人之后,我已经不认为他们比例好了。
最新资讯




