当前位置: 首页 >
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 人气:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-27为什么我感觉gemini 2.5 pro总是用力过猛?
- 2025-06-27如何看待2025江苏国补在6月1日突然暂停下线?
- 2025-06-27哪些让你用了觉得相见恨晚的键盘?
- 2025-06-27什么是 5G 固定无线接入(FWA)?
- 2025-06-27现在工作中k8s是使用containerd还是docker来管理容器?
- 2025-06-27如何评价董宇辉:“飞机大炮对你生活影响其实并不大,小家电才是真正提升每个人生活质量”这个观点?
- 2025-06-27为什么早期穿越剧《穿越时空的爱恋》《寻秦记》没有觉得那么「雷」人?
- 2025-06-2727寸显示器有必要上4K吗?
- 2025-06-27英特尔的衰落,是因为真正做事的工程师被挖了?还是公司战略出问题?
- 2025-06-27为什么不用rust重写Nginx?
- 2025-06-275080显卡用个五六年可以吗?
- 2025-06-27王老菊再次公开招聘游戏开发人员,你对他有什么建议吗?
- 2025-06-27独立开发者都使用了哪些技术栈?
- 2025-06-27国内为什么那么多人黑 WordPress ?
- 2025-06-27张学友在澳门演唱会被要求讲普通话,这背后反映了哪些文化和社会问题?
- 2025-06-27孩子有点胖,有没有孩子减重的方法推荐?
推荐产品
-
为什么现在新出的显卡(甜品级)很多使用PCIe5.0 x8,而不是x16?
玩3D游戏,BUS是很少用满的,用满的唯一可能性是爆显存。 -
为什么软件公司很少用python开发web?
自荐一个数据构建小工具: pydantic-resolve, -
新手养鱼,养什么鱼好?
新手不建议养热带鱼,下面推荐一些易养的、冷水养殖的小鱼: 1 -
在哪一瞬间,你意识到那个人不能深交?
01最近,有这样一个***在全网疯传。 广东一对情侣,
最新资讯




