推特文爱 OpenAI的“看图想考”，被玩坏了……

发布日期：2025-04-19 03:01 点击次数：156

知谈大模子接下来要卷视觉推理推特文爱，但没猜度这样卷——数学试卷皆将近不够用了。

常看推理演义的一又友们皆知谈：推理也分不同的类型，有专注于逻辑的，也有演绎类的。

既然GPT皆更新到o3了，还加入了图片推理，那就皆-得-有。

逻辑推理，但视觉版

视觉推理并不簇新，各家皆在作念。这矜重的不单是是从图片中识别元素，还得厚实这些元素，况且进一步沿用到与用户的交互、惩处使命任务中。

在o3之前，Gemini 2.5在视觉推理上有相等惊东谈主的浮现，咱们之前也有过测评，速测了一下o3的识图才气。

伦理片在线

不外凌晨刚发布的时候，o3可能没睡醒，一个简便的武康大楼认不出来。比及下昼再测，“才略”就复原了。

同期还援用了外链，保证了核查措施。这种识图才气一经很实用的，比如咱们作念了两个考据码识别。

之前爆火的Manus以及同类型的通用型Agent居品，不错终了自主通过考据码，当今这是一个欺骗后劲相比大的才气。

不外，在大模子流行之前，传统搜索引擎也不错完成识图的使命。考据码、识图这种小case，不太能准确反应o3的才气。

于是咱们找了真-图形推理题：2021年国度公事员推行模拟考题。

提议想考公的一又友们，皆别成功滑下去，先我方作念一作念。这样的图形题，检会的是归纳推理的才气，即凭证已有的本色猜度出下一步。

的确真题便是不一样，o3的推理逾越了六分钟，想维链长达5千字，不仅有图片推理，还长入了代码匡助它我方厚实。

您当前建树暂不因循播放

然后水汪汪地答错了——正确谜底是D，每个图形皆有且惟有一个阻滞区域，故选D。o3想了一大堆，最终错选了C。

诚然题目答错了，不外能看出来o3实在如所承诺的那样，推理是基于图片素材进行的。

这种归纳推理的神气，有什么实用价值吗？——可大了，这下不错用AI对狙AI。

这一阵在小红书诡秘行的“极其平方的AI图”挑战，内部皆是耽搁的镜头、暗昧的焦点，“仿佛从口袋中掏起始机时不测按下快门拍下的”。

竭诚说就上头这些个图，也太难以怀疑了。AI检测AI生成文本很常见了，当今也不错让它检测AI图片。

o3说，它懂GAN生成挣扎网罗，它还懂分析EXIF，它不错走动归归纳AI图片的特色。

您当前建树暂不因循播放

有几分意旨。不错看到它的推理分析神气是诊治成代码谈话——在靠近纯逻辑推理的时候，险些皆诊断治成代码谈话。比如底下这个迷宫解题：

在这个迷宫问题中，o3谈判使用PIL、numpy和skimage来进行模式学处理，况且编写了python来惩处。基本上，这等于是在ChatGPT的对话窗口里调用不同的器具来接济。

您当前建树暂不因循播放

迷宫对o3的挑战相等大，推理时间去到了2分钟，恶果也相比一般：临了试图生成的旅途解法，然而一条无法点击的空判辨。

再给其它的迷宫题，o3相通振荡成代码谈话来厚实。不外，这题它也莫得解出来，而且成功弃赛了。

回归一下：在归纳推理方面，o3通过识别视觉元素、回归图片特色，况且调用外部器具，进行比对识图，这些才气皆隐敝了。

准确率和响应皆有待擢升，尤其是推理时间久、想维链条长，临了一经失实谜底的话，换哪个用户皆要不高兴的。

基本演绎法，但AI版

除了归纳型推理，还有演绎推理。这需要AI详细上述统共的才气，况且有极少“发散想维”。

这是极度让东谈主得意的部分，咱们筹算了一套“看工位，猜MBTI”的挑战步履，交给o3。

汗漫极度独特想，诚然到底是I东谈主一经P东谈主，工位无意能透顶体现出来——但这未便是o3要挑战的吗？接下来送上本色部门共事们的桌面，以及o3对他们的“判定”。

【P东谈主主编】

主编的P属性相等显著，还P得相等厚实，桌面两年莫得变化，这点o3皆发现了：不太花时间打理。

【J东谈主社媒裁剪】

社媒裁剪的桌面由于过于系统、手艺含量过高，触发了o3调用代码器具——好可怕的J东谈主。

【P东谈主实习生】

实习生的桌面东西未几但信息量不少，尤其是显现屏上贴了一串小纸条，原认为是便利贴，汗漫全是奶茶标……

这触发了o3的“逐part分解”，每一个细节皆放大来看。不外，这样的触发并不是每次皆能出现，暂时还莫得看到明确的触发神气。

【P东谈主硬件及影像裁剪】

工位主东谈主暗示o3判错了，他明明是P东谈主——只是莫得反应在工位吩咐上。只可说GPT有时比东谈主更了解东谈主我方。

【J东谈主汽车裁剪】

在prompt中，咱们莫得限定o3的返送神气，不外每次它皆会拉成表格，长入MBTI的不同维度，分点给出印迹和相对应的推理。

回归一下：演绎推理是o3颇为让东谈主得意的场所。尤其是想维链绽放，不错看到针对不同的案例，调用不同的器具和神气。

显著不错看到“agent”想维，成功欺骗在了ChatGPT当中。这是本次大版块更新中，除了模子的基础才气除外，最让东谈主得意的场所。

举座上是一个可玩性相等高的版块，尤其是图片推理的后劲，极度值得期待。然而用图片推理来搞赛博开盒什么的推特文爱，透顶不行以啊喂！

上一篇：萝莉好意思高中女锤真金不怕火白昼上课课后当色情女优

下一篇：jisoo ai换脸《发条橙》：电影与音乐的互相请教