j9九游会真人但比 o1 模子还差了那么少量-欧洲杯下单平台(官方)APP下载IOS/安卓通用版/手机版

栏目分类

热点资讯

新闻动态你的位置：欧洲杯下单平台(官方)APP下载IOS/安卓通用版/手机版 > 新闻动态 > j9九游会真人但比 o1 模子还差了那么少量-欧洲杯下单平台(官方)APP下载IOS/安卓通用版/手机版

发布日期：2026-02-14 08:53 点击次数：133

j9九游会真人但比 o1 模子还差了那么少量-欧洲杯下单平台(官方)APP下载IOS/安卓通用版/手机版

过年关啦！阿里奉上了本年临了一份礼物——j9九游会真人

"眼睛"模子 QVQ，其中 V 代表视觉。它只需读取图像和辅导，就不错运搬动念考。

I ’ m watching you！

据先容，这可能是各人第一个视觉推理模子，也不错把它纠合为上个月开源的阿里版 o1 模子 QwQ 的视觉版块。

不错处置数死亡生等各领域问题。

读梗图、数鸭子也不在话下。

现在该模子处于实验阶段，敞开测试。

后果可能因为造访过多，网页一度还 404 了。

从性能阐扬上看，QVQ 在 MMMU 上的得分为 70.3，这一后果跨越 GPT-4o、Claude 3.5 Sonnet，但比 o1 模子还差了那么少量。

官方给了几个演示 Demo，让我们好好感知一下它的推理才能。

领先来看这说念数学题。

解题念念路如下：

再来个几何题，算算这个沙发的面积。

它的推理经过如下：

高中化学题：图片中的滤液 E 是什么化学物资？

它的谜底是：硫酸亚铁溶液。

他们在四个数据集对眼睛模子 QVQ-72B-Preview 进行了评估，包括 MMMU、MathVista、MathVision、OlympiadBench，主要老师数学多模态推理以及抽象纠合推理方面的才能。

QVQ-72B-Preview 在 MMMU 基准测试中获得了 70.3 分，大大跨越了其前身 Qwen2-VL-72B-Instruct。

此外，在其余三个以数学和科常识题为重心的基准测试中，该模子也阐扬出了不凡的性能，放松了与 o1 模子之间的差距。

不外现在该模子属于是团队的实验商议模子，不是很是厚实，有几个死心需要正式。

话语夹杂和代码切换：该模子可能会不测地夹杂话语或在话语之间切换，从而影响回答的明晰度。

递归推理：模子可能会堕入轮回逻辑花样，产生冗长的修起而无法得出论断。

安全和说念德方面的计划：该模子需要加强安全圭表，以确保性能可靠和安全，用户在部署时应严慎。

性能和基准死心：尽管该模子在视觉推理方面有所修订，但它不行彻底取代 Qwen2-VL-72B-Instruct 的功能。此外，在多设施视觉推理经过中，模子可能会冷静失去对图像实验的情愫，从而导致幻觉。

好好防患针打了，那我们淡淡实测一波。

比如这说念磨真金不怕火谷歌版 o1 的题目：

怎么附近这些数字加起来便是 30？

后果它识别出来了这几个球对应的数字，莫得知道到 9 号球不错翻转成 6 号球，然后就堕入无穷的念念考之中。。。

在 blog 临了，他们也显现了接下来的成见——增强视觉话语基础模子，使其具备基于视觉信息进行深度念念考和推理的高档才能。

把时辰拉长，他们筹画是将更多的模态整合到长入的模子中，八成应付复杂的挑战并参与科学探索。

（模子绝顶是 AI For Science？）

参考不时：

[ 1 ] https://x.com/Alibaba_Qwen/status/1871602879972405626

[ 2 ] https://qwenlm.github.io/blog/qvq-72b-preview/

— 完 —

点这里� � 情愫我，记起标星哦～

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~