[科技] 如何评价DeepSeek于4月29日发布的识图模式与30日发布的视觉模型技术报告？

万年历购物网址日历小说 | 三峰软件天天财富小游戏视频推荐小游戏

TxT小说阅读器
↓小说语音阅读,小说下载↓

一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放,产品展示↓

首页日历2025 日历2026 日历2027 日历知识 | 每日头条视频推荐数码知识两性话题情感天地心理咨询旅游天地 | 明星娱乐电视剧职场天地体育娱乐

日历软件煮酒论史历史中国历史世界历史春秋战国三国唐朝宋朝明朝清朝哲学厚黑学心理学 | 文库大全文库分类

电影票房娱乐圈娱乐弱智火研中华城市仙家六爻佛门风水钓鱼双色球戒色航空母舰网球乒乓球足球 nba 象棋体操

商业财经知识科技汽车知识工程技术知识时尚与穿搭家居与生活设计艺术知识

知识库 -> 科技 -> 如何评价DeepSeek于4月29日发布的识图模式与30日发布的视觉模型技术报告？ -> 正文阅读

[科技]如何评价DeepSeek于4月29日发布的识图模式与30日发布的视觉模型技术报告？

[收藏本文] 【下载本文】

29日下午14点30左右开始灰度 [图片] 30日下午发布的技术报告（4.30 23时左右显示已删除） Thinking-with-Visual-Pr…

DeepSeek官网已开启识图模式灰度测试，目前仅有部分账户获得了灰度资格
GitHub已发布技术报告，晚23时被发现已删除
Thinking-with-Visual-Primitives（已删除）github.com/deepseek-ai/Thinking-with-Visual-Primitives
以下是备份

Thinking_with_Visual_Primitives.pdf4.52MB
2026.04.30: We have released the technical report detailing our approach. In the near future, we plan to make the in-house benchmarks and a subset of our cold-start data publicly available. The model weights will be integrated into our foundation model and released in the future.
2026.04.30：我们已发布详细阐述我们方法的技术报告。近期，我们计划将内部基准测试和部分冷启动数据公之于众。模型权重将被整合到我们的基础模型中，并在未来发布。
GPT总结：
技术报告的核心问题是 Reference Gap：MLLM 不只是“看不清”，而是在复杂空间结构里很难用自然语言精确指代对象，因此推理链会出现对象漂移、逻辑坍塌和幻觉。 DeepSeek 的方法是让模型在推理过程中插入 visual primitives，也就是点和框，把“语言思考”锚定到具体图像坐标上，形成类似“边想边指”的视觉 CoT。工程上它基于 DeepSeek-V4-Flash，并将每 4 个 visual tokens 的 KV cache 压缩成 1 个 entry，以较低图像 token 成本在计数、空间推理等专项 benchmark 上接近前沿闭源多模态模型；但仓库也强调这些分数只代表论文相关维度，不代表整体模型能力。

还能怎么说，我直接：
\??/\??/\??/ 人民的AI！
更新一浪接一浪，感觉在画k线。
很快就会有：
梁圣慢一点吧，等等你的ai同行，一枝独秀不是春
之类的发言了。

不过ds会有过度思考的bug，而且世界知识也不行。

另外，梁圣又延长了Pro的打折时间到2026年5月31日了，望周知。

终于放假了。
DeepSeek 识图模式的灰度没等到，等来了技术报告。

说真的，我看见这论文标题的时候，第一反应是想笑。
《Thinking with Visual Primitives》，视觉基元思考。
听起来像是某个 PPT 大师，在汇报会上憋出来的玄学概念。
配上一张螺旋上升的箭头图，老板看了直点头，员工听完一头雾水。
但当我把全文啃完之后，我大脑宕机了三秒。
并非因为它多复杂，是因为它简单到离谱，简单到让我怀疑过去这些年大家都在干什么。
DeepSeek 这篇新论文，说白了就是教 AI 学会一件事。
想问题的时候，能不能用手指着想？
就这么简单。
但就是这么个事儿，让一个基于 DeepSeek-V4-Flash 开发，总参数 284B，激活只有 13B 的小模型。
在迷宫导航这种任务上，把 GPT-5.4，Claude-Sonnet-4.6，Gemini-3-Flash 全部按在地上摩擦。
所以，即使刚放假，也要先来跟大家第一时间分享。
1
你有没有这种经历。
晚上跟女朋友窝在沙发上，她翻出一张小学毕业照给你看，让你猜猜哪个是她。
你凑近屏幕，五排小孩儿，乌泱泱四五十个人。
你说，第二排中间哪个？
她说，中间哪个？
你说，笑得最甜的。
她说，我那时候不爱笑，你还是指给我看吧。
你手指头一戳，双方对齐了。
但是吧，AI 没有手，思考的时候全靠自己在脑子里默念。
用语言描述“这个”，“那个”，“另外那个”的时候，很快就在自己的推理链里崩溃了。
DeepSeek 的论文给这个现象起了一个名字，叫 Reference Gap，指认鸿沟。
之前的多模态大模型卷的是更高的分辨率，更细的图像切片。
把图像切成几百块，让模型把每根毛都看清楚。
但卷到最后，大家发现一个诡异的现象，模型明明看清楚了每根毛，回答问题还是错。
为啥呢？
因为看见并不等于推理，中间隔着的就是指认鸿沟。
模型不是没看见。
是看见了不会说，说了也说不准，说准了也接不上下一句。
2
之前也有人尝试让 AI 一边看图一边画框，但都是当作事后检查用。
AI 先把答案在脑子里想好，最后再随手画个框。
DeepSeek 这次不一样，它让 AI 在思考答案的时候，就当场推理。
一边想，一边画框，一边打点。
画框本身，就是思考的一部分。
具体来说，你如果问 AI，这张图里有几只狗？
之前的 AI 内心戏是这样的。

我看到一只狗。然后那边还有一只。再过去那边好像也有……等等左边那只我数过没？算了再数一遍……前面好像数错了……

DeepSeek 新模型内心戏是这样的。

找狗 → [box: 120, 340, 200, 420] → 找下一只 → [box: 450, 200, 530, 290] → 还有吗？→ [box: 700, 400, 810, 500] → 1+1+1=3。

每一步思考，都带上了坐标。
语言负责想什么，坐标负责指哪个。
两种基元交织在一起，构成一段推理。
这就是论文最核心的概念，把视觉基元提升成思考的最小单位。
说人话，就是 AI 推理的最小单位除了词元，还可以是坐标。
抽掉坐标，指代就丢了。
DeepSeek 这次，是真的把坐标搬进了推理链里。
3
光说理论还是抽象，我们来看几个论文里实测的案例。
第一个，数球队合影。

一张足球队的合影，二十几个人挤在一起，让模型数有几个人。
DeepSeek 新模型扫描了整张图片，一口气画出了 25 个框，每个框框住一个人。
然后认真的做汇报。
前排地上坐着 4 个，中间一排坐着 9 个，后排站着 8 个，左边教练 2 个，右边教练 2 个，一共 25 个人。
论文里另一张黑白老照片，模型也直接框除了 29 个人，一个不漏。

还有这个把各种动漫手办放在一块，要求数出神奇宝贝数量的，一共 6 个。

甚至还有把吉娃娃和蓝莓松饼放在一块，让模型数有几只吉娃娃。
两者长得离谱的像，别说 AI 了，人不仔细看都容易搞混了。

更狠的是这个，迷宫导航。
给模型一张蜂窝迷宫的图，让它从入口走到出口。

GPT-5.4，Claude-Sonnet-4.6，Gemini-3-Flash，所有顶级模型在这种任务上都卡在了 50% 上下，集体翻车。
为什么？
因为用纯语言的思维链，描述这种不规则的空间路径是反人类的。
DeepSeek 新模型在每个分叉点都标记了坐标，永远不会指代不清。
最后跑出了 66.9% 的准确率，比竞品模型高出 16 个百分点以上。
这说明，不是模型不够大，思考方式错了，再大的模型也救不了。
类似的例子，还有下面这种路径追踪的任务。

更有意思的，是下面这个中文案例。
给它一张咖啡机的照片，问我应该如何制作一杯美味的拿铁？

它一边思考，一边在图片上分别框出咖啡机，蒸汽棒，不锈钢牛奶壶，咖啡豆包装袋，拿铁按钮，陶瓷咖啡杯。
然后一步步告诉你，该如何正确操作。
视觉指认和世界知识，融合的非常自然。
4
关键数据还是要过一下。
下图的 Ours-284B-A13B 就是 DeepSeek 的新模型。
放在今天这堆万亿参数的庞然大物里，它是个小个子。
但它读图片的时候，要比所有大块头都省。

你给它一张正常分辨率的图片，它脑子里要存的草稿纸，大约不到同行的十分之一。
这种效率差距太离谱了，我是同行我看了都要流汗。
更离谱的是，效率省成这样，性能还是基本反超的。
平均下来，DeepSeek 新模型拿到 77.2%，全场最高。
再来看下面这张详情表。

Ours 拿下了 8 项第一，3 项第二。
Gemini-3-Flash 在某几个特别考验看清细节的测试上，稍微略胜一点点。
但在那些考“看清之后能不能想明白”的任务上，比如最下方拓扑推理的两个任务中，DeepSeek 新模型 Ours 直接断层式的遥遥领先。
5
说完爽点，来说说论文中自己提到的几个短板。
第一个，图太挤的时候，它还是会画歪。
因为看不清楚，这个问题要跟现有的，能看得更清楚的技术结合起来解决。
第二个，你得明确叫它指，它才会指。
它现在还不会自己判断，这个问题需不需要边想边画。
理想状态就是让它自己分得清，适合的任务要主动调用指认的能力。
第三个，拓扑推理的任务还是有很大挑战。
在迷宫任务里虽然取得了亮眼的成绩，但还缺乏泛化能力，还不够通用。
后面，还有大把的工作要做。
好戏才刚刚开场。
尾声
写到这里，我突然想起一句话。
维特根斯坦说，我语言的边界，就是我世界的边界。
这句话被引用了无数次，但很少有人提及它的反面。
当你扩展了语言之外的表达手段，你就扩展了你的世界。
DeepSeek 论文里最后一句话是这样说的。
通向系统 2 多模态智能的路，不在于看到更多像素，而在于在语言和视觉之间，搭起一座精确而无歧义的指代桥梁。
我的直觉告诉我，这个方向是对的。
因为，它符合人类认知的过程。
当你穿越复杂迷宫或者要数清密集的物体时，你就是会自然的用手指指向它们。
这样不光能节省大脑的消耗，也会保持逻辑连贯性，防止出错。
婴儿在咿呀学语之前，不也是会伸出小小的指头来指的么？
DeepSeek 的新论文，让 AI 第一次伸出了那根手指。
后来的人们发现，通往 AGI 的那把钥匙。
可能一直就藏在我们的手指头上。

D老师终于知道自己的logo是蓝色小虎鲸了，感动落泪。

今天刚考完离散数学，天天对着豆包跟千问头都大了
你告诉我。。。deepseek出了个识图模式???

[收藏本文] 【下载本文】

科技最新文章

DeepSeek 2026年4 月30 日发布几小时后删除

为什么数据治理这么重要？

如何评价睡前消息第1048期“老朋友合订本勿

如何评价 DeepSeek-V4 的价格？

如何评价DeepSeek于4月29日发布的识图模式与

当年任由马云做那个蚂蚁金服的话，后果有多

为什么 LLM 仅预测下一词，就能「涌现」出高

为什么国内的黄色网站不被查封？是难发现吗

如何看待王坚院士关于我国电网和美国电网的

荷兰抢走中国企业安世半导体最后怎么收场？

加:2026-05-02 15:24:30 更:2026-05-02 15:27:29

娱乐生活: 电影票房娱乐圈娱乐弱智火研中华城市印度仙家六爻佛门风水古钱币交流专用钓鱼双色球航空母舰网球乒乓球中国女排足球 nba 中超跑步象棋体操戒色上海男科 80后
足球: 曼城利物浦队托特纳姆热刺皇家马德里尤文图斯罗马拉齐奥米兰里昂巴黎圣日尔曼曼联

网站联系: qq:121756557 email:121756557@qq.com 知识库