| |
|
| 知识库 -> 科技 -> 如何评价DeepSeek于4月29日发布的识图模式与30日发布的视觉模型技术报告? -> 正文阅读 |
|
|
[科技]如何评价DeepSeek于4月29日发布的识图模式与30日发布的视觉模型技术报告? |
| [收藏本文] 【下载本文】 |
|
29日下午14点30左右开始灰度 [图片] 30日下午发布的技术报告(4.30 23时左右显示已删除) Thinking-with-Visual-Pr… |
|
DeepSeek官网已开启识图模式灰度测试,目前仅有部分账户获得了灰度资格 GitHub已发布技术报告,晚23时被发现已删除 Thinking-with-Visual-Primitives(已删除)github.com/deepseek-ai/Thinking-with-Visual-Primitives 以下是备份 |
|
|
Thinking_with_Visual_Primitives.pdf4.52MB 2026.04.30: We have released the technical report detailing our approach. In the near future, we plan to make the in-house benchmarks and a subset of our cold-start data publicly available. The model weights will be integrated into our foundation model and released in the future. 2026.04.30:我们已发布详细阐述我们方法的技术报告。近期,我们计划将内部基准测试和部分冷启动数据公之于众。模型权重将被整合到我们的基础模型中,并在未来发布。 GPT总结: 技术报告的核心问题是 Reference Gap:MLLM 不只是“看不清”,而是在复杂空间结构里很难用自然语言精确指代对象,因此推理链会出现对象漂移、逻辑坍塌和幻觉。 DeepSeek 的方法是让模型在推理过程中插入 visual primitives,也就是点和框,把“语言思考”锚定到具体图像坐标上,形成类似“边想边指”的视觉 CoT。 工程上它基于 DeepSeek-V4-Flash,并将每 4 个 visual tokens 的 KV cache 压缩成 1 个 entry,以较低图像 token 成本在计数、空间推理等专项 benchmark 上接近前沿闭源多模态模型;但仓库也强调这些分数只代表论文相关维度,不代表整体模型能力。 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
还能怎么说,我直接: \??/\??/\??/ 人民的AI! 更新一浪接一浪,感觉在画k线。 很快就会有: 梁圣慢一点吧,等等你的ai同行,一枝独秀不是春 之类的发言了。 |
|
|
不过ds会有过度思考的bug,而且世界知识也不行。 |
|
|
另外,梁圣又延长了Pro的打折时间到2026年5月31日了,望周知。 |
|
|
|
|
终于放假了。 DeepSeek 识图模式的灰度没等到,等来了技术报告。 |
|
|
说真的,我看见这论文标题的时候,第一反应是想笑。 《Thinking with Visual Primitives》,视觉基元思考。 听起来像是某个 PPT 大师,在汇报会上憋出来的玄学概念。 配上一张螺旋上升的箭头图,老板看了直点头,员工听完一头雾水。 但当我把全文啃完之后,我大脑宕机了三秒。 并非因为它多复杂,是因为它简单到离谱,简单到让我怀疑过去这些年大家都在干什么。 DeepSeek 这篇新论文,说白了就是教 AI 学会一件事。 想问题的时候,能不能用手指着想? 就这么简单。 但就是这么个事儿,让一个基于 DeepSeek-V4-Flash 开发,总参数 284B,激活只有 13B 的小模型。 在迷宫导航这种任务上,把 GPT-5.4,Claude-Sonnet-4.6,Gemini-3-Flash 全部按在地上摩擦。 所以,即使刚放假,也要先来跟大家第一时间分享。 1 你有没有这种经历。 晚上跟女朋友窝在沙发上,她翻出一张小学毕业照给你看,让你猜猜哪个是她。 你凑近屏幕,五排小孩儿,乌泱泱四五十个人。 你说,第二排中间哪个? 她说,中间哪个? 你说,笑得最甜的。 她说,我那时候不爱笑,你还是指给我看吧。 你手指头一戳,双方对齐了。 但是吧,AI 没有手,思考的时候全靠自己在脑子里默念。 用语言描述“这个”,“那个”,“另外那个”的时候,很快就在自己的推理链里崩溃了。 DeepSeek 的论文给这个现象起了一个名字,叫 Reference Gap,指认鸿沟。 之前的多模态大模型卷的是更高的分辨率,更细的图像切片。 把图像切成几百块,让模型把每根毛都看清楚。 但卷到最后,大家发现一个诡异的现象,模型明明看清楚了每根毛,回答问题还是错。 为啥呢? 因为看见并不等于推理,中间隔着的就是指认鸿沟。 模型不是没看见。 是看见了不会说,说了也说不准,说准了也接不上下一句。 2 之前也有人尝试让 AI 一边看图一边画框,但都是当作事后检查用。 AI 先把答案在脑子里想好,最后再随手画个框。 DeepSeek 这次不一样,它让 AI 在思考答案的时候,就当场推理。 一边想,一边画框,一边打点。 画框本身,就是思考的一部分。 具体来说,你如果问 AI,这张图里有几只狗? 之前的 AI 内心戏是这样的。 DeepSeek 新模型内心戏是这样的。 每一步思考,都带上了坐标。 语言负责想什么,坐标负责指哪个。 两种基元交织在一起,构成一段推理。 这就是论文最核心的概念,把视觉基元提升成思考的最小单位。 说人话,就是 AI 推理的最小单位除了词元,还可以是坐标。 抽掉坐标,指代就丢了。 DeepSeek 这次,是真的把坐标搬进了推理链里。 3 光说理论还是抽象,我们来看几个论文里实测的案例。 第一个,数球队合影。 |
|
|
一张足球队的合影,二十几个人挤在一起,让模型数有几个人。 DeepSeek 新模型扫描了整张图片,一口气画出了 25 个框,每个框框住一个人。 然后认真的做汇报。 前排地上坐着 4 个,中间一排坐着 9 个,后排站着 8 个,左边教练 2 个,右边教练 2 个,一共 25 个人。 论文里另一张黑白老照片,模型也直接框除了 29 个人,一个不漏。 |
|
|
还有这个把各种动漫手办放在一块,要求数出神奇宝贝数量的,一共 6 个。 |
|
|
甚至还有把吉娃娃和蓝莓松饼放在一块,让模型数有几只吉娃娃。 两者长得离谱的像,别说 AI 了,人不仔细看都容易搞混了。 |
|
|
更狠的是这个,迷宫导航。 给模型一张蜂窝迷宫的图,让它从入口走到出口。 |
|
|
GPT-5.4,Claude-Sonnet-4.6,Gemini-3-Flash,所有顶级模型在这种任务上都卡在了 50% 上下,集体翻车。 为什么? 因为用纯语言的思维链,描述这种不规则的空间路径是反人类的。 DeepSeek 新模型在每个分叉点都标记了坐标,永远不会指代不清。 最后跑出了 66.9% 的准确率,比竞品模型高出 16 个百分点以上。 这说明,不是模型不够大,思考方式错了,再大的模型也救不了。 类似的例子,还有下面这种路径追踪的任务。 |
|
|
更有意思的,是下面这个中文案例。 给它一张咖啡机的照片,问我应该如何制作一杯美味的拿铁? |
|
|
它一边思考,一边在图片上分别框出咖啡机,蒸汽棒,不锈钢牛奶壶,咖啡豆包装袋,拿铁按钮,陶瓷咖啡杯。 然后一步步告诉你,该如何正确操作。 视觉指认和世界知识,融合的非常自然。 4 关键数据还是要过一下。 下图的 Ours-284B-A13B 就是 DeepSeek 的新模型。 放在今天这堆万亿参数的庞然大物里,它是个小个子。 但它读图片的时候,要比所有大块头都省。 |
|
|
你给它一张正常分辨率的图片,它脑子里要存的草稿纸,大约不到同行的十分之一。 这种效率差距太离谱了,我是同行我看了都要流汗。 更离谱的是,效率省成这样,性能还是基本反超的。 平均下来,DeepSeek 新模型拿到 77.2%,全场最高。 再来看下面这张详情表。 |
|
|
Ours 拿下了 8 项第一,3 项第二。 Gemini-3-Flash 在某几个特别考验看清细节的测试上,稍微略胜一点点。 但在那些考“看清之后能不能想明白”的任务上,比如最下方拓扑推理的两个任务中,DeepSeek 新模型 Ours 直接断层式的遥遥领先。 5 说完爽点,来说说论文中自己提到的几个短板。 第一个,图太挤的时候,它还是会画歪。 因为看不清楚,这个问题要跟现有的,能看得更清楚的技术结合起来解决。 第二个,你得明确叫它指,它才会指。 它现在还不会自己判断,这个问题需不需要边想边画。 理想状态就是让它自己分得清,适合的任务要主动调用指认的能力。 第三个,拓扑推理的任务还是有很大挑战。 在迷宫任务里虽然取得了亮眼的成绩,但还缺乏泛化能力,还不够通用。 后面,还有大把的工作要做。 好戏才刚刚开场。 尾声 写到这里,我突然想起一句话。 维特根斯坦说,我语言的边界,就是我世界的边界。 这句话被引用了无数次,但很少有人提及它的反面。 当你扩展了语言之外的表达手段,你就扩展了你的世界。 DeepSeek 论文里最后一句话是这样说的。 通向系统 2 多模态智能的路,不在于看到更多像素,而在于在语言和视觉之间,搭起一座精确而无歧义的指代桥梁。 我的直觉告诉我,这个方向是对的。 因为,它符合人类认知的过程。 当你穿越复杂迷宫或者要数清密集的物体时,你就是会自然的用手指指向它们。 这样不光能节省大脑的消耗,也会保持逻辑连贯性,防止出错。 婴儿在咿呀学语之前,不也是会伸出小小的指头来指的么? DeepSeek 的新论文,让 AI 第一次伸出了那根手指。 后来的人们发现,通往 AGI 的那把钥匙。 可能一直就藏在我们的手指头上。 |
|
D老师终于知道自己的logo是蓝色小虎鲸了,感动落泪。 |
|
|
|
|
今天刚考完离散数学,天天对着豆包跟千问头都大了 你告诉我。 。 。deepseek出了个识图模式??? |
|
|
| [收藏本文] 【下载本文】 |
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
|
|
娱乐生活:
电影票房
娱乐圈
娱乐
弱智
火研
中华城市
印度
仙家
六爻
佛门
风水
古钱币交流专用
钓鱼
双色球
航空母舰
网球
乒乓球
中国女排
足球
nba
中超
跑步
象棋
体操
戒色
上海男科
80后
足球: 曼城 利物浦队 托特纳姆热刺 皇家马德里 尤文图斯 罗马 拉齐奥 米兰 里昂 巴黎圣日尔曼 曼联 |
| 网站联系: qq:121756557 email:121756557@qq.com 知识库 |