[科技] OpenClaw到底能做什么呢？

万年历购物网址日历小说 | 三峰软件天天财富小游戏视频推荐小游戏

TxT小说阅读器
↓小说语音阅读,小说下载↓

一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放,产品展示↓

首页日历2025 日历2026 日历2027 日历知识 | 每日头条视频推荐数码知识两性话题情感天地心理咨询旅游天地 | 明星娱乐电视剧职场天地体育娱乐

日历软件煮酒论史历史中国历史世界历史春秋战国三国唐朝宋朝明朝清朝哲学厚黑学心理学 | 文库大全文库分类

电影票房娱乐圈娱乐弱智火研中华城市仙家六爻佛门风水钓鱼双色球戒色航空母舰网球乒乓球足球 nba 象棋体操

商业财经知识科技汽车知识工程技术知识时尚与穿搭家居与生活设计艺术知识

知识库 -> 科技 -> OpenClaw到底能做什么呢？ -> 正文阅读

[科技]OpenClaw到底能做什么呢？

[收藏本文] 【下载本文】

OpenClaw，到底能做什么呢？哪些Skills是值得用的？

我觉得它给大家带来的冲击，是因为很多人对大模型的印象还停留在一个文本框、然后输入对话上。但是，如果你已经熟悉使用 Agent Coding（比如说 Claude Code），那也不会觉得特别神奇。因为我编码任务都用了 Claude Code，我觉得他更像是一个个人助理（贾维斯哈哈），是一个 24 小时在线响应的带了记忆的 Claude Code。但是对于不懂编程的人来说呢，它可以变成一个自然语言编程 Agent 带来生产力。
以下来自他自己的回答，我让他以我的口吻来做一个总结，仅仅转发。
我用 OpenClaw 干了啥？一个普通打工人的 AI 管家实践
先说背景：我是个在新加坡的程序员，家里有台 Synology NAS 跑 Docker。偶然发现了 OpenClaw 这个项目，花了一个周末部署上去，然后就停不下来了。
以下是我这一周真实在用的功能，不吹不黑。
?? 邮件管家
Gmail 接入后，每天早晚 8 点自动整理未读邮件，分好类发到 Telegram：哪些要处理、哪些是 newsletter、哪些直接忽略。再也不用打开 Gmail 面对几百封未读的焦虑了。
随时也可以让它现场拉一遍："帮我看看今天的邮件"，几十秒就给你分好优先级。
?? 日程同步 & 提醒
我公司用飞书，私人用 Google Calendar。配了个自动同步脚本，飞书日历的会议自动出现在 Google Calendar 里。每次心跳（大约半小时一次）自动检查未来 24 小时的日程，快开会了就 Telegram 推一下。
不用再担心忘记会议。
?? AI 语音电话
这个是最骚的。接了 Vapi.ai，可以让 AI 帮我打电话。比如订餐：
"帮我打电话订位，今晚6点半，5位，姓刘"
它直接拨出去，用中文跟餐厅沟通，一次性把信息说完，然后回答餐厅的问题。省得自己打电话。
?? 第二大脑：Obsidian + Notion
这是我花时间最多的部分。架构是：
Obsidian（私有知识库）：通过 Syncthing 多端同步，零碎想法、笔记、素材都扔进去 Notion（对外输出）：日记、博客、待办事项
跟 AI 聊天时随口说"记录一下"，它自动写到 Obsidian 里。发张照片说"记个日记"，它会把图片上传到 NAS 图床，然后在 Notion 创建一篇图文并茂的日记。
待办事项也是直接说"记个待办：买牛奶"，它自动写到 Notion Task List 里，按主题归类。
传统知识管理：打开Obsidian写笔记 → 想目录结构 → 手动打标签 → 再把值得发布的搬到Notion排版。两套系统，全靠自觉，大部分人一周后就荒废了。
现在的方式：我在Telegram说句话、转篇文章、发张照片，剩下的全自动：
? Obsidian（私有知识库）：零散想法、学习笔记、网上看到的好内容自动归档，YAML frontmatter自动打标签，目录索引自动重建。我不需要想"这个该放哪个文件夹"——Thoth会判断分类，放错了他还会自己重构目录。
? Notion（对外输出）：日记自动生成（同一天合并不重复），照片自动过图床再嵌入，待办自动归类到对应项目的checkbox里。想发布的内容从Obsidian素材库里提炼整理到Notion，一条链路走完。
? 两套系统联动：Obsidian是素材池和思考场，Notion是成品展示台。积累在Obsidian，输出在Notion，中间的搬运、整理、格式化都不用我动手。
核心变化：从"两个App各维护一套"变成了"一个入口，两个系统自动协作"。输入只有Telegram对话，输出是一个持续生长的知识库+一个随时可分享的Notion页面。维护成本：零。
?? 投资组合监控
我跑的是永久组合策略（黄金/长债/股票/现金各 25%），每周一自动检查各类资产偏离度。超过 ±5% 就 Telegram 告警提醒再平衡。平时完全不用盯盘。
还配了新加坡 COE（拥车证）开标监控，每月两次自动推送结果。
?? 生活提醒
保健品提醒——早中晚三个时段，到点就 Telegram 推一下吃什么、吃几粒。简单但有效，再也没忘过。
?? 文件转换
今天刚装了微软的 MarkItDown，发个 PDF/Word/PPT 过去，直接转成 Markdown。arXiv 论文秒转，喂给 AI 做摘要。
?? 信息雷达
单独跑了一个 Agent（叫 Huginn），专门做信息收集和整理。多 Agent 架构，各司其职，共享 MCP 工具。
总结
本质上就是把一堆 API 和工具通过 OpenClaw 串起来，用自然语言调度。它不是一个"聊天机器人"，更像一个住在 NAS 里的数字管家——有记忆、有日程、能打电话、能写东西、能帮你盯着各种事情。
最大的感受：从"我去做"变成了"帮我做"。很多琐碎的事情，说一句话就搞定了。
部署门槛不算低（需要 Docker 基础 + 各种 API key），但一旦跑起来，回不去了。
给大家做一个推荐：Typeless
无论是日常 vibe Coding，还是驱使你的 openclaw 去干活。语音输入已经是一个默认的选项了。
这是目前我测下来最好用的语音输入软件，支持移动端和 PC 端。
最后再补个彩蛋：

送礼物
还没有人送礼物，鼓励一下作者吧

用了一段时间 OpenClaw 之后，上周突然想到家里本来就有两个萤石云摄像头，一个在客厅看娃，一个在阳台看猫，为什么不把它们接到 OpenClaw 上。萤石云的开放平台 API 本身做得相当充分，Token 管理、云台控制、实时抓拍这些能力都有现成的接口，技术上应该是可行的。加上部署 OpenClaw的 Mac mini 24 小时在线，本地跑模型的条件也具备。
先说结论，这套方案已经稳定跑了一周了，整个过程还是做了 N 次工程迭代，效果才稳定下来。从最初的帧差法运动检测频繁误报，到引入 YOLO 小模型做语义预筛再到本地多模态大模型做场景理解，甚至为了解决错失重要画面的问题重构了底层的时间轴，中间经历了好几轮架构推翻和重建。交互方式也从单纯的指令查询，逐步优化成了“后台静默巡视（无事不报） + 异常即时推送”的双模式。每一步也都是在实际跑起来之后，发现问题、解决问题、再优化的过程。
这套方案虽然是从看娃看猫这个家居场景出发的，但底层的技术逻辑其实具备通用性。办公室无人值守监控、独居老人看护、工厂或仓库的安防巡检，只要有 IPC 摄像头 + 边缘算力 + 大模型推理能力，都可以用类似的架构来实现。技术栈上涉及了 YOLO 目标检测（轻量预筛）、本地多模态视觉模型（场景理解）、解决录制延迟的工程组件（ffmpeg），以及 OpenClaw 的 Skill 封装和飞书群消息推送等。
这篇试图说清楚：
萤石云 API 的对接踩坑与能力边界、从像素级帧差到 YOLO 语义检测的技术演进和实测数据、多模态大模型在端侧部署的性能权衡、"YOLO 预筛 → VLM 推理 → 一票否决"的级联架构、解决时效性盲区的投机式预录制、以及 OpenClaw Skill 封装和飞书交互的完整工程实现。
以下，enjoy:

全文内容的概览图
1
基础链路验证：和硬件 API 打交道的坑
实际动手之前，我先快速了解了下萤石云开放平台的 API 能力。有一说一，萤石云的文档在国产 IoT 厂商里算做得不错的，核心接口（Token 管理、设备列表、云台控制、抓拍、直播流地址获取）都有，而且走的是标准的 HTTPS + POST 模式，不需要逆向私有协议。相比之下，TP-LINK 这类品牌的摄像头到现在都没有公开的开发者 API，想接入只能走逆向抓包，稳定性和合规性都是问题。

https://open.ys7.com/cn/s/supportcenter
进一步，家里不同摄像头的能力差异也需要提前搞清楚。我放在客厅那台 CP1 是云台摄像头，支持预置点巡航和方向控制；阳台的 C2C 是固定机位，只有抓拍和直播流功能，没有云台。这意味着代码里必须做设备路由，其中涉及云台操作（preset/move、ptz/start）的指令只能发给 CP1，C2C 收到会直接报错。

https://open.ys7.com/console/application.html
API 能力搞清楚之后，我开始逐个跑通基础链路。这个过程踩了几个坑，问题都不大，但如果不解决好，对后续处理环节会有不小影响。
1.1
云台预置点：APP 上找不到入口
第一个坑是预置点怎么设。客厅面积虽然不是很大，但云台摄像头放在一个角落，单个角度没办法很好的覆盖全部区域。所以我计划设置至少两个预置点，让脚本控制摄像头在两个角度之间切换，才能完成整个客厅的巡视覆盖。但在萤石云 APP 里翻了好几遍，始终没有找到预置点的配置入口。
后来发现其实完全不需要在 APP 里操作。萤石云的 API 本身就支持云台方向控制（ptz/start、ptz/stop）和预置点保存（preset/add），所以我干脆写了一个终端交互式的调试脚本 preset_wizard.py。运行之后直接用键盘方向键控制摄像头转动，按 P 抓拍预览当前角度（图片会自动在 Mac 上弹出来），满意了按 S 保存为预置点。还支持切换"快速模式"和"精细模式"来控制转动幅度，整个体验像在用一个终端遥控器。

# 键盘方向键映射（终端原始模式下的 escape 序列）
KEY_MAP = {
    "\x1b[A": "up",     # ↑
    "\x1b[B": "down",   # ↓
    "\x1b[D": "left",   # ←
    "\x1b[C": "right",  # →
}

# 用户按方向键 → 调 API 转动云台 → 按 P 抓拍预览 → 按 S 保存预置点

BTW，这种先写一个小调试工具把硬件交互跑通，再做正式业务开发的做法，实测在涉及物理设备的项目里非常实用。调试时不用反复掏手机打开 APP 操作，所有控制都在终端里完成，效率高很多。
1.2
云台转到位之前就抓拍：一片模糊
第二个坑比较隐蔽。调用 preset/move 让云台转向预置点后，如果立刻调用抓拍接口，拿到的图片是一片模糊。毕竟云台的物理转动需要时间，还没停稳就拍了，拍出来整张图都是运动拖影，喂给后面的视觉模型分析纯属浪费算力。
不过这点没什么好办法，实测下来 preset_move 之后必须 sleep 4-6 秒等物理停稳。代码里我把这个等待时间抽成了环境变量 MOVE_WAIT，默认 4 秒，实际部署时可以根据摄像头型号微调。
1.3
抓拍频率限制：同一设备 4 秒内返回旧图
第三个坑是抓拍频率。萤石云的抓拍接口对同一设备有频率限制，两次抓拍间隔低于 4 秒的话，第二次返回的还是上一次的图片。这个在文档里没有写明，是测试时发现 URL 完全相同才反应过来的。
代码里的处理方式是在 capture() 函数内部做了节流：维护一个 _last_capture 字典记录每个设备的上次抓拍时间，调用时如果间隔不够就自动 sleep 补齐。

def capture(device_serial):
    last = _last_capture.get(device_serial, 0)
    elapsed = time.time() - last
    if elapsed < CAPTURE_INTERVAL:
        time.sleep(CAPTURE_INTERVAL - elapsed)
    data = api("/api/lapp/device/capture", {
        "deviceSerial": device_serial, "channelNo": 1
    })
    _last_capture[device_serial] = time.time()
    # ...

1.4
Token 7 天过期的解法
最后一个坑是最容易被忽略的，也是影响最大的。萤石云的 AccessToken 有效期只有 7 天，过期之后所有 API 调用会静默失败。不报错，只是返回一个错误码 10002 或 10014。如果不做处理，系统跑了一周之后会突然挂掉，而且看日志又没有 crash 的那种。

解法是在 API 调用的最底层做错误码嗅探和自动续期。每次调萤石云接口，如果返回码是 Token 过期相关的，就自动清空旧 Token、重新申请、用新 Token 重试原来的请求。整个过程对上层业务完全透明。

def api(endpoint, params):
    params["accessToken"] = get_token()
    r = requests.post(f"{EZVIZ_BASE}{endpoint}", data=params, timeout=15).json()
    if r.get("code") == "200":
        return r.get("data", {})
    # Token 过期 → 自动续期 → 重试
    if r.get("code") in ("10002", "10014"):
        global _token
        _token = None
        params["accessToken"] = get_token()
        r = requests.post(f"{EZVIZ_BASE}{endpoint}", data=params, timeout=15).json()
        if r.get("code") == "200":
            return r.get("data", {})
    return None

这部分的设计原则是，凡是有过期概念的凭证，必须在最底层做自动续期，而不是靠上层定时刷新。如果你在业务层写一个定时任务每 6 天刷一次 Token，看起来能用，但一旦定时任务漏跑或者服务重启了，Token 一样会过期。把续期逻辑放在 api() 函数里，等于给整个系统兜了底，不管什么时候调用、不管 Token 现在是什么状态，都能自愈。
1.5
小结
这个阶段的目标就是把整条基础链路跑通：Token 认证 → 双设备信息查询 → 云台预置点控制 → 抓拍 → 图片下载。没有什么特别的技巧，主要是跟硬件 API 的各种边界条件打交道。
2
视觉模型选型：从付费到免费
基础链路跑通之后，紧接着要解决的就是理解画面的问题。摄像头能抓拍了，但后续的功能，比如判断画面里是不是宝宝然后触发提醒，或者汇总一天的活动记录生成日报，都依赖一个多模态视觉模型来分析图片内容。选型上我先后测试了一个闭源 API 和开源本地部署两条路线。
2.1
闭源方案：OpenRouter + Gemini Flash
老规矩，先调闭源旗舰模型的 API 跑通整条链路。做 to B 项目养成的习惯——第一天永远先测天花板，而不是 baseline。确认效果上限在哪之后，再去想成本优化和本地替代方案。这次用的是 OpenRouter 调 google/gemini-3-flash-preview，响应 2-3 秒，结构化 JSON 返回很稳定，效果没问题。

但成本算下来不太行，两个小时测试过程中就消耗了 $0.632。其中，2 分钟调用一次的频率是综合测了几轮之后定下来的，太快了 API 吃不消，太慢了监控就聊胜于无。按这个频率算，一天 720 次调用，一天十几块，一个月几百块，就为了看看客厅有没有人。当然可以把频率调到半小时甚至一小时来省钱，但那样监控的实际意义就大打折扣了。所以按量付费模式在高频监控这个场景下，无论家居还是企业级，都不太划算。
另一个促使我考虑本地方案的因素是隐私。家庭监控的画面持续往云端发，这件事本身就反直觉。而且现在多模态的开源小模型已经足够强了，我的 OpenClaw 本身就部署在 Mac mini 上，16GB 统一内存跑一个小几 G 的视觉模型完全没压力。对于看看画面里有没有人、猫在干啥这种不要求极低容错率的场景，本地小模型的能力完全够用，确实没必要持续依赖云端。
2.2
本地 Ollama + MiniCPM-V
既然成本和隐私都指向本地部署，接下来就是选模型了。Qwen3-VL-8B 我在之前做工业质检项目的时候用过，Q4 量化版在 Mac 上跑起来整体效果还行。但这次想换一个试试。面壁智能的 MiniCPM-V 25 年 8 月份发布以来，在开源社区里讨论很多，号称是端侧视觉模型的小钢炮，8B 尺寸，在 Ollama 上量化后只有 5.5GB，而且据说是行业首个具备高刷视频理解能力的多模态模型。正好趁这个项目实测一下。

实测时用了几张真实的摄像头抓拍照片，涵盖客厅和阳台两个场景。MiniCPM-V 能很好的识别出地上散落的玩具、老人抱着孩子这类常见画面，也能判断阳台上有没有猫，返回的结构化 JSON 格式稳定，中文描述也比较自然。对于看看画面里大概有什么这个需求来说，完全够用。
性能数据也整体够用：
指标数值冷启动（首次加载进内存）~21 秒/张热推理（模型常驻内存）~5.5 秒/张模型体积5.5GB运行设备Mac mini M4, 16GB 统一内存
在 Apple Silicon 的统一内存上跑起来完全没有卡顿。而且由于 Cron 任务每 2 分钟触发一次，相当于持续给 Ollama 保活，模型一直常驻在内存里不会被卸载（Ollama 默认 5 分钟没有请求就会自动卸载模型释放内存，下次调用又变成冷启动），实际推理延迟稳定在 5.5 秒左右。
顺道提一个选型时踩过的坑。在测 MiniCPM-V 之前，我为了省内存先试过 Qwen3-VL 的 2B 版本，结果三张图全部返回空字符串，JSON 解析直接崩掉。翻了一圈 GitHub Issues 和 Reddit 才发现这不是个例。Qwen3 系列在 Ollama 上请求 format: json 时，输出内容会写进内部的 thinking 字段导致 API 返回为空；通过 Ollama API 发 base64 图片时也会偶发空返回；而且 2B 这个参数量面对复杂 JSON Schema + 中文 Prompt + 图片的三重约束，生成链路确实很容易崩。这些更多是小尺寸模型在工程管线中的不稳定性表现，模型标称"支持视觉"和在实际项目里真正跑通是两回事，选型一定要在真实场景中做端到端测试。
3
YOLO 预筛：从像素差到语义过滤
多模态模型选好了，但还有一个更前置的问题没解决。每 2 分钟抓一张图，每张都直接丢给 MiniCPM-V 跑一遍的话，5.5 秒一张，大部分时间画面里什么都没发生，纯属浪费算力。所以在 MiniCPM-V 之前，还需要有一个轻量的前置判断，也就是判断画面里到底有没有人或猫？有才值得唤醒 MiniCPM-V 做进一步分析。
3.1
像素差值法：最直觉的方案，也是最先崩的
最开始的思路很简单粗暴，直接用 OpenCV 做像素差值。先简单解释一下这个做法的原理，就是把两张图片都转成灰度图（每个像素只剩一个 0-255 的亮度值），然后逐像素做减法，得到一张差值图。差值图里亮的地方就是两张图不一样的区域，统计亮像素的占比就能得到一个变化率。拍一张空房间的基准照片，之后每次抓拍都和基准对比，像素变化超过 15%（拍脑袋定的）就认为有异动，唤醒多模态模型去进一步分析。

但简单测试了下发现，这个方案最直接的问题就是基线污染不可控。换句话说，如果拍基准照片的时候，角落里恰好放了个快递纸箱，或者婴儿车，那之后这个纸箱被拿走、婴儿车被推走后，当前画面和基准的差异会一直存在。系统就会不停唤醒 MiniCPM-V 去看一个空房间。
当然，有一种更好的思路是换成动态基线，也就是不跟固定基准图片比，而是每次拿当前帧（T）和上一帧（T-1）对比。听起来似乎合理，但实际还是不行，主要有两个问题：
误报：窗帘飘一下、电视画面切换、扫地机器人跑过去，都是大面积像素变化，全部触发告警;
漏报：如果宝宝在地垫上睡着了，两分钟内一动不动，T 和 T-1 的像素差为零。系统判定无变化，直接跳过，但实际这个场景也需要关注。
说白了，纯像素级的比对根本不理解画面内容，分不清窗帘在飘和有个人进来了。要解决这个问题，还是得从像素过滤升级到语义过滤。
3.2
引入 YOLO：0.03 秒判断有没有人
YOLO（You Only Look Once）是目标检测领域的标杆模型，它能在一次前向推理中同时完成目标定位和分类。不看像素变了多少，直接判断画面里有没有 person、有没有 cat。
可能不是所有盆友都只是 YOLO 是啥，这里再稍微介绍一下。YOLO 在工业视觉领域应用非常广泛，比如工厂产线上的缺陷检测、交通场景的车牌识别、安防领域的危险物品检测等。但那些场景通常需要针对特定目标做大量的图片标注和模型训练，门槛不低。
但我这个家居场景比较凑巧，YOLO 官方的预训练模型是基于 COCO 数据集（Common Objects in Context，微软发布的大规模目标检测基准数据集）训练的，开箱即用就能识别 80 个常见类别，包括 person、cat、dog、car、bicycle、chair、couch、tv、cell phone、backpack 等等日常物体。所以要识别的人和猫恰好就在这 80 类里面，完全不需要额外标注数据，拿来直接用就行。
所以，引入 YOLO 之后，预筛逻辑从“这张图和上张图有什么不同”变成了“这张图里有没有关心的对象”，这是一个本质性的升级。
还有个题外话，其实 YOLO 系列经过多年迭代已经有非常多版本和分支了，从最早的 YOLOv1 到现在最新的 YOLO26（2026 年初由 Ultralytics 发布，专门针对边缘设备优化），中间还有 YOLO11、YOLO12 等。这里不打算展开讲不同版本差异，我直接选了业界用得最多也最成熟的 YOLOv8 系列。YOLOv8 提供了从小到大的多种尺寸，体积从 6MB 到 130MB 不等。因为是本地跑，所以策略就是从最小的开始往上试，找到效果和体积的平衡点。
一开始为了追求极致速度，我用了最小的 YOLOv8n（Nano 版，6MB）。结果实测宝宝穿着白色连体衣缩在垫子上的时候，Nano 模型把他识别成了 teddy bear（泰迪熊），置信度只有 0.28。这是小模型压缩太狠导致的分类漂移，姿态稍微奇特一点就认错。

YOLOv8n识别效果
于是我做了一轮全系压测，在 Mac mini 上用同一张客厅复杂画面（宝宝和老人都在）跑了一遍：
模型体积推理耗时最高置信度漏报YOLOv8n (Nano)6MB~12ms0.28（误识别）有YOLOv8s (Small)21MB~36ms0.86无YOLOv8m (Medium)50MB~74ms0.89无YOLOv8l (Large)83MB~130ms0.90无

YOLOv8s识别效果
从 Small 到 Large，推理时间翻了近 4 倍，但置信度从 0.86 到 0.90 的提升在实际系统里毫无意义。只要超过 0.4 的阈值脚本就往下走，纠结 0.86 和 0.90 没有任何价值。最终选了 YOLOv8s，36 毫秒跑一次，甚至比人眨一下眼睛还快，并发看 4 路监控也毫无压力。
3.3
大小模型级联：YOLO 预筛 + VLM 精判
总结来说，YOLO 是先解决了“有没有”的问题，但它没有语言理解能力，你没法给它写 Prompt。它只能告诉你“画面里有个 person”，但分不清这个 person 是宝宝还是奶奶在扫地。所以最终的架构是两层级联：
第一层：YOLO 语义预筛（成本极低）。客厅摄像头的代码只认 person 标签，看到猫、扫地机器人一律忽略；阳台摄像头只认 cat 和 dog。这一层 36 毫秒就能完成，过滤掉 90% 以上的空画面。
第二层：MiniCPM-V 精细判断（成本较高但精准）。只有通过 YOLO 预筛的图片才会送到 MiniCPM-V。大模型能理解复杂指令，比如"画面里是宝宝在独自玩耍，还是有大人在旁边看着"。如果 MiniCPM-V 判断"这只是老人在扫地"，整条链路静默结束，不推送任何消息。
这套级联架构的核心思想是：用几乎零成本的小模型过滤掉绝大多数无效请求，只把真正需要理解的画面交给大模型。在实际运行中，YOLO 每天过滤掉大约 90% 的抓拍，大模型的实际调用次数从每天 720 次降到了 60-70 次，Mac mini 的负载也从持续高位变成了间歇性的低负荷。
4
抓拍即录：解决重要画面错过的问题
上面的大小模型级联架构在逻辑上已经跑通了：YOLO 预筛 → MiniCPM-V 判断 → 推送飞书群。但上线后很快发现一个诡异的问题。YOLO 明明检测到了人或猫，MiniCPM-V 也确认了，但发到飞书群里的 10 秒录像 GIF 里，人和猫要么只剩个背影，要么已经完全走出了画面。

4.1
先说为什么是 GIF 而不是视频
这里插一句，为什么最终选择发 GIF 而不是视频。最开始我确实是用 ffmpeg 录 10 秒 MP4，然后以文件链接的形式发到飞书群里。但飞书不认本地 file:// 协议。我人在公司用电脑打开飞书，根本打不开 Mac mini 上的本地路径。而且飞书机器人的 API 对直接发送视频文件有严格的大小和格式限制。
后来换了个思路，索性直接用 ffmpeg 把 10 秒视频压成动态 GIF（-vf fps=5,scale=480:-1 -c:v gif）。飞书原生支持 GIF 内联显示，在聊天窗口里自动循环播放，不用点击、不用下载，体验比发视频文件好太多了。
4.2
时间轴排查：T+8 秒的流水线延迟
回到正题，GIF 里看不到人，第一反应是录像时间太短或者摄像头角度有问题。但反复检查之后发现摄像头角度没问题，问题出在时间轴上。
为了方便理解，我把整条流水线按时间排一遍各位就清楚了：
第 0 秒：Cron 定时任务触发，调萤石云 API 抓拍一张静止照片。此刻宝宝正好在客厅中央。
第 0.5 秒：YOLO 跑完预筛（36ms），判定画面里有 person。
第 1~6 秒：图片送给 MiniCPM-V，大模型花 5.5 秒做推理分析。
第 7 秒：MiniCPM-V 返回结果，确认是宝宝。脚本这才开始启动 ffmpeg 拉直播流录像。
第 8~9 秒：ffmpeg 调萤石云 API 拿直播流地址（~1 秒），再建立 RTSP/HLS 连接握手（~1-2 秒）。
第 10 秒：ffmpeg 真正开始录制画面。
也就是说，从抓拍那一刻到 ffmpeg 真正开始录画面，已经过去了将近 10 秒。小朋友 10 秒钟不知道爬到哪里去了。所以 GIF 里看不到人或者猫是完全正常的，录的是事发 10 秒后的画面。
4.3
第一次改进：YOLO 判断有人就开始录
发现问题之后，第一个想法是不要等大模型出结论再录，而是把录制动作前置到 YOLO 预筛之后。YOLO 只要 36 毫秒就能判断有没有人，判断有人就立刻在后台拉起 ffmpeg 开始录，同时大模型并行做推理。如果大模型最后判定是误报（比如只是老人在扫地），就悄悄杀掉 ffmpeg 进程、删掉临时 GIF，不推送。
代码上就是用 subprocess.Popen 无阻塞启动 ffmpeg，大模型和录制并发执行。
但上线一测，GIF 里的画面还是有延迟。排查发现，虽然我在 YOLO 出结果后（约第 0.5 秒）就发起了录制命令，但 ffmpeg 内部还要走一遍“获取直播流地址 + 建立连接握手”的流程，这个过程又吃掉了 2-3 秒。实际开始录制画面的时刻是 T+3 秒甚至更晚，宝宝和猫还是有可能已经走出画面了。
4.4
终极方案：抓拍的同时就开始录
想明白之后其实很简单，不应该在任何判断之后才启动录制，而应该在抓拍照片的那一瞬间就同步启动 ffmpeg 建连。
新的时间轴变成了：
第 0 秒：Cron 触发，抓拍静止照片 ← 同时后台 ffmpeg 开始调 API 拿直播流地址、建连握手
第 0.5 秒：YOLO 预筛完成（36ms）第 1~2 秒：ffmpeg 完成握手，开始真正录制画面。此时画面和刚才抓拍的照片高度一致
第 1~6 秒：MiniCPM-V 在并行做推理
第 7 秒：大模型出结论。此时 GIF 已经录了 5~6 秒的关键画面
如果 YOLO 预筛判定画面里没有关心的目标（空房间），就立刻 terminate() 杀掉后台 ffmpeg 进程并删掉临时文件。投机成本就是一次 API 调用和几秒的 ffmpeg 进程占用，几乎可以忽略不计。
这个方案的核心思想是：“启动代价低 + 可随时杀掉”的投机式预录制，比“确认后再录”的保守策略好得多。本质上就是用极少量的 CPU 和网络成本，换取了画面的时效性。整个通知链路最终压缩到了约 8 秒（5.5 秒 AI 分析 + 2.5 秒飞书投递），GIF 里终于能看到完整的人和猫了。
5
Skill 封装与飞书群交互
技术链路全部跑通之后，最后一步是把这些零散的脚本和能力统一封装起来，接入 OpenClaw，让它真正变成一个日常可用的工具。
5.1
从测试脚本到 monitor.py
回顾整个开发过程，前面几章讲的每个环节，萤石云 API 对接、预置点调试、YOLO 预筛、MiniCPM-V 分析、ffmpeg 抓拍即录，在开发阶段其实都是独立的测试脚本。API 调试有 api_test.py，预置点有 preset_wizard.py，YOLO 压测有 yolo_bench.py，各跑各的。
最终我把所有能力收拢到了一个 600 多行的 monitor.py 文件里，它封装了整个端到端开发过程中积累的十几个测试脚本的核心逻辑，是整个系统的引擎：接收指令 → 控制摄像头 → 抓拍 → YOLO 预筛 → VLM 分析 → 生成 GIF → 输出结果。一个脚本完成全链路。
在 OpenClaw 的 Skill 体系里，一个 Skill 本质上就是一个 SKILL.md（描述这个 Skill 能做什么、怎么调用）加上实际的脚本文件。Agent 通过 SKILL.md 的描述来理解"用户说了这句话，应该调用哪个命令"。比如我在飞书群里说"帮我看看客厅现在什么情况"，Agent 就知道该调 monitor.py 的客厅巡视命令。
不过要澄清一点，搞了这一大套东西，核心价值不是让人在飞书群里手动输入指令去查摄像头，那还不如直接打开萤石云 APP 看实时画面来得快。真正有意义的是接下来要讲的定时任务：系统在后台自动巡视、自动判断、自动推送，人不需要做任何操作，有情况了它会主动来找你。
5.2
多摄像头路由：一个反直觉的坑
这里有个踩坑值得讲。家里两个摄像头职责不同，客厅的看宝宝，阳台的看猫。但一开始 SKILL.md 的描述写得太笼统，导致 Agent 经常搞错。比如我问“八月今天吃了几次饭”（八月是猫的名字），Agent 却去查客厅摄像头，然后回复"客厅里没有看到猫"。

解法很暴力但有效：在 SKILL.md 里用极其强烈的语气做路由绑定。客厅摄像头的描述写的是"专门看宝宝，千万不能用这个摄像头去找猫"，阳台摄像头写的是"专门看猫"。Agent 对这种强调语气的指令遵从度非常高，改了之后再也没路由错过。
5.3
定时任务实现自动化
封装好 Skill 之后，通过 OpenClaw 自带的 Cron 定时任务来实现自动化运行：
宝宝巡视（每 2 分钟）：客厅摄像头自动抓拍 → YOLO 预筛 → 有人才唤醒 VLM → 确认是宝宝就推送 GIF
猫咪巡视（每 2 分钟）：阳台摄像头同理，检测到猫就推送
家庭日报（每天 18:00）：汇总一天的巡视记录，生成一份合并版日报推送到群里
这几个场景的设计也是初步的测试，抛砖引玉。宝宝巡视主要是我和老婆不在家的时候，想知道她在客厅干什么、大致状态怎么样。系统检测到宝宝就会生成一段 GIF 发到群里，没事的时候点开看一眼就行，不用专门去翻监控回放。猫咪巡视主要是看它每天吃饭、喝水、上厕所的情况，阳台摄像头正好覆盖了猫的食盆和猫砂盆。

而每天 18:00 的家庭日报相当于一个整体汇总，今天宝宝在客厅出现了几次、大致在做什么，猫今天吃了几顿、活跃度怎么样，都会总结在一份日报里推过来。这样不用每天回家翻视频记录，扫一眼日报就对一天的情况有个大致了解。

5.4
静默协议和推送控制
还有一个细节问题是，巡视任务大部分时间画面里什么都没有，脚本不需要输出任何内容。但如果脚本什么都不输出，Agent 反而会脑补一句"一切安全~"发到群里。一天几百条一切安全，还不如不发。
解法是在脚本里定义了一个 [SILENT_SAFE_STATE] 协议——无事发生时输出这个特殊标记，在 Cron 的 message 里强制要求 Agent 看到这个标记就闭嘴，不要做任何回复。这样 99% 的时间群里是完全静默的，只有真正检测到目标才会推送一条 GIF。当然，前提要选择个好用的模型，指令遵循才靠谱。
另外还做了推送冷却，同一个事件（比如宝宝在客厅）1 小时内只推送一次，避免宝宝在客厅玩一下午，群里每 2 分钟来一条的轰炸。隐私方面也做了两个机制：在飞书群里说“别拍了”，脚本会调萤石云 API 让摄像头云台转向天花板，物理层面确保不拍到任何画面；晚上 6 点到早上 6 点家人都在家，脚本里的 _is_quiet_hour() 会自动跳过所有巡视任务，既不浪费算力，也不会半夜突然推个消息出来。
5.5
日常体验
整套系统稳定跑起来之后，日常体验大概是这样的：

飞书群（我 + 老婆 + openclaw机器人）
       ?
OpenClaw Gateway (Mac mini)
  ├── Skill: ezviz-monitor
  │   ├── Ollama (MiniCPM-V) ← 本地 VLM，零成本
  │   ├── YOLOv8s ← 语义预筛，36ms
  │   ├── 萤石云 API ← 摄像头控制 + 抓拍 + 直播流
  │   └── ffmpeg ← 10 秒 GIF 动图（抓拍即录）
  ├── Cron: baby-patrol (*/2) ← 客厅巡视
  ├── Cron: cat-snapshot (*/2) ← 阳台巡视
  └── Cron: daily-report (18:00) ← 家庭日报

绝大部分时间群里是完全静默的。宝宝进客厅了，来一段 10 秒 GIF，然后沉默 1 小时。猫去阳台干饭了，同样来一段 GIF，然后沉默。每晚 18:00 一份合并版的家庭日报，宝宝的巡视记录和猫的吃喝拉撒明细都在里面。当然，还可以随时在群里主动查询，实时调摄像头拍一张回来分析。
整套方案的运行成本忽略不计，API 费用￥0（本地 Ollama），硬件全是家里已有的（Mac mini + 两台萤石云摄像头），月度成本如果要算就是一点电费。
6
写在最后
6.1
从看娃到看工厂：这套思路能迁移到哪里
回头看整个项目，技术上其实没有用到什么前沿的东西。萤石云的开放 API、一个 8B 的开源视觉模型、一个 21MB 的 YOLO 目标检测模型、ffmpeg 录个 GIF。真正有价值的不是某个单点技术，而是这套"摄像头 + 小模型预筛 + 大模型精判 + 定时任务 + 消息推送"的组合模式。
这个模式的本质是：把"人盯屏幕"变成"AI 盯屏幕，人盯通知"。任何一个场景，只要满足"已经有摄像头"和"需要有人一直盯着"这两个条件，这套架构就能直接迁移过去。
举个我之前在一个技术播客里听到的案例。一家饺子连锁店，行业里判断饺子熟没熟的标准很简单，饺子浮到水面上来就可以捞了。下饺子的员工当然会盯着锅，但老板担心的是另一件事。忙的时候员工为了赶单，没等饺子全浮上来就提前捞了，夹生的饺子端上桌，差评就多了。靠人盯人不现实，老板不可能站在每口锅后面看。
后来的做法是在锅上方架了一个摄像头，部署一个端侧视觉模型。这里面工程上我具体了解了下，有些讲究。锅上方全是水蒸气和气泡，摄像头本身要防雾耐高温，图像预处理要做滤波降噪去掉气泡产生的虚假边缘；目标检测用的是轻量模型（YOLO 或 MobileNet 级别），训练阶段标注饺子在水中的三种状态——沉底、半浮、完全漂浮；而且不能只看单帧，还得结合"持续漂浮时间"来判定是否真正煮熟，避免翻滚时的误判。但对老板来说，模型最终回答的就是一个问题：“这锅饺子全浮上来了没有？”浮上来了就开始计时，到了标准时间就提醒员工捞。

这个案例和看娃项目的内核完全一致：把复杂问题降维成"是/否"判断，用最小的模型做最确定的事，后台用规则兜底，最后通过消息通道打通最后一公里。如果再套上 Agent + 定时任务的框架，老板就可以在钉钉群里问"今天几锅饺子超时了"，每天自动收到生产效率日报，多店还能统一汇报给区域经理。
类似的场景还有很多，家门口的访客/快递提醒、会议室占用检测、零售货架缺货巡检、工厂安全帽穿戴检查、危险区域入侵告警……底层逻辑都是一样的。
6.2
跳出这个项目聊几句工程方法论
这个项目虽然是从看娃看猫出发的，但文章最后还是想分享一个核心判断：大模型凭借泛化能力和推理能力，解锁了大量之前技术路线做不了的应用场景。但在真实世界的 AI 落地里，它只是拼图中的一块，甚至不一定是最重要的那一块。就拿这套看护系统来说，真正用到大模型的环节只有场景理解，承担最高频工作量的是 15 年就有的 YOLO，串联一切的是 ffmpeg、Cron、环境变量这些老古董。大模型的价值不是取代这些东西，而是和它们协同。
这个规律在其他项目里同样成立，我在之前介绍过的售前报价项目里，数据治理用到了聚类算法做相似度归组，结构化数据的编排靠的是规则引擎和经典 NLP，大模型只在最后一步做自然语言生成和复杂推理兜底。最近在聊的一个节能减排项目也是类似的结构，核心的能耗计算和异常检测是传统算法在做，大模型负责的是报告生成和人机交互。真正能交付的系统，往往是大模型、传统模型和经典算法各司其职的结果。
所以归根到底还是那句老话：以需求和场景为导向选择技术，不要拿着锤子找钉子。保持架构简单，每一层职责清晰，不迷信任何单一技术路线。能用 21MB 的 YOLO 解决的就不要动用 5.5GB 的视觉大模型，能用 Cron 兜住的逻辑就不要交给 Agent 去推理。
6.3
源码与课程
这个项目的完整源码我已经封装成了 OpenClaw Skill 压缩包——包含 SKILL.md（Skill 定义）、monitor.py（600 多行的核心脚本）、.env.example（密钥模板）以及配套的图文教程。如果你家里也有萤石云摄像头和一台 Mac mini，填好密钥解压到 Skills 目录下，10 分钟就能跑起来。用其他品牌摄像头的话改一下 API 层就能适配。

这套 Skill 的源码和完整教程已经放在了我的企业大模型应用从入门到进阶的视频课程和知识星球里。课程之除了 15 个完整企业级大模型应用落地案例拆解之外，后续会继续不定期更新些最新一些工具包作为附赠资源。知识星球相对比较适合在一线参与项目实践的盆友，有会员交流群，提供日常免费答疑，并会送书和这套视频课程。

课程链接：
书的链接：
做个预告：下篇文章，我会借鉴前 Tesla AI 总监 Andrew Karpathy 的 Autoresearch 开源项目思路，演示如何使用 Claude Code，在几千张钢铁缺陷数据集上全自动跑通 YOLO 算法的实验迭代。这个自主寻优不仅涵盖了高性价比的超参数调优，还将探讨如何让大模型深入干预 YOLO 的骨干网络结构，并尝试引入全新的注意力机制来突破检测精度的天花板。希望能以此抛砖引玉，和各位探讨更多 AI Agent 在真实工业场景下的硬核解法。欢迎蹲一蹲。《RAG落地之道：从工作流到企业级Agent》(韦东东)【摘要书评试读】- 京东图书做个预告：下篇文章，我会借鉴前 Tesla AI 总监 Andrew Karpathy 的 Autoresearch 开源项目思路，演示如何使用 Claude Code，在几千张钢铁缺陷数据集上全自动跑通 YOLO 算法的实验迭代。这个自主寻优不仅涵盖了高性价比的超参数调优，还将探讨如何让大模型深入干预 YOLO 的骨干网络结构，并尝试引入全新的注意力机制来突破检测精度的天花板。希望能以此抛砖引玉，和各位探讨更多 AI Agent 在真实工业场景下的硬核解法。欢迎蹲一蹲。

btw 欢迎选购我的书，全网热销中

我跑了openclaw 360个小时之后，才发现这玩意简直就是一个普通人搞钱的效率野路子啊，分享下我总结的3个最实用的openclaw进阶玩法。
以前我们用AI，都是一问一答式。
但Openclaw不一样。它可以帮你思考问题、整理信息，甚至直接操作按键动手执行任务，还能把所有过程和资料都帮你记录、归档、随时调用。
你不只是多了一个聊天机器人，而是多了一个能思考、能干活、还能记住一切的数字助理团队。只要流程能拆出来，基本都能交给它，你也不需要再监督AI来一步步完成，openclaw可以24小时直接帮你接管AI !这不妥妥的合作伙伴。

但很多人看到这里其实都会卡在同一个问题： OpenClaw到底怎么从0部署？自动化任务怎么真正跑起来？
因为这套东西如果没人带着搭，自己摸索其实特别耗时间。
我之前也是研究了很久都没跑通，后来无意中看了一个业内大佬免费做的AI编程 OpenClaw 实战公开课，才真正把整个流程理顺，
公开课有两天内容，day1从0到1手把手教你环境部署到AI自动化工作流的搭建，讲清楚2026年最值得搞的爆款行业工作流；day2直接教你从搭建变现体系到接商单项目的渠道，照着是真的能搞到钱！！
我自己照着搭了几个项目，半个月左右就接了几个自动化的小单子，前后赚了 5k+，舒服舒服~
如果你也想看看 openclaw到底能自动化到什么程度，普通人怎么把它跑成生产力工具，可以点下面这个免费入口看看，有完整的openclaw安装部署教程，公开课是免费的，别忘了添加老师领全套自动化项目笔记源码资料哦 ↓↓↓
超??openclaw直播课???AI工作流+AI副业+实操带练
￥0.00立即领取

" style="display: none;">
提醒下：现在链接还没失效，记得尽早领全套openclaw部署搭建智能体资料哈，包含有【openclaw实操项目案例】、【openclaw从入门到精通】，还有【商业项目接单渠道】，从部署搭建到商业变现都给你整理好啦，最关键是真的免费的！！老师是大大滴良心，强烈安利赶上今年的风口！

所以今天这篇，我就把自己研究出来的 3个普通人最实用、最容易落地的Openclaw进阶搞钱方向，这篇全部给你讲清楚。建议先点赞 + 收藏，不然过两天想找可能就翻不到了。
01 Openclaw + GPT/DeepSeek
那就是自动生成考试题库，这个玩法其实很多人不知道，但需求非常大。
医院、培训机构、医学生、规培考试、职称考试……全部都需要题库。
而传统做题库的方式是什么？老师一题一题出。又慢又累。
现在用 Openclaw + GPT / DeepSeek，整个流程可以自动跑，而且最关键的是，不需要你再一问一答式的问AI，还不需要你手动将内容复制到文档中！简直妥妥的解放双手。
下下面大佬做的网站，生成400多道医院题库，直接售价19.9r，都已下载了284次，而且这还只是一篇文档！网站上还弄有上千+个文档，这收益不敢想。

而要生成这个流程其实也不难.
第一步，搭建题库生成流程
我们先让 AI 生成题目结构。比如给它一个提示词，呼吸内科常见疾病、临床诊断、治疗方案、药物知识、病例分析。
然后让 AI 按这个结构生成题目。例如，单选题、多选题、判断题、病例分析题
AI一次就能生成几十道。
第二步，Openclaw自动化生成400道题
Openclaw最强的地方就是，自动循环执行任务。
你只需要让它，调用 GPT / DeepSeek，生成n+道题，保存，再继续生成，循环400/n次，400道题库就自动生成了。
而且还能自动整理格式，最后直接导出Excel、Word乃至于PDF格式，全部自动完成。
最后就可以直接变现啦，这种题库其实很好卖。
市场需求很多，一份售价19.9并不贵，
而你生成一套题库只需要，10来分钟！！

最关键是可以24小时不间断生成，不需要你亲自动手，只需要你把前期的准备搭建好。
这个玩法其实就是，AI批量生产知识产品。很多做题库的团队其实就是这么干了。
其实除了我刚刚提到的那些方向之外，还有 100 +个特别适合新手入门的细分赛道。比如说电商商品自动化上架工作流、还有美妆行业的批量出图等等。只要你把整套流程跑顺了，基本上就已经具备开始变现的能力了。
而我自己也是一步步跟着教程做，学完不到3个月，简历大项目写满，机械转行成功入职30k的AI编程的工作！浅浅高兴一下嘿嘿~

如果你也想搞明白 AI自动化到底怎么落地、怎么从0搭出自己的智能体项目，可以跟着完整的AI应用案例集来实操哦，资料都是大厂整理好的，还会实时更新，完全没有任何套路，大家直接拿去用就行~~
免费入口我放在下面了，感兴趣的可以自己去领一下 ↓↓↓
超??openclaw直播课???AI工作流+AI副业+实操带练
￥0.00立即领取

" style="display: none;">
另外提醒一下：添加老师之后别忘了去领福利，【全套行业工作流】、【openclaw从聊天到行动白皮书】、以及还有【openclaw完整教程】等等，这些质量贼高，还持续更新，不愧是大厂的质量杠杠滴，新人强烈建议人手白嫖一份！！

说实话，这个老师还是挺良心的。很多资料都已经帮你整理好了，你不用再到处找资料，也不用自己东拼西凑，直接按照给出的路径去跑流程就行了。
02 自媒体运营师批量出图
第二个方向我真的非常推荐，尤其是做自媒体接单的人。因为现在很多账号最大的问题就是，效率太低了！
每天要做选题、标题、封面、排版、文案以及发布，如果全部手动做，没有1个多钟都搞不定，效率真的很慢。
但用 Openclaw + AI 可以把整个流程自动化。

1）自动选题
先用 GPT抓取热点，像小红书热门话题、抖音热门关键词、知乎热榜这些都是可以的。
Openclaw可以自动抓取数据，然后丢给 GPT / DeepSeek来生成20个爆款选题。
比如，是不是就很有小红书内味了~
“普通人千万别做这3件事”
“我劝你一定要知道的5个秘密”
“90%的人都不知道这个技巧”
2）自动批量出封面图
这个地方是自媒体团队最喜欢的。
Openclaw可以自动调用，Midjourney、SD、即梦、Canva这些常规出图软件。
然后批量100张封面，完全不需要人工操作。
3）自动排版发布
还能自动直接把文案整理成，小红书格式、公众号格式、知乎格式，然后一键发布。甚至可以自动加，emoji分段、标题这些，效率直接翻倍。
这个方向想赚钱其实很简单。
你可以做自媒体自动化工作流。
卖给自媒体团队、工作室以至于用户，一套流程 500 – 3000r，定制的工作流还能卖到 5000+，很多公司其实最缺的就是效率工具。
这个方向是真的很稳！

03 Openclaw + 电商自动化上架商品
很多人做电商最大的痛点是，上架商品太麻烦。
而且每个商品的标题要改，图要做，描述也要改。如果你要上架 1000个商品。
基本要累死。
但用 Openclaw 之后，整个流程都可以自动化完成。
Openclaw可以自动抓取1688、Amazon、Shopify又或者拼多多的商品信息，包括图片描述、价格参数全部给你自动抓。

再拉取AI优化商品标题、生成商品详情比如商品卖点、使用场景、参数说明以及产品介绍这些信息。一条商品详情页不到一分钟就能生成。
最关键的是Openclaw可以自动操作后台，上传图片、填写标题、填写价格
以及设置库存，然后自动发布。
这就是妥妥的24小时免费劳动人操作吗？？
直接省去了这些费事重复性的工作，很多跨境卖家就是用这种方式，一天上架几百个商品，效率非常恐怖。
如果你也想做一个这样的自动化智能体，但还不知怎么开始，可以跟着下面这个高质量的openclaw资料入门哈，商业项目工作流可以跟着做哒。
大厂品质友友们可以放心食用~
资料入口我放下面了，想要的同学添加老师可以直接领哈 ↓↓↓
超??openclaw直播课???AI工作流+AI副业+实操带练
￥0.00立即领取

" style="display: none;">
新手也能看懂，内容写得很详细，我替大家试过了挺不错的才推荐大家的！

最后
很多人现在一听到 AI 课就会觉得，好复杂还要听课。
但实际上，
你们学任何一个新知识，不都是靠听课看视频、听老师讲而来的吗？
我可以认真的说真正赚钱的 AI大编程项目都很简单。
核心只有一件事，那就是提高效率。
谁能用 AI 把一件事情，做得更快、做得更多、做得更便宜，谁就能赚钱。
而 Openclaw 的价值就在这里，它不是单纯的 AI。
而是，AI自动化执行工具。
如果你能把一个行业流程拆出来，然后交给 Openclaw 跑。
基本就等于，拥有了一台自动赚钱机器。
如果这篇对你有帮助，记得点个赞 + 收藏。后面我还会继续分享更多搞钱的玩法哈。
感兴趣的可以蹲一波～

送礼物
还没有人送礼物，鼓励一下作者吧

有个美国人把 OpenClaw 装进 MacBook，配上一套专门为屋顶承包商定制的 Skills，接好 HubSpot CRM，加上行业专属的 SOUL.md，然后直接寄给客户。
插电，AI 员工上班。
收费 5000 美元一台，后续 weekly 支持。
虽然Macbook对企业落地明显是不行的（后面我会介绍更专业的设备）
但这个项目——叫 RoofClaw——总收入已经超过 180 万美元，服务了 360 多家屋顶承包商。
算一笔账：全球 AI Agent 市场 2025 年 76 亿美元，年复合增长率 49.6%，2033 年预计到 1830 亿美元。全球跨境电商市场今年突破 4 万亿美元，中国出口电商逼近 3 万亿人民币。
这两个万亿级市场的交叉地带——用 AI Agent 帮跨境电商公司干活这件事，保守估计是一个千亿级的服务市场。
而现在，这个市场几乎没人系统在做。
人最终会变成 AI 的燃料
我在上周的 NGS AI跨境电商大会上说过这句话。
听着刺耳，但这就是我们团队现在的真实状态：
??
全员从微信迁移到飞书，飞书里接入 OpenClaw。所有工作对话，AI 在旁边同步，沉淀成知识，转成 Skills，下次直接调用。这个循环跑起来之后，组织里每一次对话都在给 AI 喂燃料，让它越来越懂这个行业、懂这家公司、懂每一个具体的业务场景。

周日我还办了一场 OpenClaw 跨境电商闭门会，来的都是真在跑业务的人。
但我发现一件事——大家对 OpenClaw 在企业管理端的想象力，明显比业务端弱。
其实跨境公司的管理问题一点不比业务小：员工流失、知识断层、数据滞后、达人管理混乱，每一件都能搞垮一个正在增长的公司。
下面就把我们团队真实在跑的几个场景拆开讲，看看这千亿市场到底要怎么做？

01 沉淀群聊内容为知识库，再转成Skills
公司最贵的隐性成本不是广告费，是人员流动造成的知识损耗。
一个做了两年的运营离职，他知道的平台规则、踩过的坑、和供应商的默契，全带走了。
下一个人从零开始，再踩一遍。这个循环每年都在重复。
我们现在的做法就是前面说那样，如果你也想配置的话，老实说，一点门槛没有。
我都是直接跟Claude沟通的

提示词：

我想用 OpenClaw 搭建一套团队知识自动沉淀系统。

当前状况：
- 团队在飞书群里沟通日常业务
- 核心知识散落在聊天记录里，没有系统整理
- 员工离职后知识断层严重

我的诉求：
1. OpenClaw 接入飞书群，实时监听业务讨论
2. 自动识别有价值的业务经验、踩坑记录、操作规范
3. 整理后写入 AGENTS.md 对应章节（按业务模块分类）
4. 每周五自动输出一份「本周知识沉淀周报」到飞书群

请帮我设计：
1. SOUL.md 中关于知识沉淀的角色定义
2. AGENTS.md 的知识分类结构（覆盖我以下业务模块：[选品/运营/广告/供应链/达人管理]）
3. HEARTBEAT.md 的知识巡检逻辑（每小时检查一次新消息，有价值内容才处理，没有则 HEARTBEAT_OK）
4. 每周五知识周报的 Cron 配置（isolated session + announce 到飞书群）

02 让 AI 来调度企业现有的自动化工具
很多跨境公司已经有一套在跑的自动化流程：n8n 工作流、各种 RPA、定制脚本。
这些东西干活很稳，但彼此之间是孤岛。A 跑完了要不要触发 B，全靠人来盯。
OpenClaw 最适合做的就是这层调度大脑。

我在线下大会的观点
原理是这样的：
??
OpenClaw Gateway 原生支持 Webhook 接收。在 openclaw.json 的 hooks 里开启 webhook，设好 token，n8n 工作流跑完一个任务，结果通过 HTTP POST 推到 OpenClaw 的 /hooks/agent 端点。OpenClaw 收到后启动一个 isolated session 的 agent turn，判断下一步是继续推进还是需要人工介入，异常的时候生成处理建议并推送到飞书群。
不是替换现有工具，是在上面加了一层会思考的调度层。
参考配置方案：
第一步，在 openclaw.json 里开启 Webhook：

{
  "hooks":{
    "enabled":true,
    "token":"你的安全密钥",
    "path":"/hooks",
    "defaultSessionKey":"hook:n8n-dispatch",
    "allowRequestSessionKey":true,
    "allowedSessionKeyPrefixes":["hook:"]
}
}

第二步，n8n 工作流末尾加一个 HTTP Request 节点，POST 到 OpenClaw：

POST http://你的服务器IP:18789/hooks/agent
Header: x-openclaw-token: 你的安全密钥
Body:
{
  "message": "n8n 工作流 [广告数据拉取] 执行完毕。结果：ROAS 1.8，花费 ￥3200。请判断是否异常并决定下一步。",
  "name": "n8n-广告监控",
  "sessionKey": "hook:n8n-ads",
  "deliver": true,
  "channel": "feishu",
  "to": "飞书群ID"
}

第三步，在 AGENTS.md 里写入调度判断逻辑：

## n8n 工作流调度规则

当你收到 n8n webhook 回调时：
1. 解析工作流名称和执行结果
2. 对照以下阈值判断是否异常：
   - 广告 ROAS 低于 [你的阈值]：异常，立刻通知
   - 库存低于 [X] 天销量：异常，立刻通知
   - 工作流执行失败：异常，立刻通知并附失败原因
3. 正常情况：不输出任何内容，静默处理
4. 异常情况：推送到飞书群，格式为「?? [工作流名称] 异常：[具体问题] → 建议：[处理方案]」
5. 工作流依赖关系：[工作流B] 正常完成后，自动触发 [工作流C]（通过 curl 调用 n8n 的 webhook URL）

03 业务 SOP 沉淀成 Skills，才是真正的护城河
这件事我前天发过文章教怎么把跨境电商的业务SOP转成OpenClaw的Skill
这里就不赘述，核心在于让Openclaw来反问，把业务SOP梳理清楚。

04 让老板回归「做重要决策」这件事
这是我见过最多跨境老板踩的坑：每天花一个小时看各种后台数据，看完也没做什么决策。
数据本身没有价值，数据驱动的决策才有价值。
我们团队跑了一个永不下班的决策助理。
设计逻辑：
??
连接亚马逊广告 API、独立站 GA4、飞书多维表，每小时拉数据判断异常。ROAS 低于阈值、退款率超标、库存不足 7 天销量——才推送。其他时候沉默。每天早 9 点一份当日简报，已经带结论和建议动作，不需要老板自己算。
除了业务数据，这个 Agent 还能接收团队成员的日报周报，自动提炼关键进展和卡点，老板打开飞书看到的不是一堆文字，而是一份结构化的「需要你关注的事」清单。
老板真正需要的只有一个信息：现在哪件事需要我做决定。
配置方案：
第一步，配置数据巡检的 Cron 任务。用 isolated session，正常时不产生输出：

openclaw cron add \
  --name "data-patrol" \
  --cron "0 * * * *" \
  --session isolated \
  --message "执行数据巡检。读取 AGENTS.md 中的异常阈值规则，调用对应 API 拉取最新数据，逐项判断。如果全部正常，只回复 HEARTBEAT_OK，不要输出其他任何内容。如果有异常，输出格式：?? [指标名] 异常：当前值 [X]，阈值 [Y] → 建议：[处理方案]。" \
  --announce

第二步，在 AGENTS.md 里定义异常阈值：

## 数据异常阈值（根据自身业务填写）

- 广告 ROAS 低于 [X]
- 单日广告花费超过 [X] 元且 ROAS 未达标
- 退款率超过 [X%]
- 某 SKU 库存低于 [X] 天销量
- 独立站跳出率突增 [X%] 以上
- 新品上线 [X] 天内零转化

## 数据源配置

- 亚马逊广告 API：通过 Skill [amazon-ads] 调用
- GA4：通过 Skill [ga4-report] 调用
- 飞书多维表（库存/销售数据）：表格 URL [填入]

## 推送规则

- 正常不通知，异常立刻推送到飞书群 [群名]
- 紧急事项同时私信老板飞书

05 多 Agent 协作：不要一上来就搞五个 Agent
这是我最想纠正的一个误区。
我之前写过一篇文章：用OpenClaw搭跨境电商团队：5个AI员工，跑通全平台矩阵！
但很多人看了多 Agent 的教程，第一反应就是搞五六个 Agent，一个管选品、一个管广告、一个管内容、一个管达人……然后发现整个系统根本跑不起来。
问题出在哪？
第一，没有队形。五个 Agent 各干各的，谁也不知道队友在做什么，该交接的不交接，该汇报的不汇报。
第二，活派出去收不回来。OpenClaw 的 sessions_send 有个隐藏限制：等下游回复的超时只有 30 秒，超了就丢了，上游 Agent 以为对方没干活。
第三，配置项太多容易漏。每个 Agent 要单独建 workspace、绑 IM 账号、开 A2A 权限、设 Session 可见性，少一项整条链路就是废的。
正确的做法是分阶段来。
阶段一：一个主 Agent + SubAgent 模式
不需要多个独立 Agent。用一个主 Agent，复杂任务通过 sessions_spawn 派给 SubAgent 在后台跑，跑完结果自动回传。这个模式配置最简单，90% 的场景够用。
阶段二：需要多人同时对话时，上多 Agent
当你的团队里多个人需要同时跟不同的 Agent 对话（比如运营找运营助手、老板找决策助手），这时候才需要真正的多 Agent 路由。
关键配置三件事：
1. 工作区物理隔离：每个 Agent 必须有独立的 workspace，用 openclaw agents add 命令创建，不要手动建目录。2. A2A 通信白名单：在 openclaw.json 里显式开启 agentToAgent，
{
"tools": {
"agentToAgent": {
"enabled": true,
"allow": ["lead", "ops-assistant", "ads-assistant"]
}
}
}
## 协作准则
### 委派任务后
- 收到 sessions_send 返回 { status: "accepted" } 后，如果不依赖结果，继续做下一件事
- 如果必须等结果，告知用户「已委派给 @[队友ID]，等待结果」，然后结束当前轮次
- 队友完成后会通过 sessions_send 回传唤醒你
### 接到任务后
1. 立刻在群里用 message 工具通知用户已接手（消息开头 @上游AgentID）
2. 执行任务
3. 完成后先在群里汇报结果（同样 @上游AgentID）
4. 同时必须调用 sessions_send 将结果发回给委派者，唤醒对方继续工作
3. 双重汇报协议：在每个 Agent 的 SOUL.md 里写入协作准则，解决超时问题：并设置允许通信的 Agent 列表：
企业落地的最后一公里是设备
很多人找我问设备，这件事不能随便答
个人用户随便玩，Mac Mini 或者一台性能稍好的 PC，跑云端模型 API，完全够了。
但企业就不一样了。最近找我推荐设备的主要是两类场景，我说清楚逻辑，自己对号入座。

第一类：数据不能出门的企业。
很多跨境公司处理的内容包含客服对话、员工沟通、供应商报价、广告数据。这些东西如果全走云端 API，数据就在别人的服务器上跑了。一旦涉及竞争情报、价格策略、KOL 资源这类核心资产，云端方案会让老板很不安。
新闻已经在警告不要在工作设备上安装 OpenClaw，理由是安全风险。私人企业虽然没有这个强制要求，但数据主权的问题真实存在。
这类场景，本地部署模型是唯一干净的解法。

图自网络
可以看下行云褐蚁的 HY50 ，是这个需求里性价比最高的入门方案。500GB 大容量内存，跑 Qwen3 235B Q4 这类 MoE 大模型没有问题，30 路并发足够覆盖一个中小团队的日常 AI 调用，HEYI 自研推理引擎把 CPU 内存带宽发挥到极致，整体预算在十万元级别。
适合：20 人以下的跨境团队，核心诉求是数据不出门、本地跑通 OpenClaw 的完整工作流。
第二类：团队并发量大，多人同时在用 Agent 的企业。
一台机器同时跑 20 个员工的 OpenClaw 请求，每个 Agent 会话又在调用子 Agent，上下文动辄几万 token，对内存带宽和并发能力的要求完全不是普通设备能撑的。

图自网络
可以看下 HY NV4-6000 ，四块 NVIDIA RTX 6000 Pro，384GB 四路显存，128 路并发实测，32 路日常办公人均上下文 192K。这个配置的核心价值是：公司所有 Agent 工作流共享一套私有算力，数据主权完全自控，金融、法务、合规等对数据安全有强要求的环节可以直接跑。
适合：50 人以上的跨境企业，多个部门同时使用 OpenClaw，需要统一的私有 AI 基础设施。

图自网络
如果是公司级 AI 中台，要撑全域 Agent 高频并发、大规模自动化业务流，就要上 HY NV8-6000 了：768GB 满血显存，支持 Qwen3.5、GLM 4.7等旗舰模型的原生推理，零量化损耗，总吞吐 2000+ tokens/s。这个配置就不是一个部门的需求了，是整家公司的 AI 算力底座。
给企业定制OpenClaw，这件事有没有搞头？
上面几个场景，有一个共同的前提：需要有人把它们配好。
目前在这件事上最赚钱的模式，不是自己用 OpenClaw 去做事，而是帮别人配好 OpenClaw 然后交付，国内已经有服务商单次服务费已经到数万元人民币。
这个模式的逻辑其实很简单。跨境公司老板知道自己需要 AI，但不知道具体要配什么、怎么配、配好之后维护谁来负责。这个信息不对称，就是服务价值所在。
??
交付物是一套可以开箱即用的 OpenClaw 配置：SOUL.md 写成符合这家公司文化的人设，核心业务 SOP 转成 Skills 集合，飞书和 n8n 的接口接好，Cron 任务配置完毕，直接部署在 HEYI 硬件上寄给客户，或者上门部署。
插电，AI 员工上班。
海外跨境电商定制服务的市场价格在 500-2000 美元每个项目，企业级定制正在成为 OpenClaw 生态里增长最快的收入来源。而国内市场在这个垂直方向上几乎还是空白。
跨境电商这个圈子，懂业务逻辑的人很多，懂 OpenClaw 配置的人还很少，两者都懂的人几乎没有。
这是一个真实的时间窗口。

昨天下午，我的AI助理给我发了一条消息，我还在午睡。迷迷糊糊点开飞书，看到一条消息： “德老师，刚监测到突发新闻，美国以色列攻打伊朗，我整理了要点，您要看吗？” 发消息的不是人类——是我的AI助理德小M。
它知道我在做AI自媒体，知道我要第一时间追踪行业动态和国际新闻，所以无论什么时候，它都在工作。不需要我设定提醒，它自己判断、自己执行，觉得重要就推给我。这不是科幻电影。这是我现在每天的真实生活。
而这一切，都源于一个叫 OpenClaw 的开源AI产品。
一、传统AI vs AI Agent：一字之差，天壤之别
很多人问我：”ChatGPT不也能回答问题吗？你用OpenClaw有什么区别？”

传统AI vs AI Agent对比：
工作方式：一问一答，被动响应 → 主动监测，自动执行记忆能力：对话结束即遗忘 → 长期记忆，越用越懂你任务处理：单轮简单任务 → 复杂多步骤任务流协作能力：一个人用 → 多Agent团队协作定制化：通用模板 → 专属人格+专属技能简单说：传统AI是”工具”，AI Agent是”数字员工”。你叫工具，它才动；但数字员工，它会主动思考、主动执行，甚至在你睡着的时候帮你干活。二、我的数字团队：德小M、德小K、德小C

用OpenClaw，我”捏”了三个AI助理，组成我的「龙虾自学小组」：
?? 德小M — 情报员+总协调
每天早上9:00，自动扫描 Instagram、TikTok、Pinterest、Twitter 四个平台的AI热点整理成热点简报，推送到飞书群每天18:00执行全组复盘，汇总产出情况追踪内容数据表现，发现异常立即提醒
?? 德小K — 内容执行者
拆解爆款文章，分析结构、钩子、节奏推进漫剧制作，管理制作进度记录工作流，优化SOP
?? 德小C — 参谋官
监控竞品动态，每天产出竞品日报提供选题建议，评估可行性维护AI工具库，持续更新三个人互相协作、互相监督。而我，只需要在关键节点做决策。
上周的真实效果：
德小M发现B站AI短片《牌子》播放量破1000万，立刻提炼出”AI视频赛道全面爆发”的选题机会德小K当天完成了相关文章的初稿框架和三个备选标题德小C补充了竞品账号的数据对比，让选题判断更有依据原来这条链路需要我一个人花一天时间。现在，我只需要做最后的决策和润色。三、德小M的一天：AI Agent是怎么工作的

09:00 自动扫描四平台热点，整理简报，推送飞书群10:00 分析当日热点，判断哪些值得写、哪些可以等14:00 检查德小K的内容进度，必要时发出督促提醒16:00 更新工具库，记录当日新发现的AI工具和动态18:00 全组复盘，汇总当日三人产出，写入日志文件24:00 监测到重大行业动态，判断重要性，决定是否立即通知德老师这不是我设定的闹钟提醒——而是德小M根据我的习惯、我的需求，自己判断、自己执行的。四、从”独自苦干”到”AI工作流”——差距已经在拉开
那些现在还在手动刷热点、手动整理数据、手动回复常见问题的创作者，和已经把这些交给AI的人，一年后会站在非常不同的位置上。这不是危言耸听，这是正在发生的事实。
身边开始用多AI协作系统的博主，内容发布频率和选题决策速度提升好几倍。因为他们不再需要花80%的时间在信息收集和基础整理上了。
五、普通人该怎么开始？
你可能会问：”我没有技术背景，能用OpenClaw吗？”

答案是：可以。而且比你想象中简单。
第一步：明确你的高频重复任务每天查热点？
每天整理竞品信息？每天做内容选题？
这些，都是AI Agent可以接手的。
第二步：给Agent设定人格和使命在OpenClaw里，你只需要写一段”人设描述”——名字、性格、核心职责。就像我给德小M写的： “你是我的情报员和总协调，每天追踪四个平台的AI热点，推送简报，统筹小组进度。”
第三步：接入你的工作平台 OpenClaw原生支持飞书、钉钉、Discord等主流协作平台。
你的Agent可以”活”在你的工作群里，像真正的同事一样协作——不只是问答机器人，而是能主动推送、主动提醒、主动汇报的数字同事。
第四步：让你的过程本身变成内容你搭建AI工作流的过程，就是最好的自媒体素材。你踩的坑、你摸出的路，记录下来就是差异化内容。现在做AI工具实践类内容的账号，粉丝增速普遍高于其他垂类。
写在最后。
有人说，AI会取代人类的工作。我的看法是：AI不会取代人，但会用AI的人会取代不会用的人。 OpenClaw让我从繁琐的执行工作中解放出来，把精力聚焦在创意和决策上。我有三个7×24小时在线的数字员工——他们不会累、不会忘、不会抱怨。凌晨两点监测到行业动态，会主动来问我要不要看。而我，只需要做那个”指挥家”。如果你也想拥有属于自己的AI团队，不妨去搜索 OpenClaw，或者关注我，我会持续分享我们龙虾自学小组的真实实践经验。
记住：这个时代，最稀缺的不是努力，而是认知。当你还在手动处理重复工作时，你的竞争对手可能已经有了24小时在线的AI助理。窗口期不会一直开着。
（以上文字为我的数字员工三个OpenClaw合力写作完成，最后整理汇总及配图的是MiniMax Agent，我进行最后审核润色修改)

[收藏本文] 【下载本文】

科技最新文章

为什么英伟达不将业务迁至中国，以规避美国

如何看待伊朗系统性引入“北斗导航卫星系统

OpenClaw到底能做什么呢？

北京 5 月 1 日起禁飞禁售无人机，大疆全线

湖南经视启用 AI 主播播新闻，这会成为一种

为什么你卸载了小红书？

微信有多傻逼？

为什么吹的神乎其神的波士顿动力机器人销声

OpenAI 称 GPT-5.5 中「哥布林」泛滥是奖励

现在的电脑能不能一秒算出2的64次方？

加:2026-05-04 17:15:47 更:2026-05-04 17:16:48

娱乐生活: 电影票房娱乐圈娱乐弱智火研中华城市印度仙家六爻佛门风水古钱币交流专用钓鱼双色球航空母舰网球乒乓球中国女排足球 nba 中超跑步象棋体操戒色上海男科 80后
足球: 曼城利物浦队托特纳姆热刺皇家马德里尤文图斯罗马拉齐奥米兰里昂巴黎圣日尔曼曼联

网站联系: qq:121756557 email:121756557@qq.com 知识库