96SEO 2026-04-26 18:34 1
大家好,我是袋鼠帝。Zui近我一直在琢磨一个事儿:虽然我在我的MacMini上部署了“龙虾”,但我在日常生活里使唤它的频率还是不够高。原因hen简单,虽然Yi经接入了各种IM,但是入口还是麻烦。我特别需要随时随douNeng跟它交流、给它派活,Zui好是类似小爱同学的语音唤起,口喷需求,彻底解放双手,这样我的龙虾才Nenggeng快速进化。

说白了这个工具的第一阶段目标hen简单:打造一个带眼睛的龙虾对讲机。
既然没有,那我就自己Zuo一个!
没想到,折腾了2天还真给我Zuo成了!目前这个 MobileClaw App 我Yi经开源了感兴趣,想玩的朋友Ke以自取~github.com/kangarookin…
一、为什么是手机和语音视觉唤醒?因为手机是我们每天触达率Zui高的硬件。当我们把 AI 从冰冷的服务器终端解放出来装进我们每天随身携带的手机里再赋予它眼睛、耳朵、嘴巴,随时随地唤醒。我觉得这才是 Agent 真正走向个人普及的必经之路。
目前市面上大部分的龙虾dou是通过打字去交互,即便Neng语音,那也需要用手按住说话。Ru果你想彻底解放双手,像唤起Siri一样随时呼叫龙虾干活,还Neng给龙虾打视频,那么这篇文章一定不要错过~
它有点像豆包,但跟豆包有两个本质的差异:第一,MobileClaw 接入的是我本地的龙虾,功NengKe以高度定制化,还Ke以切换任意模型使用。第二,它不仅Nengkan到摄像头的内容,还支持语音实时唤醒。我Ke以像叫 Siri 一样随时随地使唤它。
甚至用MobileClaw App,还Neng直接开摄像头提问,贼方便。这种多模态的实时交互体验,太科幻了。就有点像钢铁侠里面的贾维斯一样。
二、模型选择:智谱GLM-5V-Turbo的惊艳表现龙虾模型选哪个呢?目前要兼顾顶级的代码Neng力、Agent 执行Neng力,同时还必须支持强大的多模态视觉识别,国内原本Neng打的是前不久刚出的豆包2.0和 Kimi-K2.但我发现,智谱Zui近geng新了一个模型,而且是专门针对龙虾和多模态编程环境深度训练过的专用基座模型:GLM-5V-Turbo。
终于,智谱Q的旗舰模型带视觉Neng力啦!!我kan了一下它的参数和性Neng跑分,这玩意儿有点猛啊。而且在逻辑推理和工具调用上稳如老狗,而且从预训练阶段就深度融合了视觉Neng力,真正Zuo到了kan得懂画面、写得好代码、控得了龙虾。
而且我发现glm-5v-turbo真的成为了我的龙虾首选模型:过去的国产大模型往往有些偏科,代码厉害的kan不懂图,kan图厉害的代码又不太行。智谱在 5V 上确实把这两点平衡得非常好,这让它在视觉编程和一些视觉拓展的玩法上,Neng带来特别多新鲜有趣的体验。
文章开头大家kan到的那个丝滑的多模态交互效果,背后就是靠接入的GLM-5V-Turbo的龙虾完成的。不得不说确实有东西。
三、开发实录:踩坑与AI辅助的奇妙化学反应整个开发流程我使用的是接入 GLM-5V-Turbo 的 Claude Code。这里我用到的是cc-switch来帮我一键切换模型。
还是老方法,我大致整理了一下我的核心需求,然后给 cc 开启了 Plan 模式,把需求一股脑甩了过去。cc 上网查阅了大量的移动端开发文档后给我列出了一个非常详细的跨平台开发方案和架构计划。
不过这次开发MobileClaw,代码本身并不是耗时Zui久的,坑Zui多的是环境配置。在解决了一堆环境、网络、配置的破事,以及真机调试发现的部分Bug后我的需求终于落地了。
1. 环境配置的血泪史总之在编译和真机调试这个问题上,我耗费了大量的时间。比如 怎么把写好的代码顺利编译进 iPhone 真机里去调试?glm-5v-turbo给我的建议是使用xcode,但是我的Mac有点旧版本不支持Zui新的xcode,它又帮我去找适配的旧版本xcode安装。
还有苹果那个让人头疼的开发者账号,我一开始使用的是国区的AppId,跟我说没有开发者资格?…没法跟xcode连接。本来我想交 99 美元的开发者账号年费,它死活就是不给我消费…服了。后面换成了我的美区AppId才成功。
遇到 Xcode 里那些极其反人类的配置界面、不知所云的弹窗报错。我只需要截个图,ctrl + v 直接丢进cc的对话框里 glm-5v-turbo,就Neng准确识别并解决问题。它kan到画面后会直接教我怎么操作xcode。真的是一图胜千言~
2. Task-Harness的强力加持然后前期开发流程的主角登场了也就是我之前开源的skill: Task-Harness。clawhub.ai/kangarookin…
在 Harness Engineering 这个概念还没真正火起来的时候,我就Yi经把它开源了。专门用来解决 AI 执行长任务时容易跑偏或者遗忘上下文的问题。
Task-Harness Skill有两个优点:一个是Ke以在获得授权后自动帮我在 GitHub 创建仓库并初始化环境;另一个是Neng把庞大的长任务拆分成无数个极小的独立任务,并使用 JSON 文件来精准管理任务进度。
每完成一个小任务,它会自己跑测试验证,验证成功后自动小交Git。让龙虾当监工,监督CC干活儿。整个开发流程一清二楚。
3. UI界面的视觉重构其实一开始,这 App 长得特别狂野,纯纯的程序员直男审美。后来经过 GLM-5V-Turbo 的两轮视觉重构和样式调整,页面才逐渐变得美观起来。
由于是 Coding Plan 的Max会员,又是个小破博主,所以我幸运的提前拿到了内测资格。Zui终,在glm-5v-turbo的手把手视觉指导下我终于是成功把 MobileClaw 安装到了我的手机上。
四、架构揭秘与多模态流转逻辑给大家简单拆解一下这个 App 的工作原理。App跟openclaw的交互是通过websocket连接。
这里还有一个坑需要注意:我的龙虾和CC 开发的代码dou是在我本地电脑上跑的,在开发阶段它们通过本地地址就Neng顺利通信。但当 MobileClaw 安装到手机里时它们变成了局域网通信。这时候需要去检查防火墙,并开通双方的网络访问权限,否则连不上。
1. 语音唤醒与意图识别语音这块,我接入的是豆包的 ASR和 TTS接口,响应极快。
然后有唤醒词匹配逻辑,比如唤醒词设置"龙虾",只有我说:"龙虾,帮我xxxx",它才会把任务发送给OpenClaw。就跟用Siri,用小爱同学的方式一样。
比如这种随时待命的语音唤醒。语音唤醒发任务,不仅Neng避免误触,还Neng彻底解放双手:不管我是在敲键盘写文章、打 LOL、还是在厨房洗碗,只要我突然冒出一个需求,随时随地吼一嗓子:龙虾,帮我查一下今天的AI热点资讯,它就Neng直接在后台开干。
Ru果用户的指令只是一句帮我设个闹钟,意图小规模判断不需要视觉辅助,就不传图片,直接释放掉内存里的那些关键帧。这种按需调用的机制,Ke以极大节省带宽和算力成本。
2. 视觉流处理视频这块的逻辑,我是这么设计的:从用户说出唤醒词开始,到语音指令结束,系统会在后台获取这段时间中的视频流。
而且光有耳朵和嘴巴还不够,必须得给龙虾加上眼睛。当我的龙虾具备识别当前物理世界环境的Neng力后我跟它的沟通会geng加方便,它也会geng加了解我的所处环境,进而geng懂我。
但我不是把每一帧画面dou传给大模型,那样太费钱也太慢了。我Zuo了一个抽帧处理,只获取间隔连贯的几张关键帧,Zui多保留 3 帧。
Ru果用户刚才说的话里包含了kan一眼、这是什么、分析一下屏幕等明显的视觉识别意图,App就会把这 3 帧图片连同语音转好的文本,一起打包传给后端的龙虾。
五、实战体验:从游戏到写作的无缝切换现在我终于Ke以一边操作手机在LOL的大乱斗里疯狂k头,一边呼叫旁的手机唤醒龙虾,去帮我找今天的爆款选题、写成文章、排版,并发布到公众号草稿箱,Zuo好了叫我,我来审阅。
特别是以后我进入对话模式,它Ke以一直监听我的输入,不管我在开车,还是在打游戏,还是在躺着,我douKe以直接呼叫:"龙虾,帮我xxxx",真爽~
当这个Nengkan、Neng听、会说的贾维斯🦀真正跑通的那一刻,那种成就感油然而生,非常爽。折腾这个项目的过程中,我发现了久违的创造的乐趣,它让我感到非常兴奋。
PS:我Mac上的龙虾刚装上,还没有装skill,就先不给大家展示太复杂的任务啦,但是Ru果你觉得这玩意儿跟豆包没区别就大错特错了。别再说跟豆包没区别了区别大了不过缺点是没有豆包响应快。
虽然目前这个 App 的功Neng还不够完善,部分功Neng还hen粗糙。但底座Yi经搭好了后续我还会不断优化,让它变得geng顺手,哦不顺嘴🙂
基于ClaudeCode泄露源码打造的原生本地的桌面龙虾,内置4B微调模型即可流畅完成日常任务,终结token焦虑,即将发布.开源龙虾AI袋鼠帝发消息经...
我也非常期待脑机接口普及的那一天让心之所向真正化作意之所达。
我是袋鼠帝,一个致力于帮你把AI变成生产力的博主。我们下期见~
Ru果觉得有用,Ke以帮忙点个Star。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback