当前位置：首页 > 谷歌SEO >

两天打造语音视频通话App，免费开源！

96SEO 2026-04-26 18:34 1

大家好，我是袋鼠帝。Zui近我一直在琢磨一个事儿：虽然我在我的MacMini上部署了“龙虾”，但我在日常生活里使唤它的频率还是不够高。原因hen简单，虽然Yi经接入了各种IM，但是入口还是麻烦。我特别需要随时随douNeng跟它交流、给它派活，Zui好是类似小爱同学的语音唤起，口喷需求，彻底解放双手，这样我的龙虾才Nenggeng快速进化。

说白了这个工具的第一阶段目标hen简单：打造一个带眼睛的龙虾对讲机。

既然没有，那我就自己Zuo一个！

没想到，折腾了2天还真给我Zuo成了！目前这个 MobileClaw App 我Yi经开源了感兴趣，想玩的朋友Ke以自取~github.com/kangarookin…

一、为什么是手机和语音视觉唤醒？

因为手机是我们每天触达率Zui高的硬件。当我们把 AI 从冰冷的服务器终端解放出来装进我们每天随身携带的手机里再赋予它眼睛、耳朵、嘴巴，随时随地唤醒。我觉得这才是 Agent 真正走向个人普及的必经之路。

目前市面上大部分的龙虾dou是通过打字去交互，即便Neng语音，那也需要用手按住说话。Ru果你想彻底解放双手，像唤起Siri一样随时呼叫龙虾干活，还Neng给龙虾打视频，那么这篇文章一定不要错过~

它有点像豆包，但跟豆包有两个本质的差异：第一，MobileClaw 接入的是我本地的龙虾，功NengKe以高度定制化，还Ke以切换任意模型使用。第二，它不仅Nengkan到摄像头的内容，还支持语音实时唤醒。我Ke以像叫 Siri 一样随时随地使唤它。

甚至用MobileClaw App，还Neng直接开摄像头提问，贼方便。这种多模态的实时交互体验，太科幻了。就有点像钢铁侠里面的贾维斯一样。

二、模型选择：智谱GLM-5V-Turbo的惊艳表现

龙虾模型选哪个呢？目前要兼顾顶级的代码Neng力、Agent 执行Neng力，同时还必须支持强大的多模态视觉识别，国内原本Neng打的是前不久刚出的豆包2.0和 Kimi-K2.但我发现，智谱Zui近geng新了一个模型，而且是专门针对龙虾和多模态编程环境深度训练过的专用基座模型：GLM-5V-Turbo。

终于，智谱Q的旗舰模型带视觉Neng力啦！！我kan了一下它的参数和性Neng跑分，这玩意儿有点猛啊。而且在逻辑推理和工具调用上稳如老狗，而且从预训练阶段就深度融合了视觉Neng力，真正Zuo到了kan得懂画面、写得好代码、控得了龙虾。

而且我发现glm-5v-turbo真的成为了我的龙虾首选模型：过去的国产大模型往往有些偏科，代码厉害的kan不懂图，kan图厉害的代码又不太行。智谱在 5V 上确实把这两点平衡得非常好，这让它在视觉编程和一些视觉拓展的玩法上，Neng带来特别多新鲜有趣的体验。

文章开头大家kan到的那个丝滑的多模态交互效果，背后就是靠接入的GLM-5V-Turbo的龙虾完成的。不得不说确实有东西。

三、开发实录：踩坑与AI辅助的奇妙化学反应

整个开发流程我使用的是接入 GLM-5V-Turbo 的 Claude Code。这里我用到的是cc-switch来帮我一键切换模型。

还是老方法，我大致整理了一下我的核心需求，然后给 cc 开启了 Plan 模式，把需求一股脑甩了过去。cc 上网查阅了大量的移动端开发文档后给我列出了一个非常详细的跨平台开发方案和架构计划。

不过这次开发MobileClaw，代码本身并不是耗时Zui久的，坑Zui多的是环境配置。在解决了一堆环境、网络、配置的破事，以及真机调试发现的部分Bug后我的需求终于落地了。

1. 环境配置的血泪史

总之在编译和真机调试这个问题上，我耗费了大量的时间。比如怎么把写好的代码顺利编译进 iPhone 真机里去调试？glm-5v-turbo给我的建议是使用xcode，但是我的Mac有点旧版本不支持Zui新的xcode，它又帮我去找适配的旧版本xcode安装。

还有苹果那个让人头疼的开发者账号，我一开始使用的是国区的AppId，跟我说没有开发者资格？…没法跟xcode连接。本来我想交 99 美元的开发者账号年费，它死活就是不给我消费…服了。后面换成了我的美区AppId才成功。

遇到 Xcode 里那些极其反人类的配置界面、不知所云的弹窗报错。我只需要截个图，ctrl + v 直接丢进cc的对话框里 glm-5v-turbo，就Neng准确识别并解决问题。它kan到画面后会直接教我怎么操作xcode。真的是一图胜千言~

2. Task-Harness的强力加持

然后前期开发流程的主角登场了也就是我之前开源的skill: Task-Harness。clawhub.ai/kangarookin…

在 Harness Engineering 这个概念还没真正火起来的时候，我就Yi经把它开源了。专门用来解决 AI 执行长任务时容易跑偏或者遗忘上下文的问题。

Task-Harness Skill有两个优点：一个是Ke以在获得授权后自动帮我在 GitHub 创建仓库并初始化环境；另一个是Neng把庞大的长任务拆分成无数个极小的独立任务，并使用 JSON 文件来精准管理任务进度。

每完成一个小任务，它会自己跑测试验证，验证成功后自动小交Git。让龙虾当监工，监督CC干活儿。整个开发流程一清二楚。

3. UI界面的视觉重构

其实一开始，这 App 长得特别狂野，纯纯的程序员直男审美。后来经过 GLM-5V-Turbo 的两轮视觉重构和样式调整，页面才逐渐变得美观起来。

由于是 Coding Plan 的Max会员，又是个小破博主，所以我幸运的提前拿到了内测资格。Zui终，在glm-5v-turbo的手把手视觉指导下我终于是成功把 MobileClaw 安装到了我的手机上。

四、架构揭秘与多模态流转逻辑

给大家简单拆解一下这个 App 的工作原理。App跟openclaw的交互是通过websocket连接。

这里还有一个坑需要注意：我的龙虾和CC 开发的代码dou是在我本地电脑上跑的，在开发阶段它们通过本地地址就Neng顺利通信。但当 MobileClaw 安装到手机里时它们变成了局域网通信。这时候需要去检查防火墙，并开通双方的网络访问权限，否则连不上。

1. 语音唤醒与意图识别

语音这块，我接入的是豆包的 ASR和 TTS接口，响应极快。

然后有唤醒词匹配逻辑，比如唤醒词设置"龙虾"，只有我说："龙虾，帮我xxxx"，它才会把任务发送给OpenClaw。就跟用Siri，用小爱同学的方式一样。

比如这种随时待命的语音唤醒。语音唤醒发任务，不仅Neng避免误触，还Neng彻底解放双手：不管我是在敲键盘写文章、打 LOL、还是在厨房洗碗，只要我突然冒出一个需求，随时随地吼一嗓子：龙虾，帮我查一下今天的AI热点资讯，它就Neng直接在后台开干。

Ru果用户的指令只是一句帮我设个闹钟，意图小规模判断不需要视觉辅助，就不传图片，直接释放掉内存里的那些关键帧。这种按需调用的机制，Ke以极大节省带宽和算力成本。

2. 视觉流处理

视频这块的逻辑，我是这么设计的：从用户说出唤醒词开始，到语音指令结束，系统会在后台获取这段时间中的视频流。

而且光有耳朵和嘴巴还不够，必须得给龙虾加上眼睛。当我的龙虾具备识别当前物理世界环境的Neng力后我跟它的沟通会geng加方便，它也会geng加了解我的所处环境，进而geng懂我。

但我不是把每一帧画面dou传给大模型，那样太费钱也太慢了。我Zuo了一个抽帧处理，只获取间隔连贯的几张关键帧，Zui多保留 3 帧。

Ru果用户刚才说的话里包含了kan一眼、这是什么、分析一下屏幕等明显的视觉识别意图，App就会把这 3 帧图片连同语音转好的文本，一起打包传给后端的龙虾。

五、实战体验：从游戏到写作的无缝切换

现在我终于Ke以一边操作手机在LOL的大乱斗里疯狂k头，一边呼叫旁的手机唤醒龙虾，去帮我找今天的爆款选题、写成文章、排版，并发布到公众号草稿箱，Zuo好了叫我，我来审阅。

特别是以后我进入对话模式，它Ke以一直监听我的输入，不管我在开车，还是在打游戏，还是在躺着，我douKe以直接呼叫："龙虾，帮我xxxx"，真爽~

当这个Nengkan、Neng听、会说的贾维斯🦀真正跑通的那一刻，那种成就感油然而生，非常爽。折腾这个项目的过程中，我发现了久违的创造的乐趣，它让我感到非常兴奋。

PS：我Mac上的龙虾刚装上，还没有装skill，就先不给大家展示太复杂的任务啦，但是Ru果你觉得这玩意儿跟豆包没区别就大错特错了。别再说跟豆包没区别了区别大了不过缺点是没有豆包响应快。

虽然目前这个 App 的功Neng还不够完善，部分功Neng还hen粗糙。但底座Yi经搭好了后续我还会不断优化，让它变得geng顺手，哦不顺嘴🙂

基于ClaudeCode泄露源码打造的原生本地的桌面龙虾,内置4B微调模型即可流畅完成日常任务,终结token焦虑,即将发布.开源龙虾AI袋鼠帝发消息经...

我也非常期待脑机接口普及的那一天让心之所向真正化作意之所达。

我是袋鼠帝，一个致力于帮你把AI变成生产力的博主。我们下期见~

Ru果觉得有用，Ke以帮忙点个Star。

标签： 还能

为您推荐

SEO优化服务概述

作为专业的SEO优化服务提供商，我们致力于通过科学、系统的搜索引擎优化策略，帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。

百度官方合作伙伴白帽SEO技术数据驱动优化效果长期稳定

SEO优化核心服务

网站技术SEO

网站结构优化 - 提升网站爬虫可访问性
页面速度优化 - 缩短加载时间，提高用户体验
移动端适配 - 确保移动设备友好性
HTTPS安全协议 - 提升网站安全性与信任度
结构化数据标记 - 增强搜索结果显示效果

内容优化服务

关键词研究与布局 - 精准定位目标关键词
高质量内容创作 - 原创、专业、有价值的内容
Meta标签优化 - 提升点击率和相关性
内容更新策略 - 保持网站内容新鲜度
多媒体内容优化 - 图片、视频SEO优化

外链建设策略

高质量外链获取 - 权威网站链接建设
品牌提及监控 - 追踪品牌在线曝光
行业目录提交 - 提升网站基础权威
社交媒体整合 - 增强内容传播力
链接质量分析 - 避免低质量链接风险

SEO服务方案对比

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

SEO优化实施流程

我们的SEO优化服务遵循科学严谨的流程，确保每一步都基于数据分析和行业最佳实践：

网站诊断分析

全面检测网站技术问题、内容质量、竞争对手情况，制定个性化优化方案。

关键词策略制定

基于用户搜索意图和商业目标，制定全面的关键词矩阵和布局策略。

技术优化实施

解决网站技术问题，优化网站结构，提升页面速度和移动端体验。

内容优化建设

创作高质量原创内容，优化现有页面，建立内容更新机制。

外链建设推广

获取高质量外部链接，建立品牌在线影响力，提升网站权威度。

数据监控调整

持续监控排名、流量和转化数据，根据效果调整优化策略。

SEO优化常见问题

SEO优化一般需要多长时间才能看到效果？

SEO是一个渐进的过程，通常需要3-6个月才能看到明显效果。具体时间取决于网站现状、竞争程度和优化强度。我们的标准套餐一般在2-4个月内开始显现效果，高级定制方案可能在1-3个月内就能看到初步成果。

你们使用白帽SEO技术还是黑帽技术？

我们始终坚持使用白帽SEO技术，遵循搜索引擎的官方指南。我们的优化策略注重长期效果和可持续性，绝不使用任何可能导致网站被惩罚的违规手段。作为百度官方合作伙伴，我们承诺提供安全、合规的SEO服务。

SEO优化后效果能持续多久？

通过我们的白帽SEO策略获得的排名和流量具有长期稳定性。一旦网站达到理想排名，只需适当的维护和更新，效果可以持续数年。我们提供优化后维护服务，确保您的网站长期保持竞争优势。

你们提供SEO优化效果保障吗？

我们提供基于数据的SEO效果承诺。根据服务套餐不同，我们承诺在约定时间内将核心关键词优化到指定排名位置，或实现约定的自然流量增长目标。所有承诺都会在服务合同中明确约定，并提供详细的KPI衡量标准。

SEO优化效果数据

基于我们服务的客户数据统计，平均优化效果如下：

+85%

自然搜索流量提升

+120%

关键词排名数量

+60%

网站转化率提升

3-6月

平均见效周期

行业案例 - 制造业

优化前：日均自然流量120，核心词无排名
优化6个月后：日均自然流量950，15个核心词首页排名
效果提升：流量增长692%，询盘量增加320%

行业案例 - 电商

优化前：月均自然订单50单，转化率1.2%
优化4个月后：月均自然订单210单，转化率2.8%
效果提升：订单增长320%，转化率提升133%

行业案例 - 教育

优化前：月均咨询量35个，主要依赖付费广告
优化5个月后：月均咨询量180个，自然流量占比65%
效果提升：咨询量增长414%，营销成本降低57%

为什么选择我们的SEO服务

专业团队

10年以上SEO经验专家带队
百度、Google认证工程师
内容创作、技术开发、数据分析多领域团队
持续培训保持技术领先

数据驱动

自主研发SEO分析工具
实时排名监控系统
竞争对手深度分析
效果可视化报告

透明合作

清晰的服务内容和价格
定期进展汇报和沟通
效果数据实时可查
灵活的合同条款

我们的SEO服务理念

我们坚信，真正的SEO优化不仅仅是追求排名，而是通过提供优质内容、优化用户体验、建立网站权威，最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系，共同成长。

谷歌SEO