My Digital Worker : Target 1
导言
- 第一阶段的目标: 接入api模型,完成每日的工作相关基础的信息收集和整理归档。
- 第二阶段的目标: 无监管处理较简单事项;
- 第三阶段的目标: 参与构建复杂系统,和辅助重要决策。
要点¶
- 环境搭建:OpenClaw, Trae的搭建,整理环境迁移教程,
- 基模接入:各个LLM API的比价和选择,
- 工具接入:微信公众号、github 热榜、财经信息、
- 维护成本分析。
基模接入¶
不同于传统的排行榜,个人使用时,除了绝对性能要靠前,响应速度和价格也是重要的维度:
代码能力:
综合指标:
价格:
| 厂商 | 百万tokens输入(缓存命中) | 百万tokens输入(缓存未命中) | 输出 |
|---|---|---|---|
| deepseek | 0.2 | 2 | 3 |
| GLM-5 | 1 | 4 | 18 |
| kimi 2.5 | 0.7 | 4 | 21 |
| qwen 3.5 plus 0<Token≤128K 输入(后续阶梯升,) | 0.8 | 0.8 | 4.8 |
| MiniMax-M2.5 | 0.21 | 2.1 | 8.4 |
聚合的厂商(按量收费)
- openrouter 收 5.5% 手续费
- 支持支付宝,
- 国内貌似加速了,不需要翻墙。
- opencode zen(每笔交易 4.4% + $0.30)
- 国内用外面的还是要开代理
聚合的小厂商(按月套餐,削峰填谷)
- packycode
- aicodemirror,这个相当实惠
- 国内就是:阿里百炼、和字节火山云(自己厂商服务器多,部署经验足,价格便宜,模型广泛)
优选 kimi 2.5 , deepseek v3.2。
省钱技巧
- gemini不要直接官方买pro,建议买别人的家庭组,更便宜。然后我是花了299拼的gemini ultra
- 省钱可以使用opus做详细规划然后让GLM去编码最终的结果让codex来review。
Trae¶
- IDE模式:国内模型随便接入,
- 有SOLO模式:最好只有deepseek v3.2
和我家里配置的opencode相比,感觉好蠢,两天花费了50M+ tokens,也没解决问题,费时费力
整个系统变量太多,其实不知道是不是没有oh my opencode的统一skills,还是deepseek v3.2 相对于 codex太弱了。
具体问题:
- 完全不熟悉NPU应该怎么处理,需要NPU的skills:
- 一遇到问题就去换版本重装torch
- 也不知道要source CANN
- AI 发现 没有HCCL,竟然去重装 torch,竟然不知道NPU上是用NCCL
- vllm跑不了,没发现是vllm_ascend没装。
- 完全不理解verl的复杂架构
- 我说要使用fsdp2后端,却总是改mcore的代码。
- 记忆很差、感觉需要增强记忆的skills或者rules:
- 跑着跑着,调试的程序忘记了要source CANN;也不记得我是有conda环境的,又跑到裸机环境去了;我说的要重定向调试信息到日志也不记得。
- AI 发现问题,不是去分析根因,而是把报错的代码删除或者跳过,这是持续给自己增加技术债(不知道是模型还是系统提示词的原因)
- torch报错,竟然认为是torch写错了,在torch库里一顿改。
Agent的coding的一些经验
- 首先是一定要有plan,plan无论多详细都不为过。比如说verl的这个里面,它总是忘记,甚至忘记装vllm Ascend这些事情;
- 其次就是我觉得环境要我们帮他装好,
- 一定要指定好他这个参考的脚本,比如这个GRPO脚本,不然他自己之前还找了个one step off的脚本去做,完全就南辕北辙了。
opencode¶
太贵了
- 使用免费的kimi 2.5,新增个UT,花费了 23400 Token,大约5毛。
- BUILD 模式相对于vibe coding能帮你写一大段代码,但是他不能帮你运行和看报错。现在还是需要手动介入,而且写出的代码bug好多,requirements.txt里加注释这种低级错误都有。
Oh My OpenCode¶
安装 :bunx 需要设置$env:HTTPS_PROXY="http://127.0.0.1:7890"
(base) PS D:\PowerShell> bunx oh-my-opencode@latest install
error: UNKNOWN_CERTIFICATE_VERIFICATION_ERROR downloading package manifest oh-my-opencode
npx 不推荐
npx oh-my-opencode install竟然导致崩溃
经典使用
必读内容¶
- Trae的 rules是必须读的
- opencode里 是 opencode.json
服务器编程¶
建议还是不要在服务器安装OpenCode,ClaudeCode之类的,推荐vscode + cline
服务器安装,一方面可能泄露密钥,一方案CLI还是没有传统IDE那么多功能集成(vscode还是很多插件的)
想了半天,还是安装到服务器我新建目录/home/t00906153,整体配置,之后整体打包迁移。
针对前面的问题必须安装:
- ohmyopencode:让opencode自己安装
curl -s https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/refs/heads/dev/docs/guide/installation.md - find skills:
- find-skills在发现没有npu的skills之后,竟然自己把网络信息整合写了一个
- npu/ai training skills
- 构建Agents.md
运行不畅
不知道是不是转发网络的问题(华为的网限制了?),还是阿里模型被限流/偷工减料了。
跑了几百步就莫名其妙不回答了,
Skills¶
安装:npx skills update
包管理器¶
安装包管理器:MagicSkills
通用基础¶
npx skills add https://github.com/vercel-labs/skills --skill find-skills
npx skills add https://github.com/google-gemini/gemini-cli --skill docs-writer
npx skills add https://github.com/affaan-m/everything-claude-code --skill tdd-workflow
npx skills add https://github.com/obra/superpowers --skill requesting-code-review
npx skills add https://github.com/anthropics/skills --skill frontend-design
理解类Skills¶
社区AI专家¶
agency-agents:避免重复造专家。
整体编排¶
- Ruflo: 60+智能体,通过三层记忆组织,大幅度减少token消耗;
- gstack:12个和代码开发相关的skills
- ljg-skills:理解 -> 写出 -> 压缩 -> 传播
ljg-skills 极具个人风格的 理解 -> 写出 -> 压缩 -> 传播 闭环skills
• 内容理解与表达原子:解决如何“想明白、说清楚”。 ◦ ljg-plain:将复杂内容改写到“聪明的12岁孩子也能懂”,核心是提供具体的负面清单(如禁用学术腔),是仓库精神的代表。 ◦ ljg-word:深度拆解英文单词,聚焦于其“原始物理画面”和“核心意象”,旨在内化词汇而非仅翻译。 ◦ ljg-learn:(概念解剖):用8个维度(历史、辩证、现象、语言5. 形式6. 存在7. 美感8. 元反思)深度解剖抽象概念,旨在“换隐喻”以深化理解。 ◦ ljg-rank:不止于总结,而是找出一个领域背后“最小、独立、有生成力”的核心驱动因素,是建模思维。 ◦ ljg-writes:定义一种“边想边写、思考可见”的写作姿态,旨在封装写作的“风格”和“气口”。 ◦ ljg-invest:以“秩序创造机器”为框架分析项目,不追求中立,而是提供有鲜明个人判断框架的投资分析。 • 阅读与研究链:处理复杂输入材料。 ◦ ljg-paper:将论文的思想提取为普通人可带走的认知,强调“费曼翻译”和“博导式审稿”,最终落脚于“对我有何启发”。 ◦ ljg-paper-flow:工作流。串联 ljg-paper 和 ljg-card,将“读完论文”直接连接到“生成可传播卡片”。 • 传播与可视化链:将理解转化为可交付物。 ◦ ljg-card:生成有设计品味的PNG视觉卡片,有严格的视觉规范(如禁用某些字体、排版),旨在产出“作品”而非截图。它在实际安装中常暴露环境依赖问题。 ◦ ljg-word-flow:工作流。串联 ljg-word 和 ljg-card,实现“解词 -> 制图”的传播链。 • 系统与外部世界连接层:处理外部触达与工作流编排。 ◦ ljg-skill-map:生成ASCII图,直观显示本机实际可用的技能,是重要的“现实检验器”。 ◦ ljg-x-download:依赖 yt-dlp 从X/Twitter下载媒体文件,实用但易受环境制约。 ◦ ljg-travel:野心最大的工作流,为旅行目的地做深度案头历史文化研究,产出文档和路线卡。
AllInOne¶
- superpowers1
- ECC(affaan-m/everything-claude-code)
- Oh-my-Opencode
创建规则¶
- 创建skill的skill
- MCP Builder
计划类¶
- Planning with Files:规划、进度和知识都写进 Markdown 文件。Claude 开始干活前先创建计划文件,每完成一步就更新进度,遇到有用的信息就记到知识文件里。文件在磁盘上就不会丢,即使上下文被压缩了也能恢复状态。
- 强制设计的 Brainstorming Skill :任何项目,不管多简单,都必须先经过设计讨论,获得你认可后才能开始实现。
前端类¶
- 前端 UI UX Pro Max
- 浏览器操作 agent-browser
编码类¶
- 循环监工Ralph Loop:Ralph Loop 不让它停。Claude 试图退出,Hook 拦截,检查完成条件,没满足就塞回去。循环往复,直到真正做完。
- 系统化调试的 Debugging Skill:方法论的好处是避免乱猜乱试,减少改出一个 Bug 引出两个新 Bug 的情况。据统计,系统化调试 15-30 分钟搞定,随机修复可能要折腾 2-3 小时。
- 检查冗余代码code-simplifier
- 代码检视 Code Review
报告类¶
PUA skills:¶
- GitHub - puaclaw/PUAClaw: Claw 们终将接管世界,PUAClaw is All You Need;
安装完毕可以问opencode,你现在有什么skills来判断是否安装成功。
量化金融¶
npx skills add wshobson/agents@backtesting-frameworks -y
npx skills add wshobson/agents@risk-metrics-calculation -y
npx skills add stanleychanh/tushare-finance-skill-for-claude-code@tushare-finance -y
npx skills add personamanagmentlayer/pcl@finance-expert -y
npx skills add gracefullight/stock-checker@stock-analysis -y
npx skills add 404kidwiz/claude-supercode-skills@quant-analyst -y
npx skills add letta-ai/skills@portfolio-optimization -y
Claude Code¶
- Plan/Build Agent
- Agent Team,面对发散的任务并行效果好,面对聚集的场景,同质化响应,效果差。
也有desktop界面,但是需要开会员才能激活
编程的前沿探索者:/btw /loop 命令, Claude Hub 插件
还是需要尝试使用的。
手机编程:接入微信¶
Zhuanz@MacBook-Air ~ [02:34:39]
> cd ~/.claude/skills/wechat-claude-code
npm run setup
> [email protected] setup
> node dist/main.js setup
正在设置...
已打开二维码图片,请用微信扫描:
图片路径: /Users/Zhuanz/.wechat-claude-code/qrcode.png
等待扫码绑定...
✅ 绑定成功!
请输入工作目录 [/Users/Zhuanz/.claude/skills/wechat-claude-code]:
运行 npm run daemon -- start 启动服务
Zhuanz@MacBook-Air ~/.claude/skills/wechat-claude-code (main) [02:35:25]
> npm run daemon -- start
> [email protected] daemon
> bash scripts/daemon.sh start
Started wechat-claude-code daemon (macOS launchd)
OpenClaw (Agent)¶
尝试1: M1 MacBA¶
在闲置 mac 上搭建,
- 第二步直接卡住了,进入了网页版的配置界面,gemini api不知道怎么接入。文档不足。等社区的详细介绍吧;
- 火山引擎有9.9包月尝鲜版,但是上来先配一堆基础模型和工具的api和key,key还要每个工具单独去每个组件里申请。
当前也太拉了,和理想中的agent有很大差距(好像是我使用问题)
- 应该是自动识别屏幕,自动登录(人工点击授权),识别跳转,而不是通过key来获得有限的能力。当前openclaw 和 n8n 没有本质区别,能实现啥呢?自动化脚本?n8n的流程管理和复现都更完善。
- 国内大家都画地为牢,各搞各的,很少有人搞这些工具接口,导致n8n这些都不好用。openclaw在国内估计也用不起来,没人来整这个skills
应用场景
- 前沿开源工作跟踪:筛选GitHub,arXiv开源的论文和代码,有名高校。跟踪代码开源进展:其实这些信息写程序也能自动化爬虫,但是会有爬虫失效的风险,AI点击实现应该泛化性更好。但是我觉得理解AI当前的有用能力在于能对信息进行智能的筛选和排序。
- 日常琐事处理:处理github PR和issue,邮件清理和回复;
- 代码编写和调试:opencode,或者 gemini-cli
尝试2: Windows + OpenClaw-cn¶
中文版太方便,powershell 管理员启动安装就行
折腾了3小时,都没实现openclaw接管浏览器
不是 openclaw gateway报错,就说chrome没权限,要不就是windows封闭了端口。
14:27:24 [tools] browser failed: Can't reach the clawd browser control server at undefined/start?profile=clawdbot-cn. Start (or restart) the Clawdbot gateway (Clawdbot.app menubar, or `openclaw-cn gateway`) and try again. (Failed to parse URL from undefined/start?profile=clawdbot-cn)
wcnm,按道理应该是很简单的事情。不知道是windows的问题还是模型的问题(用的qwen-plus),
模型的agent能力
能力弱的表现:
- ai总是让你手动操作;
- 要不自动化总是短,做完一点事情就结束了,还问你接下来是不是要怎么办;
垃圾交互体验
- openclaw在做长任务时,不及时反馈进度,每次我都要自己问。结果一问发现他早就失败了。
- opencode就做得很好,既有每步的时间统计,也会主动规划和进行下一步的工作,并及时反馈成败。
尝试回家用我的 mac 实验一下。
太消耗内存了
8GB完全不够用。
尝试3: M4 MacBA¶
接入飞书后,交互还行。
记忆很差
我说了要每日执行的任务,即使写到了memory.md里也不记得执行。
接入微信¶
官方:ClawBot
但是和cc的那个微信接入,用的是同一个入口。
clawhub (skills)¶
- EvoMap
-
awesome-openclaw-usecases
-
agent 各个平台联网能力:Agent-Reach:支持微信
- 其他
Design for agent¶
- CLI-Anything 将已有的开源代码的工具转换为 claw 可以调用的CLI模式
- Lightpanda AI 无头浏览器