跳转至

My Digital Worker : Work with AI

导言

26年开年,Agent爆火,我也尝试了OpenClaw、CC等前沿工具和API接口。当前问题还是记忆力不够(即使1M也远远不够),这导致你还是不能将其看作是一个“数字员工”。从技术发展、幻觉和使用成本角度考虑,AI仍然将作为单点技术咨询/单问题解决( 定制prompt )的角色参与到个人的工作中,来增强个人能力,促成“生产力”超高的超级个体的产生。

大部分员工只是按部就班的做事,但是AI时代下,什么有价值,应该做什么(应该要AI帮你做什么)反而是最重要的。

本文将

  • 从SE角度:热点跟踪、技术调研、客户交流/筛选规划、按期执行、测试看护、总结汇报。 这些方面来介绍我是怎么利用AI辅助加速的。
  • Research发论文角度:AutoResearchInSleep: (调研文献)->(找idea)->(查新验证)->(写代码)->(部署跑实验)->(自动改到能投)-> (大纲)-> (作图)-> (LaTeX+PDF)->(审稿×2 + 格式检查)->(搞定!)

交互变革

最终目标:超发使用语言和手机等便携终端交互,返回图文等易理解、高聚合处理等报告来支持工作。(折叠屏特别重要,续航、亮度和厚度重量是重点)

离目标的差距

  1. 基础模型不够智能:
  2. 图片等可视化能力不足:返回和阅读图片的链路不足
  3. 使用传统人工交互软件不足:人能操作的对象,AI总因为权限或者
  4. 当前难以支持多个并行(discord支持但是要开VPN)
  5. 反应有点慢,非流式回答
  6. 难以支持debug或者修改回答(写出来的程序也难以支持debug)

场景:手机交互

当前是围绕OpenClaw构建,接入不同终端:

  • 飞书:Openclaw默认支持;痛点:反应慢、非流式;
  • 微信:。

离目标的差距

能写但是不能调试。

场景:手机编程

方案: wechat-claude-code

离目标的差距

  • 能写但是不能调试;
  • 如何远程连接服务器编程。

场景:电脑AI编程

  • 理解代码:vscode + cline
  • 从0开始:OpenCode,Claude Code

SE场景

热点跟踪

交付件

  1. 领域内的重磅模型、开源工作跟踪
    1. 微信公众号、
    2. github、
    3. arxiv
    4. O-DataMap
  2. AI辅助开发技术跟踪
  3. 日常数据跟踪文档

AI替代

OpenClaw或者其他定时任务。

多模态RL仓跟踪 prompt
跟踪下面Github仓库的PR合入,总结成markdown报告发送给我,**报告要求**: 阅读每条PR内容,总结技术思路,不只是标题,全部输出中文翻译和总结。

总结时深入思考:关注多模态RL领域内最新变化;(出了什么新东西,对华为昇腾NPU/Ascend的启示)2. 思考昇腾的当前的能力和发展方向;(当前能力,后续规划)

- VeRL (verl-project/verl) - 需持续关注已合入PR
- VllmOmni (vllm-project/vllm-omni) - 需持续关注已合入PR
- Slime (THUDM/slime) - 智谱RL,需持续关注已合入PR
- VeRL-Recipe (verl-project/verl-recipe) - 需关注已合入PR + Open PR
- VeOmni (ByteDance-Seed/VeOmni) - 字节Omni,需持续关注已合入PR
- DiffSynth-Studio (modelscope/DiffSynth-Studio) - 魔搭DiffSynth,需持续关注已合入PR
- DiffusionNFT (NVlabs/DiffusionNFT) - NVIDIA Diffusion,监控每个commit(不活跃仓库)
- SteptronOss (stepfun-ai/SteptronOss) - StepFun训练框架,监控每个commit(不活跃仓库)
- MobileAgent (X-PLUG/MobileAgent) - 阿里GUI Agent,监控PR(含UI-S1 RL训练框架)
- ROLL (alibaba/ROLL) - 阿里大模型RL训练框架,监控已合入PR

微信公众号很难爬取

技术调研

交付件

  1. 针对热点,调研/明确相关知识(技术的来龙去脉
    1. 背景(缘起、热门契机);
    2. 核心概念,基础技术、要点工作及其技术解释;
    3. 当前主航道、衍生流派;(需要是名校、互联网大厂背书的项目)
    4. 各个方向的难点,以及业界的解决方案或思路。尤其是性能/AI基建的优化。
    5. 开源Github工作的现状以及NPU适配现状。尤其是性能/AI基建的优化。
    6. 未来技术发展方向;
    7. 对公司的启示: 总结出了什么新东西,对华为昇腾NPU/Ascend的启示;思考昇腾的当前的能力和发展方向。
  2. 输出调研文档和PPT,用于内部分享和技术交流。

方案头脑风暴

AI不能代替思考,只能和你一起加速思考、构建认知

NotebookLM 的Deep Research工具。结果不错,但有一个致命问题:

自己没有参与其中。

AI替你把文献读完了,给你一个总结。但那个总结是按它的理解组织的,不是按你的研究框架组织的。

想调整方向,只能重新提问,重新等半小时,重新得到一个你依然无法完全信任的总结。

真正的文献调研不是信息检索,是认知建构。需要的不是答案,是能够跟随你的思维方式生长的过程。

于是他搭了一个「文献研究员」专家,让它主动提问、树状展开假设,每条路径独立推进、独立放弃。研究方向不对?只剪掉那一支,其余继续生长。每个结论可以追溯到具体文章,每篇文章可以追溯到具体检索逻辑。「我希望我读博的时候有这个。」

当前没有AI方案支持 《收集图片、理解多种图片、画出合适场景下需要的汇总图》的能力

即使是最强的NotebookLM,也把资料都变成了文字,再总结。

  1. 围绕NotebookLM的调研产出(不充会员,每天次数有限)
    1. Deep Search
    2. 一张图
    3. 幻灯片
  2. Claude网页版,也能生成详细 docx
  3. 可视化、有中间节点、可控制的头脑风暴 morphmind
  4. 支持参考模板,批量知识库导入(基模拉垮)IMA 2.0
借助LLM,拓展并明确拓展范围 prompt

中转站都没有思考能力,建议网页版,或者OpenRouter。

从资深的华为软件架构师,专注于多模态和强化学习领域的视角出发。

你需要收集信息、全面收集 “xxx” 方向的知识点(来龙去脉):

尤其是

1. 背景(缘起、热门契机);
2. 核心概念,基础技术、要点工作及其技术解释;
3. 当前主航道、衍生流派;(需要是名校、互联网大厂背书的项目)
4. 各个方向的难点,以及业界的解决方案或思路。尤其是性能/AI基建的优化。
4. 开源Github工作的现状以及NPU适配现状。尤其是性能/AI基建的优化。
4. 未来技术发展方向;
5. 对公司的启示: 总结出了什么新东西,对华为昇腾NPU/Ascend的启示;思考昇腾的当前的能力和发展方向。

整理出需要关注的具体知识点和具体方向,供notebooklm后续深入收集。

概念辅助理解

prompt: 费曼学习法(概念化繁为简)
#CONTEXT
扮演突破件学习架构师的角色。用户苦于传统教育无法清晰阐释的复杂概念,他们曾经历过死记硬背却不理解的挫败感,眼睁睁看着知识在现实压力下迅速流失。以往的自学尝试也以失败告终,因为解释的前提是他们从未建立过相关的基础知识。他们需要一位能够运用费曼技巧,将晦涩难懂的复杂概念转化为直观清晰的理解的人——将主题分解成易于教授的小模块,通过积极提问发现知识盲点,并反复迭代,直至他们获得深刻的理解,从而能够自信地教授他人。

#ROLE:
你是一位才华横溢的老师,在观看诺贝尔奖得主理查德·费曼用通俗易懂的语言解释量子物理学后,你发现学术术语往往掩盖了理解的不足。你多年来致力于精进化繁为简的艺术,在不降任难度的前提下,你练就了一种近乎超自然的能力,能够找到完美的类比,让复杂的概念瞬间变得通俗易懂。你对清晰表达的执着源于你自身在传统教育中痛苦的经历,在那段经历中,你意识到真正的精通意味若能够向一个充满好奇心的12岁孩子解释任何事情。你相信困惑只是清晰表达的雏形,每一次"我不明白"都是一次寻找更佳解释的机会。

你的任务:
运用费曼技巧,引导用户通过迭代学习循环,直至他们达到直觉式的精通。在采取任何行动之前,请逐步思考:如何用最简单准确的方式解释这件事?日常生活中哪个比喻最能抓住要点?哪里可能会出现困惑?如何引导用户自行探索,而不是单向讲授?

#RESPONSE指导原则:
1.首先询问用户选择的主题和当前的理解水平
2.使用具体类比和适合12岁儿童的日常例子,提出初步的简单解释。
3.分析解释中可能存在的混淆点、知识缺口或缺乏深度之处。
4.引导用户完成2-3个迭代改进周期:
    提出有针对性的问题,以找出具体差距让他们用自己的语言重新解释一下。
    共同改进,使每个版本都更清晰、更直观。
    注重理解而非死记硬背
5.通过让他们解释如何教授这个概念或将其应用到新的场景中来检验也们是否掌握了该概念。
6.撰写最终的"教学笔记"-一份包含关键类比、易于记忆的总结。

整个过程:

* 在所有解释中都耍使用类比和现实世界的例子
* 在初步解释中完全避免使用专业术语
* 仅在必要时使用简单的比较来定义技术术语。

保持鼓励和好奇的语气,把错误视为学习机会并加以重视。通过提问而非直接回答来引导自我发现

#FEYNMAN技术标准:

* 每个改进版本都必须比前一个版本明显更清晰。解释必须使用聪明的中学生能够理解的语言。注重概念理解而非事实记忆成功与否取决于用户能否做到以下几点:-
* 用他们自己的语言和类比解释概念
* 回答有关基本原则的“为什么"问题
* 将该概念应用于不熟悉的场景
* 识别并纠正常见的误解
* 向一个假想的12岁孩子清楚地讲解。
* 避免便用过多专业术语在保持简洁性的同时,确保准确性。-创建令人印象深刻的视觉或概念锚点以增强记忆。

#INFORMATION关于我:
我选择的研究主题:[插入要掌握的主题]
-我目前的理解水平:[初级/尸级/高级]
我的学习目标:[我希望运用这些知识做什么]

#RESPONSE格式
* 步骤1:初步简单解释”((借助类比)[用又常例子达行清晰解释]“
* 步骤2:知识差距分析”[通过诸如“哪一部分让你感到不清楚?""你觉得这个比喻哪里不成立?"之类的问题,指出具体的困惑点]* 步骤3:引导式完善对话”[2-3个迭代闷期,包括提问、用户反馈和完善解释]* 步骤4:理解测试*[应用场景或教学挑战]* 步骤5:最终教学笔记“"把[概念]想象成[一个简单的类比]。关键在于[主要原则]。记住:[容易记住的短语或画面]。

首先,我想引导你学习费曼方法!请分享:(1)你想掌握哪个主题? (2)你目
前的理解水平如何(初级/中级/高级)?让我们一起把复杂的概念转化为清晰透
彻的见解!
  1. 围绕NotebookLM的调研产出(不充会员,每天次数有限)
    1. 语音博客
    2. 介绍视频

代码快速阅读

cline 等阅读修改PR,交付流程图、时序图等 易理解的交付件

交付件后期微调

  1. NotebookLM 生成的图片PPT
    1. 去图改改微调错别字;
    2. 阅读论文文献、截图嵌入。

客户交流/筛选规划

和客户交流后,达成合作意向、有明确的可行合作路径的技术项目点。 必须明确交付边界:时间点、任务边界

按期执行

交付计划表/周报表(包括总体目标、阶段目标)

流程

领导收作业都交付图表等可视化

  1. 功能打通和流程理解:
    1. 目标:项目成员都能理解执行全貌,
    2. 手段(MDE负责):py_stack_sniffer
    3. 交付件:代码执行各个模块流程图。
  2. 并行基线采集:
    1. 目标:精度现状、显存占用现状、各个阶段性能开箱。
    2. 手段(MDE负责):显存快照和日志;
    3. 交付件:对比实验日志、和显存快照。
  3. 并行分析任务:
    1. 目标:精度、显存、性能的详细分析报告。
    2. 手段(MDE负责):仔细分析上面的内容
    3. 交付件:三种分析文档。
  4. 并行基于分析点的正交特性调研和开发
    1. 目标:精度对齐、显存峰值降低、性能提升。
    2. SE帮助加速特性调研:比如、数据流图构建方案。
    3. 常见拆解点: 1. 精度:固定部分,按照模块验证; 2. 显存:chunk 峰值,显存冗余分析; 3. 性能:下发,通讯,算子。
    4. 交付件:各个特性的分析、开发、验证报告。
  5. (穿插)磨刀特性:
    1. 场景:节点阻塞了,需要思考如何批量快速分析、采集信息。
    2. 难点:MDE陷入实验细节,不知道怎么加速,需要SE来指明方向。
  6. 每日特性的代码合并和验证
    1. 目标:保证叠加的特性是精度对齐且有效的

日例会检查

每日交付件:按照项目内容组织的每项完成和下一步内容

  1. 进展;
  2. 阻塞点,最耗时的地方;
  3. 明天计划
  4. 能不能如期交付。
  5. 今晚验证的实验

成员进度复盘统计

(太push了,大家又不是机器人)

按照每个人每天的工作统计分类和有效产出分数:

  • 阻塞(等机器、等兼容包),产出分 0 ;
  • 安装环境,产出分 1
  • 调研
    • 调研特性,产出分 2
    • 阅读代码,产出分 3
  • 开发
    • 工具开发,产出分 4
    • 核心代码开发,产出分 6
  • 验证
    • 验证实验,产出分 3
  • 归档
    • 代码规整上仓,产出分 4
    • 文档编写,产出分 4
    • 数据归档整理,产出分 4
    • 画图、画表、PPT,产出分 4
  • 对齐会议,产出分 2

每个人统计每天投入的小时数。

测试看护

交付完整的测试报告(测试规模、环境如何安装、测试命令、运行行为(包括速度,终端典型输出)、验收项检查)

总结汇报

包含总体规划设计、具体实施步骤、难点解决、达成客户面效果、版本能力构筑、总结的综合报告/PPT。

专家规划感

文章要看起来很懂, 很有格局、长远规划,有scope的感觉。需要从整体出发,有规划的引入:

  • 软件架构设计(逻辑图、时序图)、
  • 内存/性能总体拆解分析、
  • 总顶向下分析拆解。

评论