笔记¶

劝退指南：不是博客，而是笔记，甚至是草稿

写笔记是为了让自己看懂，写博客是为了让别人看懂，不一样的，认真做好后者对自己各方面能力的提升会非常大（比如表达能力），其实很多时候记笔记就是写几段自己能看懂的表达，很随性，但写博客更像是写一篇论文，需要自己先彻底搞明白一个东西后才能输出¹

我一直努力将内容写成博客。但是后来发现，根本没有时间和心思，来为别人解释很多事情。我的想法是最多是解释给多年后忘记一切的自己听，我还能快速看懂。能达到这点，这些内容的意义对于我就已经足够。

从读者的角度，我并不会推荐任何人阅读这个网站的内容：因为你会遇到以下令人烦躁的场景

知识是自然聚类和融合的，但需要两级的文档来过滤内容和撰写正文。小而全、无懈可击的内容应该是所追求的

导致这种情况，其实和我对知识产出过程的理解有关，我认为过程是 知识是自然聚类和融合的：

而且三者的占比是前面远大于后面，~~这样看来我这网站大部分的内容岂不是都是笔记的草稿~~。

我以这样的方式撰写我的正式的毕业论文时，发现这样的处理有利有弊：

优势：
1. 速度？：能快速的罗列出内容，填充了大量垃圾内容
2. 完备性：保留所有必要的相关信息，
劣势：
1. 对工作进度的误判：罗列的大量页数迷惑了自己，以为进度很快。其实仔细思路内容的有效性、逻辑关联性。核心观点的提炼。遣词造句都极其耗费时间。
  1. 最重要是导致只看页数的领导对你工作速度的误判导致的嫌弃：一周前就看见里论文写了60页了，怎么两周了还没写完。或者你都60页了快结束了，来帮帮我弄这个_{~阿米诺斯}~
2. 需要返工：重新整理罗列的垃圾内容，至少需要三倍以上的时间才能整理好。

总结：知识是自然聚类和融合的思想是没错的，但是在实际生产应用时需要两级的信息筛选过滤体系：区分出正文内的todo内容和未整理的archived信息。通过将罗列的完备信息初步分类归档(有基础的逻辑)以待后续使用，正文精心撰写每一句话保证不需要大量返工。

导言

第一次相亲(第二次见面)

导言

第一次相亲

导言

相亲是展现真实自我，寻找志趣相投另一半的过程。

Ideas around Vision-Language Models (VLMs)

导言

当前主流的多模态生成模型（如图像生成和视频生成）主要采用Latent Stable Diffusion的方案框架。为了减少计算量，图像/视频等模态的数据（噪声）先经过VAE压缩得到Latent Vector，然后在文本信息的指导下进行去噪，最后生成符合预期的图像或视频。排行榜: Vbench
当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程，充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段，如先进行模态对齐的一阶段预训练，然后进行二阶段的参数微调。