笔记¶

2024年1月1日
分类于 thinking
需要 2 分钟阅读时间

Burnout Monitor : Healthy Body Model + hair/heart-aware exercise

导言

元旦中午不休息的看电脑，导致眼睛十分的疼痛。一直到晚上11点也没有好。

虽然我知道过犹不及，life/work balance等道理。但是实际做事情，沉浸去了就停不下来了。需要一个提醒的工具

围绕Rescuetime记录的数据，使用Rescuetime的Timer, 和其他番茄工作法的软件。形成一套监控自身健康，给出工作建议，评估每日工作的体系。

2023年12月27日
分类于 hardware
需要 2 分钟阅读时间

Motherboard & PCI-e & UPI

导言

CPU间互联，CPU 与主板，显卡与内存间数据通信的速率

2023年12月26日
分类于 Programming
需要 4 分钟阅读时间

Cuda Driver Runtime

导言

Divide the bulky and outdated content about cuda runtime env into individual posts, ensuring both the thematic integrity and a balanced size for each blog entry.

2023年12月20日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

AI Hardware & Accelerators

导言

牧本定律由1987年牧村次夫提出，半导体产品的发展历程总是在“标准化”和“定制化”之间交替摆动，大概每十年摆动一次，揭示了半导体产品性能功耗和开发效率之间的平衡，这对于处理器来说，就是专用结构和通用结构之间的平衡—专用结构性能功耗优先，通用结构开发效率优先。
贝尔定律是由戈登贝尔在1972年提出的一个观察，即每隔10年，会出现新一代计算机（新编程平台、新网络连接、新用户接口、新使用方式），形成新的产业，贝尔定律指明了未来一个新的发展趋势，这将会是一个处理器需求再度爆发的时代，不同的领域、不同行业对芯片需求会有所不同，比如集成不同的传感器、不同的加速器等等。

生产特殊的硬件：

带来的加速比和能耗收益，达到10倍百倍都是很正常的。
但是开发成本也是巨大的，包括芯片设计，流片成本，软件栈的开发，商业化的推广。
开发周期也相当长。需要对当前的技术的未来具有前瞻性。不要生产出来就过时了。

常见的例子，用于并行计算的GPU， H265视频编解码单元, Google TPU芯片、车载芯片、手机AI芯片。

AI领域的至今不变的特点：

基于反向传播和梯度/参数更新的整体逻辑
需要保存大量的参数来表征问题，以高维矩阵的形式存储，所以矩阵运算十分常见
训练由于要计算并更新梯度，一般是计算密集。但是推理一般是访存密集。

现在大火的transformer，除非它就是AGI的最理想模型，不然为一个模型专门定制硬件，很容易钱就打水漂了。为自己的算法模型定制一块AI芯片，如特斯拉。但应用面越窄，出货量就越低，摊在每颗芯片上的成本就越高，这反过来推高芯片价格，高价格进一步缩窄了市场，因此独立的AI芯片必须考虑尽可能适配多种算法模型。¹

当然，也可以从workload的应用出发，分析有什么重复的热点，值得做成专用的电路单元。

2023年12月20日
分类于 Artificial Intelligence
需要 9 分钟阅读时间

Ideas around T2I2V models

导言

理解当下最流行的多模态模型（e.g., 生成text2image, text2video，理解image2text，video2text）

排行榜: Vbench

当前主流的多模态生成模型（如图像生成和视频生成）主要采用Latent Stable Diffusion的方案框架。为了减少计算量，图像/视频等模态的数据（噪声）先经过VAE压缩得到Latent Vector，然后在文本信息的指导下进行去噪，最后生成符合预期的图像或视频。
当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程，充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段，如先进行模态对齐的一阶段预训练，然后进行二阶段的参数微调。

2023年12月19日
分类于 Math
需要 1 分钟阅读时间

Turing Machine & P versus NP problem

导言

在回顾数理逻辑的时候，又想起了NP问题，和NP完全的问题

2023年12月19日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

AI Model Design Effectiveness

导言

作为非AI从业者，而是（即将成为）HPC赋能AI的工作者。我一直在思考，我对AI模型的了解应该止步于什么程度？

从AI模型设计的有效性角度切入，应该是我的学习的Sweet Spot / tradeoff。

意义：明白哪些层和哪些参数是有效的，对于模型压缩(模型裁剪，权重剪枝)来说是必要。远比算子融合等带来的提升大。

有待了解的内容：

相对于领域的复杂的信息量，一个十层的模型竟然能将其表达，Miracle!
有研究表明模型的参数大部分都是无用的，如何判断，如何剔除。

困惑：如何证明网络是学习或存储了真实世界的内在关联，而不只是通过增大了训练数据量和参数而存储了问题的答案。（使用测试集的准确度来量化）

AI的现状/困境： 1. AI研究人员，由具体问题场景出发，利用已有的工具或者特殊设计网络来拟合/建模问题，尝试提取不知名的隐含的特征到网络中，来解决这一类问题。 2. 明显的缺陷：就是不可重复性，缺乏一个模型来统一描述世界的问题，每个问题都要单独设计。

对象：transformer, gpt, stable diffusion(先看效果，在看是否成熟到值得学习，之前生成的多指图简直是精神污染), YOLO。

2023年12月18日
分类于 Artificial Intelligence
需要 4 分钟阅读时间

Deploy Stable Diffusion to A100

导言

图片推理多采用各种GUI(ComfyUI, Stable Diffusion WebUI) ²
训练基于 kohya-trainer 和 GUI，带标签的二次元图片数据可以从 danbooru 爬取。
模型和方法实现，如LyCORIS框架？从civitai免费下载

2023年12月18日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

CV Model

导言

和AIGC 生图相关

2023年12月18日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

Inference Optimization

导言

训练由于要计算并更新梯度，一般是计算密集。但是推理一般是访存密集。