跳转至

谭邵杰的计算机奇妙之旅

Artificial Intelligence

Artificial Intelligence¶

2023年12月19日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

AI Model Design Effectiveness

导言

作为非AI从业者，而是（即将成为）HPC赋能AI的工作者。我一直在思考，我对AI模型的了解应该止步于什么程度？

从AI模型设计的有效性角度切入，应该是我的学习的Sweet Spot / tradeoff。

意义：明白哪些层和哪些参数是有效的，对于模型压缩(模型裁剪，权重剪枝)来说是必要。远比算子融合等带来的提升大。

有待了解的内容：

相对于领域的复杂的信息量，一个十层的模型竟然能将其表达，Miracle!
有研究表明模型的参数大部分都是无用的，如何判断，如何剔除。

困惑：如何证明网络是学习或存储了真实世界的内在关联，而不只是通过增大了训练数据量和参数而存储了问题的答案。（使用测试集的准确度来量化）

AI的现状/困境： 1. AI研究人员，由具体问题场景出发，利用已有的工具或者特殊设计网络来拟合/建模问题，尝试提取不知名的隐含的特征到网络中，来解决这一类问题。 2. 明显的缺陷：就是不可重复性，缺乏一个模型来统一描述世界的问题，每个问题都要单独设计。

对象：transformer, gpt, stable diffusion(先看效果，在看是否成熟到值得学习，之前生成的多指图简直是精神污染), YOLO。

2023年12月18日
分类于 Artificial Intelligence
需要 4 分钟阅读时间

Deploy Stable Diffusion to A100

导言

图片推理多采用各种GUI(ComfyUI, Stable Diffusion WebUI) ²
训练基于 kohya-trainer 和 GUI，带标签的二次元图片数据可以从 danbooru 爬取。
模型和方法实现，如LyCORIS框架？从civitai免费下载

2023年12月18日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

CV Model

导言

和AIGC 生图相关

2023年12月18日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

Inference Optimization

导言

训练由于要计算并更新梯度，一般是计算密集。但是推理一般是访存密集。

2023年12月18日
分类于 Artificial Intelligence
需要 3 分钟阅读时间

AI Training Optimization

导言

训练由于要计算并更新梯度，一般是计算密集。但是推理一般是访存密集。

2023年12月18日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

[LLM]: DeekSeekV3

导言

本来在多模态组，结果被拉去优化TX的dspv3部署，还是要熟悉相关概念逻辑。

2023年12月18日
分类于 Artificial Intelligence
需要 4 分钟阅读时间

LLM Model

导言

Foudation Models(One4All): General pre-training model

LLM path ，generative-ai-for-beginners

2023年12月18日
分类于 Artificial Intelligence
需要 8 分钟阅读时间

Classical AI Models

导言

机器学习和人工智能模型算法，从一开始模仿神经元设计，到现在根据任务定制或者基于naive的思想构建(例如对抗思想、感受野、注意力机制)。模型的设计可以说是日新月异，截然不同。但是从高性能计算的角度来看，还是离不开求导操作、矩阵操作、激活函数计算这几点。剩下值得考虑的就是寻找现有或者未来模型构成计算操作的最大公约数，来对其进行特殊软硬件设计加速。或者只是对现有模型的适配加速工作。

2023年12月17日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

Deploy OpenLLM to one A100

导言

Practice is the best teacher in learning.

2023年9月27日
分类于 Artificial Intelligence
需要 8 分钟阅读时间

Introduction to AI and Machine Learning Basics

摘要

AI相关的基础知识。可以参考华为昇腾架构师的博客。