Artificial Intelligence¶
LLM Model
Classical AI Models
导言
机器学习和人工智能模型算法,从一开始模仿神经元设计,到现在根据任务定制或者基于naive的思想构建(例如对抗思想、感受野、注意力机制)。模型的设计可以说是日新月异,截然不同。但是从高性能计算的角度来看,还是离不开求导操作、矩阵操作、激活函数计算这几点。剩下值得考虑的就是寻找现有或者未来模型构成计算操作的最大公约数,来对其进行特殊软硬件设计加速。或者只是对现有模型的适配加速工作。
AI Compiler
百度
秋招面试时遇到高铁柱前辈。问了相关的问题(对AI专业的人可能是基础知识)
- nvcc编译器不好用吗?为什么要开发tvm之类的编译器?
- 答:首先,nvcc是类似与gcc, msvc(Microsoft Visual C++) 之类的传统的编译器,支持的是CUDA C/C++ 代码。
- 但是tvm编译器是张量编译器,支持的是python之类的代码,将其中的网络设计,编译拆解成各种算子,然后使用cudnn或者特定硬件的高效机器码来执行。
蔚来




数字信号处理器 (Digital signal processor)

HLO 简单理解为编译器 IR。
TVM介绍
- TVM解决的问题:
- 2017年,deploy Deep learning(TF,Pytorch) everywhere(hardware).
- Before TVM,
- 手动调优:loop tiling for locality.
- operator fusion 算子融合。虽然性能高,但是部署不高效
- 编译优化思路引入深度学习
- 定义了算子描述到部署空间的映射。核心是感知调度空间,并且实现compute/schedule 分离
- TVM当前的发展
- 上层计算图表示:NNVM Relay Relax
- 底层优化方式:manual -> AutoTVM(schedule最优参数的搜索,基于AI的cost model) -> Ansor(也不再需要手动写AutoTVM模版,使用模版规则生成代码)
- TVM的额外工作
- HeteroCL: TVM + FPGA


- output Fusion
- 减少Global Memory Copy

把中间算子库替换成编译器?

暂时不好支持张量

AI自动调整变化来调优

自动调参。缺点:
- 需要人工写模版
- 人工导致解空间变小


随机各级循环应用优化策略(并行,循环展开,向量化

介绍了Ansor效果很好

需要进一步的研究学习
暂无
遇到的问题
暂无
开题缘由、总结、反思、吐槽~~
参考文献
无
AI Image
AI tag
https://www.bilibili.com/video/BV1L84y1z7bH/?spm_id_from=333.999.0.0&vd_source=5bbdecb1838c6f684e0b823d0d4f6db3
https://aitag.top/
novelAI
官网要钱,有泄漏的50G的模型,B站有up抽取了其中的一个做了整合包
不知道,会不会有版权问题下架了。
常见问题(环境RTX3070 8G)
- 6G、8G显存生成太慢的问题已经修复
- 百度盘里已经上传了修复包,请下载并且替换hydra_node里所有文件
- 然后6G显存请使用6g的bat文件 等于8G或者以上的直接使用start.bat
- 网址是 127.0.0.1:6969
- CTRL+C 好像才能启动?
- RTX3070 大概20s一张
可以把start.bat改成sh脚本在实验室A100上跑
参考文献
作者:秋葉aaaki https://www.bilibili.com/read/cv19038600?spm_id_from=333.788.b_636f6d6d656e74.7 出处:bilibili