Tutorials¶

2021年7月23日
分类于 Tutorials
需要 2 分钟阅读时间

IPCC Preliminary SLIC Optimization 1

第一部分优化

从数据重用(不重复计算，降低计算量)、计算融合(减少访存次数)、循环重组、改变数据结构入手

数据重用

主体变量数据依赖梳理

一开始所有的RGB颜色在ubuff里，klabel存分类结果

首先经过转换，将ubuff的RGB转换为lvec avec bvec三个double[sz]数组存在私有变量m_lvec m_avec m_bvec,供class内访问

优化建议：lab三种颜色存在一起，访问缓存连续

DoRGBtoLABConversion(ubuff, m_lvec, m_avec, m_bvec);

计算冗余一：

计算出的全体edges,只有一部分在后面一个地方用了196个中心以及周围8个节点。

优化建议：要用edges时再计算(保证了去除不必要计算和计算融合)

优化建议：kseedsl/a/b/x/y 分别用5个vector存是不好的，每个中心的5元组要存在一起，因为访问和修改都是一起的。

优化建议： 1. 核心计算，是不是要拆开？ 2. 除以maxlab[n]，改成乘1/maxlab[n] 3. maxxy没有用，可以除去定义与数组维护（line 429） 4. disxy[i]也就可以不用数组

优化建议： 1. if判断用掩码 2. 想将与每个像素i有关的属性放在一起，但是distvec要全部初始化。那我维护char*的passcheck数组判断是否已经遍历？未遍历直接赋值，已经遍历，比较后判断是否赋值。 3. 对于2和并行化这个部分的问题：1.按照中心划分，存储每个点的距不同中心的距离，最后归约取最小。2. 并行还是按照坐标划分，判断在哪几个区域内，然后计算距离最小的)

优化建议： 1. 对于求和部分labxy与1/clustersize??存在一起 2. 这部分按坐标并行时，归约的是196个元素的最小值或者求和

vector 连续性

vector中的元素在内存中是连续存储的.

vector的实现是由一个动态数组构成. 当空间不够的时候, 采用类似于C语言的realloc函数重新分配空间. 正是因为vector中的元素是连续存储的, 所以vector支持常数时间内完成元素的随机访问. vector中的iterator属于Random Access Iterator.

cache缓存原理疑问

每级cache难道只存读取数据周围的所有地址数据吗？还是一块一块读的。

假如调度是一块一块读取的而且cache足够大存下时，对于m_lvec m_avec m_bvec，假如各读取同一块，会导致和将其存储在一起是一样的效果。对于m_lvec[i]的下一个元素m_lvec[i+1],m_avec[i+1],m_bvec[i+1]也在cache中。

chivier 建议

#pragma omp parallel for collapse(2)
icpc -xCOMMON-AVX512 -O3 -std=c++11 -qopenmp SLIC.cpp -o SLIC
g++ -fopenmp
先openMP优化，然后MPI一分为二
数据结构没有必要改，不会访存连续

minicoda for tmux zsh htop gcc9

pip install gdbgui to localhost

gdb tui enable

Analysis Software

tools

intel vtune
GNU gprof
linux perf
valgrind
memcheck
callgrind
cachegrind
Helgrind
ITAC (for MPI)
IPM (for MPI)
Charging software
paramon
paratunes

PML 组件框架负责管理所有消息的传递，实现了 MPI 点点通信原语，包括标准、缓冲、准备和同步四种通信模式。PML 根据具体的调度策略对 MPI 消息进行调度，该策略是根据 BTL 的具体属性决定的。短消息传递协议和长消息传递协议也是在 PML 中实现的。所有控制信息（ACK/NACK/MATCH）也都由 PML 进行管理。这种结构的优点是将传输协议从底层互连中分离出来，显著的降低了代码的复杂度和冗余度，增强了可维护性。

需要进一步的研究学习

不使用btl??

遇到的问题

暂无

参考文献

https://docs.oracle.com/cd/E19923-01/820-6793-10/mca-params.html

https://www.open-mpi.org/faq/?category=openfabrics

http://blog.sysu.tech/MPI/OpenMPI/OpenMPI%E5%B8%B8%E7%94%A8%E6%8A%80%E5%B7%A7/

https://blog.csdn.net/qq_15457239/article/details/49152209

2021年7月19日
分类于 Tutorials
需要 4 分钟阅读时间

IPCC Preliminary SLIC Analysis part4 : cluster environment

id

[sca3173@ln121%bscc-a5 ~]$ id sca3173
do_ypcall: clnt_call: RPC: Remote system error
do_ypcall: clnt_call: RPC: Remote system error
uid=5804(sca3173) gid=5804(sca3173) groups=5804(sca3173),1518

cpu

Intel(R) Xeon(R) Silver 4208 CPU @ 2.10GHz

slurm

ON AVAIL  TIMELIMIT  NODES  STATE NODELIST 
amd_256      up   infinite      3 drain* fa[0512,0911],fb1111 
amd_256      up   infinite      1  down* fa0714 
amd_256      up   infinite      1   comp fb1106 
amd_256      up   infinite     16  drain fa[0109,0411,0414,0601,0608-0609,0810,1203],fb[0104,0110,0513,0908,1007,1208,1212,1216] 
amd_256      up   infinite    377  alloc fa[0101-0108,0110-0116,0201-0202,0204-0216,0301-0316,0401-0410,0412-0413,0415-0416,0501-0511,0513-0516,0602-0607,0610-0616,0701-0713,0715-0716,0801-0809,0811,0813-0816,0901-0910,0912-0916,1001-1016,1101-1116,1201-1202,1204-1216,1301-1316],fb[0101-0103,0105-0109,0111-0116,0201-0204,0207-0216,0301-0316,0401-0416,0501-0512,0514-0516,0601-0616,0702-0716,0803-0815,0901-0904,0906-0907,0909-0911,0913-0916,1001-1003,1010,1012-1014,1016,1101,1103-1105,1107-1110,1113-1115,1201-1207,1211,1213-1214,1302-1304,1309-1315],fc[0101-0105,0115,0205-0207,0209,0215]

memery

[sca3173@ln121%bscc-a5 ~]$ cat /proc/meminfo
MemTotal:       196339948 kB = 187gB
MemFree:        89580888 kB = 85 gB
MemAvailable:   163166580 kB = 102 gB

architecture

[sca3173@ln121%bscc-a5 public1]$ lsb_release -d | awk -F"\t" '{print $2}'
CentOS Linux release 7.9.2009 (Core)

[sca3173@ln121%bscc-a5 public1]$ cat /proc/version
Linux version 3.10.0-1160.el7.x86_64 ([email protected]) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC) ) #1 SMP Mon Oct 19 16:18:59 UTC 2020

GPU 集显

[sca3173@ln121%bscc-a5 public1]$  lshw -numeric -C display
WARNING: you should run this program as super-user.
  *-display                 
       description: VGA compatible controller
       product: Integrated Matrox G200eW3 Graphics Controller [102B:536]
       vendor: Matrox Electronics Systems Ltd. [102B]

disk

[sca3173@ln121%bscc-a5 public1]$ df -h /public1
Filesystem                                Size  Used Avail Use% Mounted on
10.10.58.1@o2ib:10.10.58.2@o2ib:/public1  2.7P  240T  2.3P  10% /public1

IP 内网IP

[sca3173@ln121%bscc-a5 public1]$ hostname -I | awk '{print $1}'
172.16.58.14

compute node

Architecture: CPU op-mode(s): Byte Order: CPU(s): On-line CPU(s) list: Thread(s) per core: Core(s) per socket: Socket(s): NUMA node(s): Vendor ID: CPU family: Model: Model name: Stepping: CPU MHz: BogoMIPS: Virtualization: L1d cache: L1i cache: L2 cache: L3 cache: NUMA node0 CPU(s): NUMA node1 CPU(s): Flags:

href="#__codelineno-26-1">> cat lscpu.txt x86_64 32-bit, 64-bit Little Endian 64 0-63 1 32 2 2 AuthenticAMD 23 49 AMD EPYC 7452 32-Core Processor 0 2345.724 4691.44 AMD-V 32K 32K 512K 16384K 0-31 32-63 fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc art rep_good nopl nonstop_tsc extd_apicid aperfmperf eagerfpu pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 x2apic movbe popcnt aes xsave avx f16c rdrand lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt tce topoext perfctr_core perfctr_nb bpext perfctr_l2 cpb cat_l3 cdp_l3 hw_pstate sme retpoline_amd ssbd ibrs ibpb stibp vmmcall fsgsbase bmi1 avx2 smep bmi2 cqm rdt_a rdseed adx smap clflushopt clwb sha_ni xsaveopt xsavec xgetbv1 cqm_llc cqm_occup_llc cqm_mbm_total cqm_mbm_local clzero irperf xsaveerptr arat npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold avic v_vmsave_vmload vgif umip overflow_recov succor smca

没有gcc/7.3.0

比赛是2节点128核的环境

计算节点网络拓扑图

我们是A5 分区。

没有找到手册，只有一个官网图。但是虽然频率是2.35GHz,但是内存只有251GB啊,什么情况。

2021年7月14日
分类于 Tutorials
需要 2 分钟阅读时间

IPCC Preliminary SLIC Analysis part3 : Hot spot analysis

vtune hotspots

vtune threading

GUN profile gprof + gprof2dot graphviz

g++ -pg -g -std=c++11 SLIC.cpp -o SLIC
./SLIC # generate gmon.out
less gmon.out
    "gmon.out" may be a binary file.  See it anyway?
gprof ./SLIC
gprof ./SLIC|  /home/shaojiemike/github/isc21-gpaw/LogOrResult/profile/gprof2dot.py -n0 -e0 | dot -Tpng -o output.png

没什么用

接下来

向量化
并行化

什么时候OpenMP并行,什么时候MPI并行

根据具体资源情况来，貌似是一个节点，那可以从OpenMP入手

自动并行化

Intel编译器的自动并行化功能可以自动的将串行程序的一部分转换为线程化代码。进行自动向量化主要包括的步骤有，找到有良好的工作共享(worksharing)的候选循环；对循环进行数据流(dataflow)分析，确认并行执行可以得到正确结果；使用OpenMP指令生成线程化代码。

/Qparallel：允许编译器进行自动并行化

/Qpar-reportn：n为0、1、2、3，输出自动并行化的报告

说明：/Qparallel必须在使用O2/3选项下有效

c++向量化怎么实现

什么是向量化

所谓的向量化，简单理解，就是使用高级的向量化SIMD指令（如SSE、SSE2等）优化程序，属于数据并行的范畴。

如何对代码向量化

向量化的目标是生成SIMD指令，那么很显然，要对代码进行向量化，

第一是依靠编译器来生成这些指令；

第二是使用汇编或Intrinsics函数。

自动向量分析器

Intel编译器中，利用其自动向量分析器（auto-vectorizer）对代码进行分析并生成SIMD指令。另外，也会提供一些pragmas等方式使得用户能更好的处理代码来帮助编译器进行向量化。

基本向量化 /Qvec：开启自动向量化功能，需要在O2以上使用。在O2以上，这是默认的向量化选项，默认开启的。此选项生成的代码能用于Intel处理器和非Intel处理器。向量化还可能受其他选项影响。由于此选项是默认开启的，所以不需要在命令行增加此选项。
针对指令集（处理器）的向量化 /QxHost：针对当前使用的主机处理器选择最优的指令集优化。

对于双重循环，外层循环被自动并行化了，而内层循环并没有被自动并行化，内层循环被会自动向量化。

影响向量化的因素

首先当然是指令集是否支持
内存对齐相关的问题，也是影响向量化的，很多的SSE指令都要求内存是16字节对齐，如果不对齐，向量化会得到错误结果。

如何判断向量化成功

看汇编代码没成功需要手动内联向量化汇编代码???

Intel 编译器的向量化实现

AMD 编译器向量化实现

AMD 与 Intel 编译器的区别

需要进一步的研究学习

暂无

遇到的问题

暂无

参考文献

https://blog.csdn.net/gengshenghong/article/details/7027186

https://blog.csdn.net/gengshenghong/article/details/7034748

https://blog.csdn.net/gengshenghong/article/details/7022459

2021年7月12日
分类于 Tutorials
需要 3 分钟阅读时间

IPCC Preliminary SLIC Analysis part2 : Run process

VScode Debug Run

Debug Process

创建lables来存储分类结果, m_spcount 200, m_compactness 10
计时运行 slic.PerformSLICO_ForGivenK(img, width, height, labels, numlabels, m_spcount, m_compactness);
参数的最后两项是required number of superpixels和weight given to spatial distance(空间距离的权重)也就是K=200
串行初始化赋值klabels[s] = -1
DoRGBtoLABConversion(ubuff, m_lvec, m_avec, m_bvec);对于整个图像：重载的浮点版本
1. 提取第一个像素rgb(229,226,218)
2. 串行RGB2LAB( r, g, b, lvec[j], avec[j], bvec[j] );
3. int变成double数组
声明perturbseeds true，edgemag
DetectLabEdges(m_lvec, m_avec, m_bvec, m_width, m_height, edgemag);
1. 串行对每个像素进行$\(dx=(l[i-1]-l[i+1])^2+(a[i-1]-a[i+1])^2+(b[i-1]-b[i+1])^2$\)$\(dy=(l[i-width]-l[i+width])^2+(a[i-width]-a[i+width])^2+(b[i-width]-b[i+width])^2$\)$\(edgemag[i]=dx+dy$\)为了之后计算6.5-PerturbSeeds
2. 值得注意的是i的取值说2600 = width+1是第二行第二列，一直到倒数第二行倒数第二列
GetLABXYSeeds_ForGivenK(kseedsl, kseedsa, kseedsb, kseedsx, kseedsy, K, perturbseeds, edgemag);
1. int step = sqrt(double(sz)/double(K)); $S=\sqrt{N/k}=225$
2. xoff 与 yoff 为一半 112
3. int X = x*step + (xoff<<(r&0x1));六角网格???
4. 串行对每个绿圈存了颜色坐标五元组在kseedsl/a/b/x/y 有196个中心
5. PerturbSeeds(kseedsl, kseedsa, kseedsb, kseedsx, kseedsy, edgemag);
  1. 串行对这196个中心和周围8个位置进行，最小edgemag值的寻找。
  2. 并更新196个中心的位置
int STEP = sqrt(double(sz)/double(K)) + 2.0;
PerformSuperpixelSegmentation_VariableSandM(kseedsl,kseedsa,kseedsb,kseedsx,kseedsy,klabels,STEP,10);
1. if(STEP < 10) offset = STEP*1.5;
2. DBL_MAX ? doubel_max 1.7976931348623157e+308
3. 变量sigma , distxy, maxxy
4. double invxywt = 1.0/(STEP*STEP);
5. 迭代10次
  1. 对中心聚类
    1. 串行对这196个中心首先划出[2S*2S]的区域（上下左右offset或者STEP）
    2. 再串行对这$4S^2$的区域的每个像素，计算与其区域中心的距离 $\(dist = \frac{(l-kl[n])^2+(a-ka[n])^2+(b-kb[n])^2}{maxlab[n]}+\frac{(x-kx[n])^2+(y-ky[n])^2}{S^2}$\)
    3. 注意maxlab[n]初始值是10*10,根据dist更新该像素的距离中心的最小距离数组distvec,和指向的最近中心klable由于是2S*2S,相邻中心的周围区域是有一部分重叠的(如图中黄色荧光笔区域)，相当于聚类到各个中心，注意由于中心对自己dist=0,是不可能某一中心距离其他中心更近。
  2. 串行将maxlab与maxlab更新为该聚类集合里的最大值
    1. 注意maxlab与maxlab都是每个中心维护一个
  3. 质心移动：串行将每个聚类区域的每个点的五元组加到质心上，然后除以聚类区域元素总数来得到新的质心五元组
  4. 迭代10次结束（其实可以判断质心是否不再移动来提前结束）
EnforceLabelConnectivity(klabels, m_width, m_height, nlabels, numlabels, K);
1. 串行新数组赋值for( int i = 0; i < sz; i++ ) nlabels[i] = -1;全部标记为未处理
2. 串行对所有元素进行如下处理
  1. 如果旧index未被处理
    1. 在其左下上右找到已经处理的元素的nlable,将其值保存在adjlable里
    2. 从该元素开始上下左右寻找未处理，而且其klabels值与旧klabels值相同的元素。
      1. 将其nlable值改为lable,应该也达到标记为已处理的效果
      2. 最终效果就是把该元素相邻连接区域klabels值与旧klabels值相同的全部标记
    3. 如果这块相邻区域过小count <= SUPSZ >> 2
      1. 则将其全部元素赋值为adjlable，即并入上块区域
  2. 旧index++。
  3. 最终效果就是所有的元素重新整合聚类，达到消除过小区域与不连续区域的效果
结果与check.ppm对比
我以为只要读取lable的分类，大概sz个int
fread(rgb, (w)(h)3, 1, fp);
作者是傻逼，只用了1/3的空间

skills: size of arrays

a.size()

需要进一步的研究学习

暂无

遇到的问题

暂无

参考文献

无

2021年7月11日
分类于 Tutorials
需要 1 分钟阅读时间

Deepfake - unravel/Baka Mitai

First way :

https://www.youtube.com/watch?v=_laN9jJO63Q

https://www.youtube.com/watch?v=MXNBtws35WE

Baka Mitai all in one

https://colab.research.google.com/github/AliaksandrSiarohin/first-order-model/blob/master/demo.ipynb#scrollTo=Oxi6-riLOgnm

但是由于上传的文件不能太大,对于unravel可以按照youtube视频的传无声音版本，然后用kapwing在线合成导出。

效果展示1替换

效果展示2替换

效果文件链接

https://raw.githubusercontent.com/Kirrito-k423/Picbed/main/img/final_60eaff63b13be700ab0582c8_20002.mp4

和

http://pic.shaojiemike.top/PicGo%E4%B8%8B%E8%BD%BD.mp4

2021年7月10日
分类于 Tutorials
需要 2 分钟阅读时间

PicBed & OSS

PicGo介绍

这是一款图片上传的工具，目前支持微博图床，七牛图床，腾讯云，又拍云，GitHub等图床，未来将支持更多图床。

所以解决问题的思路就是，将本地的文件，或者剪切板上面的截图发送图床，然后生成在线图片的链接，走到哪就可以用到哪。

创建github仓库
在设置的最后生成token
下载PicGo并设置github图床

Cloudflare R2 Storage

对象存储有时也称为 Blob 存储，可以存储任意的大型非结构化文件。我们常用的有 AWS 的 S3、阿里云的 OSS、腾讯云的 COS、华为云的 OBS，都是对象存储，他们都可以为我们提供延迟一致、持久性高和容量无限的服务，免去了我们本地文件系统的共享、备份等痛点。

最为经典的是 AWS 的 S3（Simple Storage Service），刚刚推出的时候是革命性的服务，但也带来了新的痛点，上传、存储的费用还可以，但下载也就是取回的时候会被收取流量费，这个费用随着时间的推移，存储的文件越来越多，流量费也变得越来越高。

2022年 5月 Cloudflare 就为我们带来了 R2 Storage，基于带宽联盟，为存储对象提供更低成本的存储服务。在后台，R2 自动智能管理数据分层，以在峰值负载时提高性能，并为不经常请求的对象降低成本。

R2 的革命性

在上面我们了解了 Cloudflare R2 Storage 收费项目，发现了什么？只收取存储费用、操作费用，没有流量费用！是的没有流量费用，这就是 Cloudflare R2 Storage 的革命性，依托带宽联盟，做到了零出口费用！⁵

picbed / OSS compare

github图床，国内连不上
(推荐)七牛申请了免费的证书证书,由于是海外访问还是慢。
one drive虽然能用也能访问，但是速度慢而且操作麻烦，只能一个个传。而且会失效
OSS charge but easy-to-use.

定价对比

服务名称	存储费用	请求操作费用	网络流量费用
Cloudflare R2	10GB/月免费 + 超量部分 $0.015/GB/月	100万次操作/月免费 + 超量部分 $4.50/百万次操作（B类操作）	免费
阿里云 OSS	0.12元/GB/月（1）	0.01元/万次请求	0.50元/GB

(6GB内无需购买套餐，最低配置一年9元/40GB)
B类操作费用说明：每月有1000万次免费额度，超出后每百万次收取 $0.36 的操作费

对象读取属于B类操作

A类操作：费用较高，通常涉及状态变更（如上传、删除）
B类操作：通常为读取操作（如查看文件、获取元数据）

当前图床使用统计

时间节点	存储量	月流量	请求次数
阿里云 2023年10月	395.13MB	21.41GB	61,490次
Cloudflare 2023年11月	490MB	未统计	9,110次

当前月支出约10元且费用增长较快

我的选择分析

自建服务器的可行性
我的博客本质是个人知识库（非跨平台发布），理论上可通过自建服务器存储图片，无需图床服务。
Cloudflare + GitHub方案的三大隐患
存储限制：图片可能触及 GitHub 仓库的推荐存储上限（官方建议不超过5GB）
构建延迟：每次推送代码后，Cloudflare Pages 会克隆整个图片仓库，导致博客构建时间过长（超20分钟会触发超时）
文件大小限制：Cloudflare Pages 对静态文件有单文件25MB的限制
最终建议
综合考量仍推荐使用对象存储（如阿里云OSS），规避GitHub方案的潜在问题。

旧版阿里云图床配置

详见

# 配置参数
* 存储空间名 shaojiemike
* 存储区域 oss-cn-hangzhou
* 存储路径 img/

参考文献

2021年7月10日
分类于 Tutorials
需要 1 分钟阅读时间

IPCC Preliminary SLIC Analysis

VScode Debug Run

{
    "name": "(gdb) 启动",
    "type": "cppdbg",
    "request": "launch",
    "program": "/home/shaojiemike/github/IPCC/SLIC/SLIC",
    "args": [],
    "stopAtEntry": false,
    "cwd": "${fileDirname}",
    "environment": [],
    "externalConsole": false,
    "MIMode": "gdb",
    "setupCommands": [
        {
            "description": "为 gdb 启用整齐打印",
            "text": "-enable-pretty-printing",
            "ignoreFailures": true
        }
    ]
}

g++ -g -std=c++11 SLIC.cpp -o SLIC #把调试信息加到可执行文件中，如果没有-g，你将看不见程序的函数名、变量名，所代替的全是运行时的内存地址。

Debug Process

main
LoadPPM 把数据读入imag
读类型、像素图片长宽 2599 3898
读最大像素 255(应该是指rgb颜色，比如red只有256种，也就是8位二进制)
读长宽的像素的rgb到imag返回,imag是2599*3898大小的unsigned int二维数组,每位存24位数2进制数。
创建lables来存储分类结果, m_spcount 200, m_compactness 10
计时运行 slic.PerformSLICO_ForGivenK(img, width, height, labels, numlabels, m_spcount, m_compactness);//for a given number K of superpixels
结果与check.ppm对比

skills: watch arrays

*(int(*)[100])labels
*labels@10000

2021年7月10日
分类于 Tutorials
需要 1 分钟阅读时间

IPCC Preliminary SLIC test

test on node5

g++ -std=c++11 SLIC.cpp -o SLIC
time ./SLIC
./SLIC  28.46s user 0.52s system 99% cpu 29.027 total

test on amd_256

gcc 10.2.0
[1]    122955 segmentation fault (core dumped)  ./SLIC

我傻逼了，我把cpp移动了，但是输入文件忘记动了

cat ./log/job_436960_rank0_fb0707_0.out
Computing time=21872 ms
There are 0 points' labels are different from original file.

要求

对slic.PerformSLICO_ForGivenK 函数运行时间进行通用优化
首先是并行化处理
读取时间不在计分范围
可以优化编译选项
可以改变数据结构与类型
需保证结果正确
之后有多组数据