跳转至

笔记

劝退指南:不是博客,而是笔记,甚至是草稿

写笔记是为了让自己看懂,写博客是为了让别人看懂,不一样的,认真做好后者对自己各方面能力的提升会非常大(比如表达能力),其实很多时候记笔记就是写几段自己能看懂的表达,很随性,但写博客更像是写一篇论文,需要自己先彻底搞明白一个东西后才能输出1

我一直努力将内容写成博客。但是后来发现,根本没有时间和心思,来为别人解释很多事情。我的想法是最多是解释给多年后忘记一切的自己听,我还能快速看懂。能达到这点,这些内容的意义对于我就已经足够。

从读者的角度,我并不会推荐任何人阅读这个网站的内容:因为你会遇到以下令人烦躁的场景

  1. 完整性差:某些笔记写着写着就没有了,内容是残缺的。甚至只有一个标题。(这是因为我没有时间填充内容,或者我的研究和注意力转变方向了,弃坑了弃坑了~)
  2. 可读性一般:很少有起承转合的解释语句,笔记的内容逻辑几乎全部靠多级标题维持.
  3. 笔记间关联性低:从读者的角度是看不到本人是如何使用多级文件夹,来组织划分笔记间的内容逻辑。如果你在搜索栏找不到你想要的关键词,那大概率我没接触到这方面的内容。
知识是自然聚类和融合的,但需要两级的文档来过滤内容和撰写正文。小而全、无懈可击的内容应该是所追求的

导致这种情况,其实和我对知识产出过程的理解有关,我认为过程是 知识是自然聚类和融合的

  1. 接触到领域对象(新建文件夹)
  2. 阅读各种文献网站(零散的知识进行简单的聚类)
  3. 上手实践和研究(踩了许多坑,有或多或少的感悟)。

而且三者的占比是前面远大于后面,这样看来我这网站大部分的内容岂不是都是笔记的草稿

我以这样的方式撰写我的正式的毕业论文时,发现这样的处理有利有弊:

  1. 优势:
    1. 速度?:能快速的罗列出内容,填充了大量垃圾内容
    2. 完备性:保留所有必要的相关信息,
  2. 劣势:
    1. 对工作进度的误判:罗列的大量页数迷惑了自己,以为进度很快。其实仔细思路内容的有效性、逻辑关联性。核心观点的提炼。遣词造句都极其耗费时间。
      1. 最重要是导致只看页数的领导对你工作速度的误判导致的嫌弃:一周前就看见里论文写了60页了,怎么两周了还没写完。或者你都60页了快结束了,来帮帮我弄这个~阿米诺斯~
    2. 需要返工:重新整理罗列的垃圾内容,至少需要三倍以上的时间才能整理好。

总结:知识是自然聚类和融合的思想是没错的,但是在实际生产应用时需要两级的信息筛选过滤体系:区分出正文内的todo内容和未整理的archived信息。通过将罗列的完备信息初步分类归档(有基础的逻辑)以待后续使用,正文精心撰写每一句话保证不需要大量返工。

Pytorch 2.5 :Dataset & Dataloader

导言

  • 数据集与数据加载器:学习如何使用torch.utils.data.Dataset和DataLoader来加载和处理数据。
  • 数据预处理:介绍常用的数据预处理方法,如归一化、数据增强等。

Quantitative Finance Fundamentals

导言

  • 相关的金融知识,和两点: 价值选股+低买高卖判断
  • 量化就是基于有限分析的赌博,有赢又输,分析的越多不确定性越少。视野全面,标明不确定性才能致胜。

AQTP : Data Acquisition

导言

如何实现能完全双手离开键盘的自动化量化交易平台(Automated Quantitative Trading Platforms, AQTP):

  1. 实惠的一手数据获取;
  2. 平台无关的交易策略编写
  3. 全自动化流程(支持回测和实盘)

akshare

基于爬虫的方法,太频繁估计会被封?

安装

pip install akshare -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com  --upgrade

测试

目标

  1. 延迟?
  2. 时效性?

测试命令

实时行情数据-东财1

import akshare as ak

stock_zh_a_spot_em_df = ak.stock_zh_a_spot_em()
print(stock_zh_a_spot_em_df)

结果较快返回(4s左右), 就是昨天的

>>> print(stock_zh_a_spot_em_df)
        序号      代码      名称     最新价    涨跌幅    涨跌额  ...           总市值          流通市值   涨速  5分钟涨跌  60日涨跌幅  年初至今涨跌幅
0        1  301086     鸿富瀚   79.30  20.01  13.22  ...  7.137000e+09  3.753928e+09  0.0    0.0   75.13    58.38
1        2  300115    长盈精密   37.72  20.01   6.29  ...  5.131150e+10  5.116357e+10  0.0    0.0   76.26   134.14
2        3  688332    中科蓝讯  139.82  20.00  23.30  ...  1.686204e+10  6.196033e+09  0.0    0.0   35.64     7.97
3        4  300836    佰奥智能   56.41  20.00   9.40  ...  5.228395e+09  3.565667e+09  0.0    0.0   26.85    95.26
4        5  300539    横河精密   48.48  20.00   8.08  ...  1.299752e+10  8.364546e+09  0.0    0.0  254.13   362.15
...    ...     ...     ...     ...    ...    ...  ...           ...           ...  ...    ...     ...      ...
5748  5749  000018    神城A退     NaN    NaN    NaN  ...           NaN           NaN  NaN    NaN    0.00     0.00
5749  5750  000015   PT中浩A     NaN    NaN    NaN  ...           NaN           NaN  NaN    NaN    0.00     0.00
5750  5751  000013  *ST石化A     NaN    NaN    NaN  ...           NaN           NaN  NaN    NaN    0.00     0.00
5751  5752  000005    ST星源     NaN    NaN    NaN  ...           NaN           NaN  NaN    NaN    0.00     0.00
5752  5753  000003   PT金田A     NaN    NaN    NaN  ...           NaN           NaN  NaN    NaN    0.00     0.00

[5753 rows x 23 columns]
>>> type(stock_zh_a_spot_em_df)
<class 'pandas.core.frame.DataFrame'>

参考


  1. https://akshare.akfamily.xyz/data/stock/stock.html#id12 

Blind Date Tips

导言

相亲是展现真实自我,寻找志趣相投另一半的过程。

Ideas around Vision-Language Models (VLMs)

导言

  • 当前主流的多模态生成模型(如图像生成和视频生成)主要采用Latent Stable Diffusion的方案框架。为了减少计算量,图像/视频等模态的数据(噪声)先经过VAE压缩得到Latent Vector,然后在文本信息的指导下进行去噪,最后生成符合预期的图像或视频。排行榜: Vbench
  • 当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。