- 手撕 attention casual 之类的底层代码
- Pytorch 还是得多写
- 需要去了解清楚训练数据的准备问题
- Agent,reason learning 这些概念要搞清楚
- Open manus,等等等 xiangmu
- 自己还是得训练一个模型
https://github.com/echonoshy/cgft-llm
MLA (2):从代码和公式角度理解 DeepSeek MLA 的矩阵吸收 (Projection Absorption) https://bruceyuan.com/post/hands-on-deepseek-mla-projection-absorption.html
【LLaMA Factory 微调教程:如何构建高质量数据集?】 https://www.bilibili.com/video/BV1MRMnz1EGW/?share_source=copy_web&vd_source=ec8629ab079093aa739549702649bab1