1. 手撕 attention casual 之类的底层代码
  2. Pytorch 还是得多写
  3. 需要去了解清楚训练数据的准备问题
  4. Agent,reason learning 这些概念要搞清楚
  5. Open manus,等等等 xiangmu
  6. 自己还是得训练一个模型

https://github.com/echonoshy/cgft-llm

MLA (2):从代码和公式角度理解 DeepSeek MLA 的矩阵吸收 (Projection Absorption) https://bruceyuan.com/post/hands-on-deepseek-mla-projection-absorption.html

【LLaMA Factory 微调教程:如何构建高质量数据集?】 https://www.bilibili.com/video/BV1MRMnz1EGW/?share_source=copy_web&vd_source=ec8629ab079093aa739549702649bab1