along's Garden

Recent Writing

mini-r1 重现
Mar 21, 2026
卷积神经网络 CNN简史与原理
Mar 21, 2026
大模型使用技巧
Mar 21, 2026

See 12 more →

Recent posts

{{title}}
Mar 21, 2026
{{title}}
Mar 21, 2026
读论文感想
Mar 21, 2026

See 31 more →

训练数据准备

Sep 01, 20251 min read

手撕 attention casual 之类的底层代码
Pytorch 还是得多写
需要去了解清楚训练数据的准备问题
Agent，reason learning 这些概念要搞清楚
Open manus，等等等 xiangmu
自己还是得训练一个模型

https://github.com/echonoshy/cgft-llm

MLA (2)：从代码和公式角度理解 DeepSeek MLA 的矩阵吸收 (Projection Absorption) https://bruceyuan.com/post/hands-on-deepseek-mla-projection-absorption.html

【LLaMA Factory 微调教程：如何构建高质量数据集？】 https://www.bilibili.com/video/BV1MRMnz1EGW/?share_source=copy_web&vd_source=ec8629ab079093aa739549702649bab1

Graph View

Created with Quartz v4.5.0 © 2026

GitHub