#large-language-model

Stanford CS336: assignment 1

作业一官方仓库：https://github.com/stanford-cs336/assignment1-basics

2025-11-22 · 60 min read · si-tan-fu-cs336-language-modeling-from-scratch

Stanford CS336: lecture 2 Pytorch, Resource Accounting

主要介绍训练模型所需的基本要素，从张量到模型、再到优化器与训练循环，强调资源效率，尤其是内存（GB）与计算量（FLOPs）的核算。课程不涉及 Transformer，而是通过更简单的模型来讲解。

2025-09-25 · 25 min read · si-tan-fu-cs336-language-modeling-from-scratch

Stanford CS336: lecture 1 Overview, tokenization

过去八年，研究人员与底层技术的联系逐渐减弱——八年前他们会自己实现并训练模型，六年前开始下载现成模型（如 BERT）并微调，如今更多只是对专有模型（如 GPT-4、Claude、Gemini）进行提示。虽然抽象层级的提升提高了生产力，但这些抽象并不完全封闭，仍存在漏洞。要进行真正的基础研究，仍需“拆开技术栈”深入理解其原理。本课程的目标就是通过从零构建语言模型来获得这种理解。

2025-09-18 · 20 min read · si-tan-fu-cs336-language-modeling-from-scratch