Tag View

#large-language-model

3 published posts

Stanford CS336: lecture 1 Overview, tokenization

Stanford CS336: lecture 1 Overview, tokenization

过去八年,研究人员与底层技术的联系逐渐减弱——八年前他们会自己实现并训练模型,六年前开始下载现成模型(如 BERT)并微调,如今更多只是对专有模型(如 GPT-4、Claude、Gemini)进行提示。虽然抽象层级的提升提高了生产力,但这些抽象并不完全封闭,仍存在漏洞。要进行真正的基础研究,仍需“拆开技术栈”深入理解其原理。本课程的目标就是通过从零构建语言模型来获得这种理解。

2025-09-18 · 20 min read · si-tan-fu-cs336-language-modeling-from-scratch