这里是上海科技大学“从零构建大语言模型”系列讲座的相关课件资料。
- Lec1:BPE分词系统设计及算法优化
- Lec2:Transformer模型架构及其现代改进
- Lec3:Transformer架构的代码实现
- Lec4:LLM的训练及自回归解码
其中Lec1、3、4为工程实践讲座,涉及了大量代码实现的讲解,主讲人为匡鹏昊;Lec2为基础知识讲座,主要为Lec3、4做重要的基础铺垫,主讲人为洪沐天。
完整源代码链接:https://github.com/kuangpenghao/CS336-Assignment1
- Lec1 Overleaf只读链接:https://cn.overleaf.com/read/pxgrjymcrnkd#a268fe
- Lec3 Overleaf只读链接:https://cn.overleaf.com/read/cqgbnyxrnxpx#fde4f4
- Lec4 Overleaf只读链接:https://cn.overleaf.com/read/dytmhqxvpstt#92b02c
- Lec2为pptx格式,可直接在仓库中下载
- Lec1、3、4已授权使用、修改与传播
- Lec1讲座回放:https://www.bilibili.com/video/BV1EJsPzpEp8/?spm_id_from=333.1387.list.card_archive.click&vd_source=08a41c5edcbb3c6b47b413058d956b5e
- Lec2讲座回放:https://www.bilibili.com/video/BV1WVs6zAEs5?spm_id_from=333.788.recommend_more_video.0&trackid=web_related_0.router-related-2206419-7v86w.1763882232417.107&vd_source=08a41c5edcbb3c6b47b413058d956b5e
- Lec3讲座回放:https://www.bilibili.com/video/BV1nUUTBCEbB/?vd_source=08a41c5edcbb3c6b47b413058d956b5e
- Lec4讲座回放:https://www.bilibili.com/video/BV1yNSBBTEfS/?spm_id_from=333.1387.list.card_archive.click&vd_source=08a41c5edcbb3c6b47b413058d956b5e
该系列讲座取材自斯坦福大学同名课程《CS336:Language Modeling From Scratch》的Assignment1,并已获得该课程开课者:斯坦福大学Hashimoto教授授权。
Contributor: 23 CS 匡鹏昊 & 22 CS 洪沐天