Tags
11 pages
预训练
Femtotron开发日志 #11 监督微调 Supervised Fine-Tuning, SFT
Femtotron开发日志 #10 ZeRO-3、SAC和PP:一个简单的显存节省收益数据测试和分析
Femtotron开发日志 #9 流水线并行 Pipeline Parallelism
Femtotron开发日志 #8 选择性激活检查点 Selective Activation Checkpointing
Femtotron开发日志 #7 ZeRO-3模式:抽象设计、Bug排查和教训总结
Femtotron开发日志 #6 ZeRO-1和ZeRO-2模式:抽象设计、工程实现和占位符
Femtotron开发日志 #5 数据并行 Data Parallelism
Femtotron开发日志 #4 混合精度训练
Femtotron开发日志 #2 训练框架中的TP并行模式,工厂模式、注册表模式和函数修饰器
LLM 学习日志 #4 预训练框架:Megatron-LM、DeepSpeed和FSDP
1
2