使用 DLRover 托管作业进行弹性、容错训练📅 2024年08月17日 · ☕ 12 分钟1. 分布式训练面临的问题 预估训练资源困难,无法自动化 需要多少算力、需要多少时间、需要多少带宽、需要多少 CPU、需要多少内存,如果没有足够的积累,很难估算准确。导致的结果就是,超额申请、超额分配,造成极大的资源浪费。 需要去沉淀和提供解决方案。 故
模型并行训练技术📅 2024年04月04日 · ☕ 3 分钟1. 数据并行 训练步骤: master 设备加载模型,并将模型参数复制到每个 worker 设备 master 设备按照 batch 维度划分训练数据,将每个 batch 传递给每个 worker 设备 每个 worker 设备进行训练 master 设备汇总每个 worker 设备的梯度,更新模型参数 master 设备广播模型参数到每个 worker 设备,准备下一个 batch 训练 核心思想: 将训练