使用 TensorBoard 可视化 PyTorch 训练过程
· ☕ 4 分钟
1. 什么是 TensorBoard TensorBoard 主要是用来监控模型的各种指标的变化,比如 accuracy、loss、各种层的权重分布等。 TensorBoard 是 TensorFlow 的一个可视化工具,支持标量、文本、图像、音频、视频和 Embedding 等多种数据可视化,但是 PyTorch 也可以使用 TensorBoard。 2. 安装 tensorboard 1 pip install tensorboard 3. 使用

使用 PyTorch 在 MNIST 数据集训练模型
· ☕ 3 分钟
1. 创建训练脚本 创建训练脚本 mnist.py,内容如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93

Ubuntu 切换指定版本的内核
· ☕ 2 分钟
1. 安装新的内核版本 推荐使用 apt 源安装,避免安装了不兼容的内核版本。 1.1 源安装 查看可用版本 1 2 3 4 apt list linux-headers-5.15.*-*-generic linux-image-5.15.*-*-generic linux-image-5.15.0-94-generic/focal-updates,focal-security 5.15.0-94.104~20.04.1 amd64 linux-image-5.15.0-97-generic/focal-updates,focal-security 5.15.0-97.107~20.04.1 amd64 安装内核 1 apt install linux-image-5.15.0-97-generic linux-headers-5.15.0-94-generic 1.2 自行下载安装 需要先确认下当前的系统与目标内核版本是否兼容。 下载内核 http://kernel.ubuntu.com/~kernel-ppa/mainline/ 1 2 3 4 wget https://kernel.ubuntu.com/mainline/v5.19/amd64/linux-headers-5.19.0-051900-generic_5.19.0-051900.202207312230_amd64.deb wget amd64/linux-headers-5.19.0-051900_5.19.0-051900.202207312230_all.deb wget https://kernel.ubuntu.com/mainline/v5.19/amd64/linux-image-unsigned-5.19.0-051900-generic_5.19.0-051900.202207312230_amd64.deb wget https://kernel.ubuntu.com/mainline/v5.19/amd64/linux-modules-5.19.0-051900-generic_5.19.0-051900.202207312230_amd64.deb 安装内核 1 dpkg -i *.deb

MPI 通信原语及 Python 编程使用
· ☕ 5 分钟
1. 什么是 MPI MPI,Message Passing Interface 消息传递接口,是一种用于并行计算的通信协议。 MPI 提供了一组标准化的接口,用于在不同的计算节点之间传输数据,广泛应用于科学计算、机器学习、深度学习等领域。 MPI 有多个实现,常用实现有 MPICH 和 OpenMPI。MPICH

Ops 发布 v1.0.0 版本
· ☕ 2 分钟
基于生产的真实需要,最近对 https://github.com/shaowenchen/ops 又进行了几个重要的更新,同时发布了 v1.0.0 版本。这里主要介绍一下这个版本的主要特性。 1. 多集群执行任务的支持 在实践中,建议: 将当前集群的主机创建为 Host 可以创建多个 Cluster,拥有的 Cluster 对象即为纳管的集群 Task、Pipe