整理
什么是 MLOps
· ☕ 4 分钟
1. 什么是 MLOps MLOps 是 Machine Learning Operations 的缩写,描述的是围绕模型研发整个生命周期过程的标准化和工程化。 MLOps 包括以下几个关键步骤: 数据管理,数据的存储、访问、清洗、转换 模型开发,算法开发、模型构建 模型训练与调优,使用数据训练模型,调整超参数优化模型,微调模型 模型评

常用 GPU 运维及故障处理
· ☕ 4 分钟
处理故障时,参考或者记录下的内容,持续更新中 1. XID 错误事件 XID 是 NVIDIA 的错误码,可以通过命令: 1 dmesg -T | grep -i "NVRM: Xid" 根据 XID 可以定位故障,下面是一些常见的 XID 事件 XID 说明 13 Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问题。 31 GPU memory page fault。

transformers 库的使用
· ☕ 4 分钟
transformers 是由 Hugging Face 开发的 Python 库,用于在自然语言处理(NLP)任务中使用和训练预训练的 Transformer 模型。它提供了许多强大的工具和功能,使得处理文本数据和构建 NLP 模型变得更加容易。该库广泛应用于各种 NLP 任务,如文本分类、命名实体识别、问答、文本生成等。 1. transformers 中的 pipeline pipeline 提供

HuggingFace 的模型和数据操作
· ☕ 3 分钟
HuggingFace 通过提供共享模型 model、数据集 dataset、在线托管 space 等服务,为 AI 研究人员和开发者提供了一个完整的生态。本篇文章将介绍如何使用 HuggingFace 的模型和数据集。 1. 模型操作与使用 1.1 自定义存储目录 1 export HF_HOME=/Volumes/Data/HuggingFace 否则默认在 ~/.cache/huggingface 目录下。 1.2 模型的下载 第一种方法,页面上

Transformer 学习笔记
· ☕ 4 分钟
1. 为什么是 Transformer 全连接的自注意 以往的 RNN 模型,每个单词只能和邻近的单词产生联系,而 Transformer 模型中的 Attention 机制,单词可以和任意位置的单词产生联系,这样就可以捕捉到全局的上下文信息。 没有梯度消失问题 RNN 作用在同一个权值矩阵上,使得其最大的特征值小于 1 时,就会出现