Posts
使用云上基础设施遇到的一些坑
· ☕ 4 分钟
1. 配额限制 每种云上的资源,能用多少是有限制的。 这是云厂为了防止资源滥用,降低租户之间的相互影响。 比如,一个账户下的企业项目数、弹性主机的数量、弹性公网 IP 的数量、弹性公网 IP 带宽的大小等。 因配额不够导致的资源申请失败,很常见;但在弹性业务高峰期

transformers 库的使用
· ☕ 4 分钟
transformers 是由 Hugging Face 开发的 Python 库,用于在自然语言处理(NLP)任务中使用和训练预训练的 Transformer 模型。它提供了许多强大的工具和功能,使得处理文本数据和构建 NLP 模型变得更加容易。该库广泛应用于各种 NLP 任务,如文本分类、命名实体识别、问答、文本生成等。 1. transformers 中的 pipeline pipeline 提供

HuggingFace 的模型和数据操作
· ☕ 3 分钟
HuggingFace 通过提供共享模型 model、数据集 dataset、在线托管 space 等服务,为 AI 研究人员和开发者提供了一个完整的生态。本篇文章将介绍如何使用 HuggingFace 的模型和数据集。 1. 模型操作与使用 1.1 自定义存储目录 1 export HF_HOME=/Volumes/Data/HuggingFace 否则默认在 ~/.cache/huggingface 目录下。 1.2 模型的下载 第一种方法,页面上

Transformer 学习笔记
· ☕ 4 分钟
1. 为什么是 Transformer 全连接的自注意 以往的 RNN 模型,每个单词只能和邻近的单词产生联系,而 Transformer 模型中的 Attention 机制,单词可以和任意位置的单词产生联系,这样就可以捕捉到全局的上下文信息。 没有梯度消失问题 RNN 作用在同一个权值矩阵上,使得其最大的特征值小于 1 时,就会出现

影响使用大模型的技术因素
· ☕ 4 分钟
1. 大模型到底是什么 先请两位大模型回答一下这个问题,看看他们的回答是什么。 Claude 说,大模型本质上是语言知识的概率表达,通过统计学习对语言各层次规律建模,表征语言生成的先验分布,从而具备语言预测生成能力。 ChatGPT 说,大模型本质是深度神经网络通过大量参数和