AI – 陈少文的网站

HuggingFace 的模型和数据操作

📅 2023年08月21日 · ☕ 3 分钟

HuggingFace 通过提供共享模型 model、数据集 dataset、在线托管 space 等服务，为 AI 研究人员和开发者提供了一个完整的生态。本篇文章将介绍如何使用 HuggingFace 的模型和数据集。 1. 模型操作与使用 1.1 自定义存储目录 1 export HF_HOME=/Volumes/Data/HuggingFace 否则默认在 ~/.cache/huggingface 目录下。 1.2 模型的下载第一种方法，页面上

Transformer 学习笔记

📅 2023年08月20日 · ☕ 4 分钟

1. 为什么是 Transformer 全连接的自注意以往的 RNN 模型，每个单词只能和邻近的单词产生联系，而 Transformer 模型中的 Attention 机制，单词可以和任意位置的单词产生联系，这样就可以捕捉到全局的上下文信息。没有梯度消失问题 RNN 作用在同一个权值矩阵上，使得其最大的特征值小于 1 时，就会出现

影响使用大模型的技术因素

📅 2023年08月19日 · ☕ 4 分钟

1. 大模型到底是什么先请两位大模型回答一下这个问题，看看他们的回答是什么。 Claude 说，大模型本质上是语言知识的概率表达，通过统计学习对语言各层次规律建模，表征语言生成的先验分布，从而具备语言预测生成能力。 ChatGPT 说，大模型本质是深度神经网络通过大量参数和

AI 基础知识点

📅 2023年08月18日 · ☕ 6 分钟

1. 关键字机器学习(ML) 从数据中自动获取知识的技术神经网络(NN) 模仿生物神经网络结构和学习机制的模型，是机器学习的分支之一神经网络的结构包括，输入层、隐藏层、输出层深度神经网络(DNN) 隐含层常常大于 2 层 DNN 的出众表现源于它使用统计学方法从

使用 OpenAI 和 Langchain 通过对话直接调用函数

📅 2023年08月16日 · ☕ 5 分钟

1. 大模型与 Langchain 很多人可能没有机会训练、甚至微调大模型，但对大模型的使用却是未来趋势。那么，我们应该如何拥抱这一变化呢？答案就是 Langchain。大模型提供的是一种泛而通用的基础能力，目前，我看到的有两种主要落地方式：基于生成能力的 AIGC，