分类目录归档：基础设施

Dropout-

150 views

定义
Dropout是一种在神经网络训练过程中广泛使用的正则化方法。它是在训练阶段，以一定的概率（称为dropout概率，通常用 $p$ 表示）随机地将神经元的输出设置为0，就好像这些神经元被“丢弃”了一样。例如，在一个全连接神经网络层中，如果dropout概率为0.5，那么在每次前向传播过程中，大约有一半的神经元输出会被强制变为0。而在测试阶段，神经元的输出通常会根据训练阶段的dropout概率进行缩放，以保证期望输出与训练阶段的相同。
作用原理
防止过拟合：过拟合是指神经网络过度学习训练数据中的细节和噪声，而对新的数据泛化能力差。Dropout通过随机丢弃神经元，使得网络不...

无差别的加入噪音

140 views

定义
“无差别的加入噪音”是一种数据处理操作。通常是指在数据集中以一种相对均匀、没有特定偏向的方式添加随机干扰因素（即噪音）。例如，在一个时间序列数据集中，对于每一个数据点，按照相同的概率分布（如高斯分布、均匀分布等）随机地添加一个数值作为噪音。
目的和应用场景
模型鲁棒性测试：在机器学习和数据分析中，为了测试模型的鲁棒性，会无差别地加入噪音。例如，在训练好一个图像分类模型后，在测试图像数据上无差别地加入高斯噪音，观察模型的准确率变化。如果模型在加入噪音后的准确率下降幅度较小，说明模型具有较好的鲁棒性。以人脸识别模型为例，在实际应用场景中，图像可能会受到光照变化、轻微抖动等因素产生噪音...

岭回归

145 views

定义
Tikhonov正则化（Tikhonov Regularization）也被称为岭回归（Ridge Regression），是一种用于解决线性回归中可能出现的过拟合问题的正则化方法。给定一个线性回归模型(y = X\beta+\epsilon)，其中(y)是观测值向量（(n\times1)），(X)是设计矩阵（(n\times p)），(\beta)是系数向量（(p\times1)），(\epsilon)是误差向量。传统的最小二乘估计是求(\hat{\beta}=(X^{T}X)^{-1}X^{T}y)，使得残差平方和(\left|y - X\beta\right|^{2})最小...

AI大模型技术架构全景图

218 views

以下是AI大模型技术架构全景图的详细介绍：

基础设施层

GPU（图形处理单元）：针对并行计算进行了优化，在处理大规模数据时优势显著，尤其适用于图像处理和神经网络训练等深度学习任务，能大幅提升计算效率。
CPU（中央处理单元）：作为通用处理器，承担大部分计算任务，在执行逻辑运算和控制任务时表现高效，是计算机系统的关键部分。
RAM（随机存取存储器）：提供计算过程中快速读写数据的临时存储空间，存放正在运行的程序和数据，以便CPU能够迅速访问，从而提升整体计算效率。
HDD（硬盘驱动器）：主要用于存储大量训练数据和模型文件，虽然其访问速度不及RAM，但凭借较大的存储容量，成为长期保存数据的主...

权重衰退-

153 views

一、权重衰退的定义

权重衰退（Weight Decay）是一种在机器学习，特别是神经网络训练过程中经常使用的正则化方法。其主要目的是防止模型过拟合。

在神经网络中，模型的参数（也就是权重）会在训练过程中根据损失函数的梯度不断更新。而权重衰退会在每次更新权重时，给权重一个额外的衰减力，让权重的值不会变得过大。简单来说，它在损失函数中添加了一个惩罚项，这个惩罚项与权重的大小有关。

从数学角度看，假设原始的损失函数是 $L(\theta)$，其中 $\theta$ 代表模型的所有参数（权重）。加入权重衰退后的损失函数可以写成：$L(\theta)+\frac{\lambda}{2}\sum_{...

模型剪枝-

190 views

定义与概念
模型剪枝（Model Pruning）是一种用于减少机器学习模型复杂度的技术。它的核心思想是去除模型中对最终性能贡献较小或者冗余的部分，如神经网络中的神经元、连接或者决策树中的某些分支等，同时尽量保持模型的性能不变。就像是修剪树木一样，把不必要的枝叶剪掉，让树木（模型）更加精简高效。
目的和重要性
减少计算资源消耗：随着模型复杂度的增加，其在存储和计算方面的需求也会显著增加。例如，大型的深度神经网络可能需要大量的内存来存储模型参数，并且在推理（预测）阶段需要很长的计算时间。通过剪枝，可以减少模型的参数数量，从而降低存储需求和计算时间。对于在资源受限的设备（如移动设备...

模型容量-

173 views

定义与概念
模型容量（Model Capacity）是指机器学习模型能够学习到的函数的复杂程度或者多样性。它可以被看作是模型拟合各种数据模式的潜力。简单来说，模型容量决定了模型可以多么复杂地去拟合数据。例如，一个具有高容量的神经网络可能有许多层和神经元，能够学习到非常复杂的数据关系；而一个简单的线性回归模型容量较低，只能学习到线性关系。
与模型复杂度的关系
模型复杂度（Model Complexity）通常是对模型结构复杂程度的直观描述，而模型容量更侧重于模型能够学习到的函数空间的大小。一般情况下，模型复杂度越高，模型容量越大。例如，在决策树模型中，树的深度越深、叶子节点越多，模型就越...

折交叉验证-

150 views

定义与概念
k - 折交叉验证（k - Fold Cross - Validation）是一种用于评估机器学习模型性能的统计方法。其基本思想是将原始数据集划分为(k)个大小相似的互斥子集（也称为“折”），然后进行(k)轮训练和验证。在每一轮中，使用(k - 1)个子集作为训练数据来训练模型，剩下的一个子集作为验证数据来评估模型的性能。例如，当(k = 5)时，将数据集等分为5份，每次使用其中4份进行训练，1份进行验证，这样一共会进行5次不同的训练 - 验证组合。
步骤与过程
数据划分：假设我们有一个包含(n)个样本的数据集(D)，首先将其随机打乱（这一步很重要，以确保每个子集都有相似的...

训练误差

143 views

定义与概念
训练误差是指机器学习模型在训练数据集上进行预测时产生的误差。它是衡量模型对训练数据拟合程度的一个指标。例如，在一个简单的线性回归模型中，训练误差可以通过计算预测值与训练数据中实际标签值之间的差异（如均方误差）来确定。
训练误差的计算通常基于某种损失函数（Loss Function）。损失函数用于量化模型预测结果与真实结果之间的差异程度。常见的损失函数包括均方误差（MSE）用于回归问题，交叉熵损失（Cross - Entropy Loss）用于分类问题等。以交叉熵损失为例，在一个二分类任务中，如果模型预测样本属于某一类的概率为(p)，而实际标签为(y)（(y = 0)或(y ...

泛化误差-

225 views

定义与概念

总体概念
泛化误差（Generalization Error）是指机器学习模型在新的、未见过的数据上的预测误差。它衡量了模型从训练数据中学到的知识和模式能否推广到整个数据分布（包括训练数据和未见过的数据）。例如，一个在猫狗图像分类训练集中训练好的模型，当面对新的猫狗图像时，其预测错误的比例就是泛化误差。
与训练误差的关系
训练误差（Training Error）是模型在训练数据上的误差。通常情况下，随着训练的进行，模型会逐渐学习训练数据中的模式，训练误差会逐渐降低。然而，泛化误差并不总是随着训练误差的降低而降低。如果模型过于复杂，它可能会过度拟合训练数据，导致训练误差非常低...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。