分类目录归档：基础设施

感知机-

272 views

感知机（Perceptron）作为神经网络的基础单元，以下将从定义、原理、学习算法、实现示例等多个方面对其进行深入剖析：

定义与基本结构

定义：感知机是一种二分类的线性分类模型，它是神经网络的基本组成单元，由输入层、输出层组成，有时会带有一个偏置单元。
基本结构：输入层接收外部输入信号，每个输入信号对应一个权重，表示该输入对输出的影响程度。偏置单元用于调整神经元的激活阈值，在计算时与权重类似。输出层根据输入信号的加权和与偏置的结果，通过激活函数产生最终的输出。

工作原理

前向传播：在工作时，感知机将输入数据与相应的权重相乘，然后将所有乘积相加，再加上偏置项，得到一个净输入值。将净输...

全连接层-

283 views

在深度学习中，Dense Layer（全连接层）是一种非常常见且重要的神经网络层，以下是对其的详细介绍：

定义与基本原理

定义：Dense Layer也叫全连接层，是一种在神经网络中，当前层的每个神经元与前一层的所有神经元都相互连接的层，其神经元之间的连接是全连接的方式，即每个输入神经元都与每个输出神经元相连。
基本原理：在全连接层中，输入数据被看作是一个一维向量，每个神经元对输入数据进行加权求和，并加上一个偏置项，然后通过一个激活函数得到输出。

数学表达式

假设全连接层的输入为$x$，是一个维度为$n$的向量，权重矩阵为$W$，其形状为$(m, n)$，其中$m$是该层神经元的数...

交叉熵-

275 views

定义与概念
交叉熵（Cross - Entropy）是信息论中的一个概念，用于衡量两个概率分布之间的差异程度。给定两个概率分布(p)（真实分布）和(q)（预测分布），它们的交叉熵(H(p,q)=-\sum_{i}p(i)\log q(i))。这里(i)遍历所有可能的事件，并且假设概率分布是离散的；如果是连续分布，则用积分形式表示。例如，在一个简单的二分类问题中，假设真实标签的概率分布(p = [1,0])（表示正类概率为(1)，负类概率为(0)），预测概率分布(q = [0.8,0.2])，那么交叉熵(H(p,q)=-(1\times\log0.8 + 0\times\log0.2)...

Softmax回归模型-

274 views

定义与基本原理
定义：Softmax回归模型是一种用于多分类问题的概率模型。它将一个包含多个数值的输入向量转换为一个概率分布向量，这个概率分布向量表示输入数据属于各个类别可能性的大小。例如，在一个图像分类问题中，输入是图像的特征向量，Softmax回归模型会输出这个图像属于每个可能类别（如猫、狗、兔子等）的概率。
基本原理：假设输入向量为(\boldsymbol{x}=(x_1,x_2,\cdots,x_n))，对于一个有(k)个类别的多分类问题，Softmax回归模型首先计算每个类别的得分(z_j)，一般通过线性变换(z_j = \boldsymbol{w}j^T\boldsymb...

学习率-

276 views

定义
学习率（Learning Rate）是机器学习和深度学习中优化算法的一个重要超参数。它决定了在每次迭代过程中，模型参数朝着损失函数梯度下降方向更新的步长大小。简单来说，学习率控制着模型学习的速度。例如，在梯度下降算法中，对于一个参数(\theta)，其更新公式为(\theta = \theta - \alpha \times \nabla L(\theta))，其中(\alpha)就是学习率，(\nabla L(\theta))是损失函数(L)关于(\theta)的梯度。
作用和影响
学习速度：如果学习率设置得较大，模型参数更新的步长就大，模型学习的速度会加快。例如，在训...

显示解-

309 views

定义
在数学和工程等领域，“显示解”（也称为显式解）是指能够用明确的公式表示出未知量的解。与隐式解相对，隐式解是通过一个方程（组）来隐含地定义未知量，而没有将未知量直接解出来。例如，对于一元二次方程(ax^2 + bx + c = 0)（(a\neq0)），其显示解为(x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a})，这个公式直接给出了(x)的取值，这就是显示解。
特点
直观性：显示解的最大优点是直观易懂。它直接给出了未知量与已知量之间的关系，人们可以很容易地代入已知参数的值来计算未知量。例如，在上述一元二次方程的显示解中，只要知道(a)、(b)、...

训练损失-

276 views

定义
训练损失（Training Loss）是在模型训练过程中，用于衡量模型预测结果与训练数据真实标签之间差异的指标。它是基于训练数据集计算得到的损失函数值。例如，在一个神经网络用于图像分类的训练过程中，对于每一批（batch）训练图像，将其输入网络得到预测类别概率，再与图像的真实类别标签通过损失函数（如交叉熵损失）进行计算，得到的损失值就是训练损失。
计算方式
首先要确定损失函数。不同的任务（如回归、分类等）有不同的损失函数。对于回归任务，常见的是平方损失（MSE）函数，计算方式为(L = \frac{1}{n}\sum_{i = 1}^{n}(\hat{y}_i - y_...

平方损失-

283 views

定义
平方损失（Squared Loss），也称为均方误差（Mean Squared Error，MSE），是一种用于衡量预测值与真实值之间差异的损失函数。给定一组预测值(\hat{y}i)和对应的真实值(y_i)（(i = 1,2,\cdots,n)），平方损失函数的计算公式为(L(\hat{y},y)=\frac{1}{n}\sum^{n}(\hat{y}_i - y_i)^2)。例如，在一个简单的线性回归问题中，我们有真实值(y = [1,2,3])，预测值(\hat{y}=[1.2,1.8,3.1])，则平方损失(L=\frac{1}{3}[(1.2 - 1)^2+(1.8 -...

空间变换器-

299 views

定义与概念
空间变换器（Spatial Transformer）是一种在深度学习架构（特别是卷积神经网络，CNN）中用于对输入数据（通常是具有空间结构的数据，如二维图像或三维体数据）进行空间变换的模块。它能够自动学习并应用空间变换，如平移、旋转、缩放和剪切等操作，以增强模型对数据空间变化的适应性。
工作原理
参数化的空间变换：空间变换器通过一组可学习的参数来定义空间变换。这些参数通常构成一个变换矩阵，例如在二维空间中，仿射变换（Affine Transformation）矩阵可以表示平移、旋转、缩放和剪切等操作。对于一个点((x,y))，经过仿射变换后的坐标((x',y'))可...

修正线性单元-

226 views

定义与公式
修正线性单元（Rectified Linear Unit，ReLU）是一种在深度学习中广泛使用的激活函数。它的定义非常简单，对于输入值(x)，ReLU函数的输出为(y = max(0,x))。这意味着当(x)大于等于(0)时，输出等于(x)；当(x)小于(0)时，输出为(0)。
优势
计算效率高：ReLU函数的计算非常简单，只需要一个比较操作（判断(x)是否大于等于(0)）和一个可能的赋值操作（当(x\geq0)时，(y = x)）。与其他一些复杂的激活函数（如Sigmoid和Tanh）相比，ReLU的计算速度更快，特别是在处理大规模的神经网络和大量的数据时，这种计...