作者文章归档：course

自动编码器-ML

408 views

定义与基本原理
自动编码器（Auto - Encoder）是一种无监督学习的神经网络架构。它主要由两部分组成：编码器（Encoder）和解码器（Decoder）。
基本原理是，编码器将输入数据进行压缩，把高维的输入数据映射到一个低维的潜在空间（Latent Space），得到一个紧凑的表示，这个表示被称为编码（Code）。然后解码器将这个编码再映射回原始数据空间，尝试重构出与原始输入相似的输出。例如，对于一张图像，编码器会把图像的像素信息等转换为一个低维的向量，解码器再根据这个向量生成一张新的图像，目标是让这张新图像尽可能接近原始图像。
网络结构
编码器：通常是一个由多个全连接...

展开-ML

315 views

在机器学习中的含义
在机器学习（ML）领域，“unrolling”通常是指将一个具有递归或循环结构的模型或算法展开成一种更易于分析、理解和计算的形式。这种展开操作有助于深入了解模型的内部工作机制、优化训练过程以及改进模型结构。
在循环神经网络（RNN）中的应用
展开的过程
- RNN主要用于处理序列数据，如文本、语音等。它的基本结构包含一个循环单元，在每个时间步(t)，隐藏状态(h_t)的更新公式为(h_t = f(h_{t - 1}, x_t))，其中(x_t)是时间步(t)的输入，(f)是一个非线性函数（通常是神经网络层）。将RNN按时间步展开后，它就像是一个具有多个相同层的前...

自监督学习框架

393 views

以下是关于自监督学习框架（Self-Supervised Learning Framework）的详细介绍：

定义与原理

自监督学习框架是一种利用无标签数据进行模型训练的架构，它通过设计特定的代理任务，让模型从数据自身的结构和规律中自动学习到有用的特征表示，然后将这些学习到的特征用于下游的具体任务.
其核心原理是将无标签数据转化为有标签数据的形式，从而可以利用类似监督学习的方法进行训练，以学习到数据中的内在规律和特征，最终目标是获得对下游任务有价值的表征，提高模型的泛化能力和性能.

总体架构

数据预处理模块：负责将原始数据进行清洗，去除噪声和异常值；通过数据增强技术，如随机裁剪、旋...

LSGAN

411 views

定义与基本原理
最小二乘生成对抗网络（Least Squares Generative Adversarial Network，LSGAN）是一种生成对抗网络（GAN）的变体。它的主要目标是通过改变生成器和判别器的损失函数，来提高生成对抗网络的性能。
在传统GAN中，判别器的任务是区分真实样本和生成样本，生成器的任务是生成能够“欺骗”判别器的样本。LSGAN对这个过程进行了优化，它通过最小化生成样本和真实样本之间的距离（以最小二乘法衡量）来训练模型。
损失函数
判别器损失函数：在LSGAN中，判别器的损失函数为(L_D=(D(x)-b)^2+(D(G(z)) - a)^2)。其...

Flaw-缺陷

328 views

概念解释
在优化过程中，“flaw”（缺陷）是指那些会阻碍优化算法有效地找到最优解或者导致算法性能不佳的各种问题。这些问题可能来自算法本身的特性、目标函数的性质或者数据的特点等多个方面。
算法相关的缺陷
收敛速度问题
- 缓慢收敛：一些优化算法可能收敛速度很慢。例如，传统的梯度下降算法在面对病态的海森矩阵（Hessian Matrix）或者存在狭长山谷形状的损失函数地形时，收敛速度会变得极其缓慢。这是因为梯度下降是基于一阶导数信息，在这种复杂地形下，它可能会沿着山谷壁来回振荡，每次更新的步长很小，导致需要大量的迭代才能接近最优解。
- 早熟收敛：像遗传算法等启发式算法可能会出现早熟收敛...

集成-ML

352 views

定义与基本概念
在机器学习中，集成（Ensemble）是一种通过结合多个基学习器（Base Learner）来提高模型性能的方法。其基本思想是将多个相对较弱（单独性能可能不是很好）的模型组合在一起，使它们相互协作，从而获得比单个模型更好的预测性能。这些基学习器可以是相同类型的模型（如多个决策树），也可以是不同类型的模型（如决策树、神经网络和支持向量机的组合）。
集成的常见方法
Bagging（Bootstrap Aggregating）
- 原理：通过有放回地从原始训练数据集中抽样，构建多个不同的训练子集。对于每个训练子集，训练一个基学习器。例如，在随机森林（Random Fore...

Flaw in Optimization

345 views

局部最优解（Local Optima）
定义和产生原因
- 在优化问题中，局部最优解是指在一个局部区域内看起来是最优的解，但在整个搜索空间中可能不是全局最优解。这是因为优化算法在搜索过程中，可能会被困在局部最优解的“山谷”中。例如，在一个具有多个山峰和山谷的损失函数地形中，梯度下降算法可能会在一个山谷底部停止，这个位置的损失函数值比周围的点都要小，但在其他山谷或者山峰的另一边可能存在更低的损失值。
- 产生局部最优解的一个主要原因是损失函数的非凸性。许多机器学习模型的损失函数，如神经网络中的损失函数，由于其复杂的结构和非线性关系，往往是非凸的。这意味着函数图像不是像碗一样的凸形状，而是可能有多...

Mode Dropping

402 views

定义与理解
概念：在生成模型领域（特别是生成对抗网络GAN等），“mode dropping”和“mode collapse”有相似之处。它是指生成器在生成样本过程中，丢失了真实数据分布中的部分模式。也就是说，生成器无法生成代表真实数据某些特征或类型的样本，导致生成的样本分布不能完整地覆盖真实数据的分布。
与mode collapse的区别：相对而言，mode collapse更强调生成器只能生成非常有限的几种模式，生成的样本多样性严重受限；而mode dropping侧重于部分模式的丢失，生成的样本分布可能还存在一定的多样性，但缺失了真实数据分布中的某些重要部分。
产生原因

Fenchel共轭

368 views

在损失函数和优化中的应用
正则化解释：在机器学习中，正则化是防止过拟合的重要手段。以L1正则化为例，目标函数可能是(J(x) = L(x)+\lambda|x|_1)，其中(L(x))是损失函数（如均方误差），(\lambda)是正则化参数。(|x|_1)的Fenchel共轭函数在分析优化过程中有重要作用。从对偶的角度看，这种正则化可以理解为对模型参数的一种约束，通过Fenchel共轭可以更深入地理解这种约束在优化过程中的影响。
对偶问题构建与求解：对于许多机器学习的优化问题，如支持向量机（SVM），可以通过Fenchel共轭构建对偶问题。在原始的SVM优化问题中，目标是最小化一个包含...

冰山原理

378 views

定义
冰山原理（Iceberg Principle）又称为“冰山理论”，最初是由美国作家海明威提出的文学创作理论。他认为，文学作品就像一座冰山，文字和形象是露在水面之上的部分，仅占整个冰山的八分之一，而情感和思想则是隐藏在水面之下的部分，占整个冰山的八分之七。这意味着优秀的文学作品应该通过简洁的文字表达出深层次的内涵。
在文学作品中的体现
简洁的文字风格：在海明威的作品中，这种风格体现得淋漓尽致。例如，他的小说《老人与海》，文字简洁明了，没有过多华丽的辞藻。在描写老人与鲨鱼搏斗的场景时，只用了简单而直接的语言来展现激烈的斗争，如“他用鱼叉扎它，可鲨鱼在绳子上一滚，把鱼叉扭断了”...