分类目录归档：基础设施

可学习模式

267 views

Sinkhorn Sorting Network基础
Sinkhorn Sorting Network是一种基于最优传输理论（Optimal Transport Theory）的神经网络架构。它主要用于处理排序相关的任务，其核心是Sinkhorn算法。Sinkhorn算法用于解决最优传输问题中的正则化版本，能够在两个概率分布之间找到一个传输计划，使得传输成本最小化，并且这个传输计划可以看作是一种软排序操作。
例如，在处理一组数据点的排序问题时，传统的排序算法是确定性的硬排序，如冒泡排序、快速排序等，它们会明确地将数据点按照大小顺序排列。而Sinkhorn Sorting Networ...

全局注意力

219 views

定义
Global attention（全局注意力）是一种注意力机制，在序列到序列（seq - to - seq）模型中应用广泛。它允许解码器在生成输出序列的每一个位置时，都能够关注到整个输入序列的所有位置的信息，从而能够充分利用输入序列的全局语义。
与局部注意力的对比
局部注意力（Local Attention）
- 局部注意力机制限制了解码器能够关注的输入序列范围，通常是输入序列中的一个局部窗口。例如，在处理文本时，局部注意力可能只允许解码器关注输入句子中某个单词周围的几个单词。这种机制计算量相对较小，但可能会错过输入序列中其他位置的重要信息。
全局注意力优势
- 全局注意...

束搜索

248 views

定义
Beam search（束搜索）是一种在序列生成任务（如自然语言生成、语音识别中的文本输出等）中广泛使用的搜索算法。它是一种启发式搜索策略，用于在生成序列的过程中，从众多可能的候选路径中找到较优的路径，而不是像贪心算法那样只选择当前看起来最优的单个选项。
工作原理
基本步骤
- 假设我们正在进行文本生成任务。在开始时，模型会根据初始输入（例如，给定一个起始单词或者一个主题提示）生成多个（这个数量就是束宽，用k表示）最有可能的下一个单词的候选。例如，在一个基于语言模型的诗歌生成任务中，给定起始单词“明月”，模型可能会生成“高悬”“洒落”“照亮”等k个最有可能的下一个单词。
- 对于...

位置感知注意力

424 views

定义
Location - aware attention（位置感知注意力）是一种注意力机制，它在计算注意力权重时，除了考虑输入序列元素本身的内容信息外，还考虑了元素在序列中的位置信息。这种机制能够更好地利用序列的位置结构，从而更精准地分配注意力。
位置信息的重要性及表示方法
重要性
- 在许多序列相关的任务中，元素的位置信息至关重要。例如在自然语言处理中，一个句子中单词的顺序会影响句子的语义。“我打他”和“他打我”语义完全不同，仅靠单词本身内容来分配注意力可能会忽略这种顺序差异。在语音处理中，语音信号的时间位置也对理解语音内容非常关键。
表示方法
- 可以通过多种方式来表示位...

单调注意力

311 views

定义
Monotonic attention（单调注意力）是注意力机制的一种变体。在一般的注意力机制中，注意力的分布可以灵活地在输入序列的各个位置间跳跃。而单调注意力强制注意力的分配在序列上呈现单调递增或单调递减的特性，也就是说注意力会按照输入序列的顺序依次分配，不会出现回溯或跳跃的情况。
应用场景
语音处理
- 语音识别：在语音识别任务中，语音信号是一个随时间连续的序列。单调注意力可以确保在将语音信号转换为文字的过程中，对语音的关注是按照时间顺序进行的。例如，当识别一段包含多个单词的语音时，单调注意力会从语音的起始部分开始，按照时间推进依次关注每个可能对应单词的语音片段，不会出现...

引导注意力

347 views

定义
Guided attention（引导注意力）是一种在深度学习模型，特别是序列到序列（seq - to - seq）模型和注意力机制相关应用中的技术。它用于对注意力机制的分布进行约束或者引导，使得模型的注意力能够按照预期的模式或者规则进行聚焦，从而更有效地利用信息并提高模型性能。
在语音处理中的应用
语音合成
- 在语音合成任务中，引导注意力机制可以确保模型在生成语音的过程中，按照正确的时间顺序关注文本信息。例如，当将文本“今天天气很好”转换为语音时，引导注意力可以让模型的注意力从“今天”开始，依次关注每个单词对应的语音特征生成部分，避免注意力在单词之间跳跃混乱，使生成的语音...

词汇表

287 views

定义
在自然语言处理、信息检索等领域，vocabulary（词汇表）是指在一个特定的文本集合（如一个文档、一个语料库或者一个语言模型的训练集）中出现的所有单词（或其他语言单位，如词素、字符等）的集合。它是对文本中语言单位的一种整理和统计后的结果。
构建过程
收集文本：首先需要有一个文本来源，比如一本小说、一个新闻网站的全部新闻文章或者一个大型的语言模型训练数据集。例如，对于训练一个用于新闻文章分类的语言模型，收集大量的新闻稿件作为文本来源。
分词操作：如果处理的是自然语言文本，通常需要进行分词。对于英语等语言，可以使用空格等分隔符来划分单词；对于汉语等语言，需要使用专门的分词工具。例如...

Teacher forcing

304 views

定义
Teacher forcing是一种在序列生成模型（如循环神经网络，特别是长短期记忆网络LSTM和门控循环单元GRU，以及Transformer架构中的解码器部分）训练过程中使用的技术。它的核心思想是在训练时，使用真实的目标序列（也称为“教师信号”）作为模型下一个时间步的输入，而不是使用模型自身在上一个时间步的预测输出。
工作原理
假设我们有一个序列生成任务，例如机器翻译。我们有一个源语言句子和对应的目标语言句子。在训练模型时，对于目标语言句子的生成部分，在每个时间步，不是将模型上一个时间步预测出来的单词作为下一个时间步的输入，而是直接将真实的目标单词作为输入。
例如，目标句子是...

梯度剪裁

226 views

梯度剪裁（Gradient Clipping）是一种在深度学习中用于优化训练过程的技术，旨在解决梯度爆炸问题，以下是关于它的详细介绍：

原理

在神经网络的训练过程中，通常使用反向传播算法来计算损失函数对模型参数的梯度，然后根据这些梯度来更新模型参数。然而，在某些情况下，如网络层数较深、训练数据复杂或学习率设置不当等，梯度可能会变得非常大，导致模型参数在更新时出现大幅跳跃，这就是梯度爆炸问题。梯度剪裁通过对梯度进行限制，将其范数约束在一个特定的范围内，从而避免梯度爆炸对模型训练的不良影响。

实现方法

基于范数的剪裁：这是最常见的梯度剪裁方法，通常是计算梯度的范数（如L2范数），如果梯度的...

困惑度-

240 views

在自然语言处理和信息论等领域，“perplexity”通常指困惑度，是一种用于衡量语言模型性能的指标，以下是关于它的详细介绍：

定义

困惑度是对语言模型在预测下一个单词或字符时的不确定性的一种量化度量。它基于信息论中的熵（entropy）概念，直观上反映了语言模型对给定文本序列的拟合程度和预测能力。给定一个语言模型(M)和一个文本序列(x_1,x_2,\cdots,x_n)，该文本序列的困惑度定义为：

[PP(x_1,x_2,\cdots,x_n)=2^{-\frac{1}{n}\sum_{i=1}^{n}\log_2 p(x_i|x_1,x_2,\cdots,x_{i-1})}]

其中...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。