分类目录归档:基础设施

SSD-目标检测算法


SSD(Single Shot MultiBox Detector)是一种先进的目标检测算法,以下是对其的详细介绍:

发展历程

SSD由Wei Liu等人在2016年的ECCV会议上提出。它借鉴了YOLO的单阶段检测思想,并结合多尺度特征检测的优势,在实时性和准确性之间找到了良好平衡点。

算法原理

  1. 特征提取:使用预训练的卷积神经网络如VGG16或ResNet作为基础网络,提取图像特征。
  2. 多尺度特征图:在基础网络的不同层生成多尺度特征图,浅层特征图用于检测小目标,深层特征图用于检测大目标。
  3. 先验框(Default Boxes):在每个特征图上定义一系列不同形状和大小的先验框,其中心点在特...

Read more

R-CNN深度学习目标检测算法


R-CNN(Region-based Convolutional Neural Network)是一种具有开创性的深度学习目标检测算法,以下是对其详细介绍:

发展背景

在R-CNN出现之前,传统的目标检测方法主要基于手工特征和机器学习算法,如Haar特征和Adaboost分类器等,在面对复杂场景和多样化目标时,检测精度和效率都存在较大局限性。2014年,Ross Girshick等人提出了R-CNN,将卷积神经网络(CNN)引入目标检测领域,开启了基于深度学习的目标检测新时代。

算法原理

  • 图像输入与区域提取:首先将输入图像调整为固定大小,然后使用一种称为选择性搜索(Selective ...

Read more

Faster RCNN-深度学习目标检测框架


Faster RCNN是一种深度学习目标检测框架,以下是对其详细介绍:

发展历程

Faster RCNN由微软研究院的Shaoqing Ren、Kaiming He、Ross Girshick和Jian Sun共同开发。它是在R-CNN和Fast R-CNN基础上发展而来,R-CNN首次将CNN应用于目标检测,但训练过程繁琐且无法实现端到端;Fast R-CNN虽有所改进,但仍使用selective search算法生成目标候选框。Faster RCNN则使用RPN生成候选区域,摒弃了selective search算法,完全使用CNN解决目标检测任务。

算法原理

  • 特征提取:使用预训练...

Read more

扩散模型


扩散模型是一类基于概率的生成模型,以下是关于它的详细介绍:

基本原理

  • 正向过程:也称为加噪过程,从真实数据开始,通过迭代地向数据中逐步添加高斯噪声,将数据的分布逐渐转化为一个更广泛的噪声分布,直到最后生成一个完全的随机噪声。这个过程通常是一个马尔科夫过程。
  • 逆向过程:是扩散模型的核心目标,旨在从完全的噪声中恢复出真实数据。在训练阶段,通过训练一个神经网络来模拟逆向过程,学习从噪声中逐步去噪的能力,以恢复到原始数据。

训练与优化

  • 损失函数:通常采用负对数似然函数作为损失函数,如去噪损失函数等,通过最小化该损失函数来优化模型,使得模型在逆向过程中能够生成逼真的样本。
  • 优化算法:使用随机...

Read more

转置卷积


转置卷积(Transpose Convolution),也叫反卷积(Deconvolution)或分数步长卷积(Fractionally-strided Convolution),是一种在卷积神经网络中常用的上采样操作,以下是关于它的详细介绍:

基本原理

  • 概念理解:普通卷积是对输入图像进行下采样,通过卷积核在输入图像上滑动,计算卷积结果得到输出特征图,输出特征图的尺寸通常小于输入图像。而转置卷积则是相反的过程,它对输入特征图进行上采样,将其尺寸放大得到一个更大的输出特征图。
  • 计算方式:在转置卷积中,卷积核在输入特征图上的滑动方式与普通卷积类似,但在计算输出时,会在输入特征图的元素之间插...

Read more

可学习模式


  1. Sinkhorn Sorting Network基础
  2. Sinkhorn Sorting Network是一种基于最优传输理论(Optimal Transport Theory)的神经网络架构。它主要用于处理排序相关的任务,其核心是Sinkhorn算法。Sinkhorn算法用于解决最优传输问题中的正则化版本,能够在两个概率分布之间找到一个传输计划,使得传输成本最小化,并且这个传输计划可以看作是一种软排序操作。
  3. 例如,在处理一组数据点的排序问题时,传统的排序算法是确定性的硬排序,如冒泡排序、快速排序等,它们会明确地将数据点按照大小顺序排列。而Sinkhorn Sorting Networ...

Read more

全局注意力


  1. 定义
  2. Global attention(全局注意力)是一种注意力机制,在序列到序列(seq - to - seq)模型中应用广泛。它允许解码器在生成输出序列的每一个位置时,都能够关注到整个输入序列的所有位置的信息,从而能够充分利用输入序列的全局语义。

  3. 与局部注意力的对比

  4. 局部注意力(Local Attention)
    • 局部注意力机制限制了解码器能够关注的输入序列范围,通常是输入序列中的一个局部窗口。例如,在处理文本时,局部注意力可能只允许解码器关注输入句子中某个单词周围的几个单词。这种机制计算量相对较小,但可能会错过输入序列中其他位置的重要信息。
  5. 全局注意力优势

    • 全局注意...

Read more

束搜索


  1. 定义
  2. Beam search(束搜索)是一种在序列生成任务(如自然语言生成、语音识别中的文本输出等)中广泛使用的搜索算法。它是一种启发式搜索策略,用于在生成序列的过程中,从众多可能的候选路径中找到较优的路径,而不是像贪心算法那样只选择当前看起来最优的单个选项。

  3. 工作原理

  4. 基本步骤
    • 假设我们正在进行文本生成任务。在开始时,模型会根据初始输入(例如,给定一个起始单词或者一个主题提示)生成多个(这个数量就是束宽,用k表示)最有可能的下一个单词的候选。例如,在一个基于语言模型的诗歌生成任务中,给定起始单词“明月”,模型可能会生成“高悬”“洒落”“照亮”等k个最有可能的下一个单词。
    • 对于...

Read more

位置感知注意力


  1. 定义
  2. Location - aware attention(位置感知注意力)是一种注意力机制,它在计算注意力权重时,除了考虑输入序列元素本身的内容信息外,还考虑了元素在序列中的位置信息。这种机制能够更好地利用序列的位置结构,从而更精准地分配注意力。

  3. 位置信息的重要性及表示方法

  4. 重要性
    • 在许多序列相关的任务中,元素的位置信息至关重要。例如在自然语言处理中,一个句子中单词的顺序会影响句子的语义。“我打他”和“他打我”语义完全不同,仅靠单词本身内容来分配注意力可能会忽略这种顺序差异。在语音处理中,语音信号的时间位置也对理解语音内容非常关键。
  5. 表示方法

    • 可以通过多种方式来表示位...

Read more