-
定义与概念
- 定位网络(Localisation Net)是一种在计算机视觉和深度学习领域用于确定目标物体位置的神经网络组件。它通常是一个子网络,其主要任务是对输入图像或其他视觉数据中的感兴趣目标进行定位,输出目标物体的位置信息,如边界框(Bounding Box)的坐标(包括左上角和右下角的坐标,或者中心坐标加上宽和高)等。
-
工作原理
- 特征提取:定位网络首先利用卷积层(Convolutional Layers)对输入数据进行特征提取。这些卷积层可以学习到图像中的各种特征,如边缘、纹理、形状等。例如,在目标检测任务中,对于一张包含汽车的图像,卷积层可能会提取出汽车的轮廓、车窗...
作者文章归档:course
插值-
-
定义与概念
- 插值(Interpolation)是一种在已知数据点之间估计新数据点值的数学方法。给定一组离散的数据点,通过某种函数关系来推测这些点之间的数值,使得数据在空间或时间等维度上更加连续和完整。例如,在一个简单的温度测量场景中,我们只在每天的整点记录温度,那么插值就可以用于估计在非整点时刻的温度值。
-
常见的插值方法
- 最近邻插值(Nearest - Neighbor Interpolation)
- 原理:对于需要插值的位置,选择离它最近的已知数据点的值作为插值结果。在二维图像中,如果要获取某个非整数坐标位置的像素值,就找到离这个坐标最近的像素点,然后将该像素点的值赋给这个...
- 最近邻插值(Nearest - Neighbor Interpolation)
仿射变换-
-
定义与概念
- 仿射变换(Affine Transformation)是一种几何变换,它是线性变换(如旋转、缩放、剪切)和平移变换的组合。在二维空间中,仿射变换可以用一个(2\times3)的矩阵来表示;在三维空间中,则用一个(3\times4)的矩阵表示。这种变换保持了直线的平行性、共线性(即如果三个点在一条直线上,变换后它们仍然在一条直线上)和比例关系(两个平行线段的长度比例在变换后保持不变)。
-
数学表示(以二维为例)
- 对于二维平面上的一个点((x,y)),经过仿射变换后的坐标((x',y'))可以通过以下矩阵乘法和加法运算得到: [ \begin{bmatrix} x'\...
图像平移-
-
定义与概念
- 图像变换(Image Transformation):指对图像进行各种操作,使其在空间、颜色、形状等方面发生改变的过程。它涵盖了多种不同类型的变换方式,旨在满足不同的图像处理需求,比如增强图像的视觉效果、提取特定特征、适配不同的应用场景等。
- 图像平移(Image Translation):是图像变换中的一种基本操作,它在二维平面内按照给定的水平和垂直方向的偏移量,移动图像中所有像素的位置,就好像将整个图像在一个平面上进行了滑动,而图像本身的内容(如物体形状、颜色等)并未发生实质性改变,只是所处的空间位置发生了变化。
-
图像平移的数学原理(以二维图像为例)
- 坐标变换...
图像变换扩充-
- 定义与概念
-
图像变换扩充(Image Transformation Expansion)是一种在图像处理和计算机视觉领域用于增加数据多样性的技术。它通过对原始图像应用各种变换操作,生成新的图像样本,这些新样本在保持原始图像关键信息的同时,具有不同的外观特征,从而扩充了训练数据集,有助于提高模型的泛化能力和鲁棒性。
-
常见的图像变换扩充方法
- 几何变换
- 平移(Translation):将图像在平面内沿水平或垂直方向移动一定的距离。例如,在图像分类任务中,通过对原始图像进行随机的上下左右平移,可以让模型学习到物体在图像不同位置时的特征。对于一个包含动物的图像,平移后的图像可能使动物处于...
端到端学习-
- 定义与概念
-
“端到端学习(End - to - End Learning)”是一种机器学习和深度学习的策略。在这种学习方式中,模型直接从原始数据输入(例如原始图像、原始文本等)开始学习,自动提取特征并生成最终的输出(例如分类结果、翻译后的文本等),中间不需要人工设计和提取复杂的特征。也就是说,整个学习过程是一个从输入到输出的完整流程,模型自身去学习如何将输入数据转换为正确的输出,就像一条完整的管道,数据从一端输入,经过模型内部的各种处理,直接在另一端得到期望的输出。
-
工作原理与流程
- 以图像分类为例:在传统的图像分类方法中,可能需要先使用手工特征提取方法(如SIFT - 尺度不变...
卷积神经网络CNN对缩放和旋转的敏感性
- 理解卷积神经网络(CNN)对缩放和旋转的敏感性
- 卷积神经网络的工作原理基础:CNN主要是通过卷积层中的卷积核在输入数据(如图像)上滑动来提取特征。卷积核学习到的是特定局部区域的特征模式,这些模式在一定程度上与输入数据的空间布局相关。例如,在图像中,卷积核可能学习到边缘、角落等特征,并且这些特征的位置和相对大小在卷积核的学习过程中是有一定固定模式的。
- 缩放问题:当图像发生缩放时,CNN的性能会受到影响。假设一个卷积核学习到了某个物体在特定大小下的特征模式,比如一张正常大小的人脸图像中眼睛的形状特征。如果图像被放大,眼睛的大小相对于卷积核所学习的模式发生了变化,原来的卷积核可能无法很好地匹...
浅层模型-
- 定义与分类
- 浅层模型是指在机器学习和数据挖掘领域中,那些结构相对简单、不具备很多隐藏层(如神经网络中的隐藏层或者模型复杂层次结构)的模型。
- 线性模型:
- 线性回归(Linear Regression)是典型的浅层模型。它假设因变量和自变量之间存在线性关系,通过最小二乘法等方法拟合一条直线(在多元情况下是一个超平面)来预测目标变量。例如,在预测房屋价格时,根据房屋面积、房间数量等自变量构建线性回归模型,找到最佳的权重系数,使得预测价格与实际价格的误差平方和最小。
- 逻辑回归(Logistic Regression)主要用于二分类问题。它将线性函数的输出通过Sigmoid函数映射到((0,1)...
devops 工具集
- 版本控制工具
- Git
- 概述:目前最流行的分布式版本控制系统。它允许开发团队对代码的版本进行管理,记录代码的变更历史,包括谁在何时修改了什么内容。
- 功能特点:
- 分支管理功能强大,方便开发人员同时在多个功能分支上工作,如开发新功能、修复bug等,而不会相互干扰。例如,一个开发团队可以为每个新功能创建一个单独的分支,在分支上进行开发和测试,完成后再合并到主分支。
- 支持分布式工作流程,每个开发人员都可以在本地拥有完整的代码仓库副本。这意味着即使在没有网络连接的情况下,开发人员也可以在本地提交代码变更,之后再将这些变更推送到远程仓库。
-
Subversion(SVN)
- 概述:集中式版本控制...
ModelScope-开源社区推动人工智能发展的平台
ModelScope是一个通过开源社区推动人工智能发展的平台,涵盖多种功能,包括提供丰富的模型、支持多种任务、拥有模型训练和评估工具、具备展示空间等,旨在帮助用户快速开发和应用人工智能技术。 1. 平台功能概述 - 模型与任务支持:提供多种类型的模型,如InternVL2_5 - 78B、Llama - 3.3 - 70B - Instruct、Qwen系列等,涵盖计算机视觉、自然语言处理、语音、多模态、科学计算等多个领域的任务,如视觉检测、文本分类、语音识别、图像生成等。 - 数据集资源:包含Infinity - Instruct、P - MMEval、longwrit...