作者文章归档：course

特征归一化

319 views

定义
特征归一化（Feature Normalization）也称为特征标准化，是数据预处理阶段的一种重要技术。它的目的是将数据集中的特征（变量）转换到一个特定的范围或者具有特定的分布，使得不同特征具有相似的尺度，从而提高模型的训练效率和性能。
常见的方法
最小 - 最大归一化（Min - Max Normalization）
- 原理：
- 也称为离差标准化，将原始数据特征映射到指定的区间，通常是[0,1]。公式为(x_{new}=\frac{x - x_{min}}{x_{max}-x_{min}})，其中(x)是原始特征值，(x_{min})和(x_{max})是该特征在数据集中...

验证备份数据的有效性

402 views

验证备份数据的有效性是确保数据在需要恢复时能够正常使用的关键步骤。以下是一些可以用来验证备份数据有效性的方法：

一、数据完整性检查

哈希值验证
哈希函数（如MD5、SHA - 1、SHA - 256等）可以为数据生成唯一的哈希值。在备份数据之前，计算原始数据的哈希值并记录下来。当需要验证备份数据时，重新计算备份数据的哈希值，然后与原始记录的哈希值进行比较。如果两个哈希值相同，那么在很大程度上可以确定备份数据与原始数据是一致的。例如，对于一个重要的文件备份，在备份时计算其SHA - 256哈希值为“abcdef1234567890”，在验证时，重新计算备份文件的哈希值，若也是“abcde...

池化层-CNN

362 views

定义与作用
池化层（Pooling Layer）是卷积神经网络（CNN）中的一个重要组成部分。它主要的作用是对输入的数据进行下采样（Down - Sampling），从而减少数据的维度，同时在一定程度上保留数据中的重要特征信息。这有助于减少网络的计算量、控制过拟合，并且能够使网络对输入数据的微小变化具有更强的鲁棒性。
常见的池化方式
最大池化（Max Pooling）
- 原理：
- 最大池化是最常用的池化方法之一。它在一个给定的局部区域（通常是一个矩形窗口）内，选择最大值作为输出。例如，在一个二维图像数据的池化过程中，如果池化窗口大小为2×2，那么对于窗口内的4个像素值，选取其中最大...

声学特征

401 views

定义
声学特征（Acoustic Feature）是从声音信号中提取出来的、用于表征声音某些属性的特征。这些特征可以帮助我们理解、分类和处理声音，在语音处理、音频内容分析等领域有广泛应用。例如，在语音识别中，声学特征可以帮助计算机区分不同的语音音素，进而识别出完整的单词和句子。
常见的声学特征类型
梅尔频率倒谱系数（Mel - Frequency Cepstral Coefficients，MFCC）
- 原理：
- MFCC是一种在语音处理中广泛使用的声学特征。它基于人耳对声音频率的感知特性，将线性频率转换为梅尔频率（Mel Scale）。梅尔频率是一种非线性频率刻度，更符合人耳对声...

词袋模型

396 views

一、定义

词袋模型（Bag of Words，简称BoW）是自然语言处理（NLP）中一种简单但非常基础且重要的文本表示方法。它将文本看作是一个无序的单词集合，忽略单词的语法和词序信息，只关注单词在文本中出现的频率。
例如，对于句子“我爱自然语言处理”和“自然语言处理很有趣，我喜欢它”，在词袋模型下，重点关注的是“我”“爱”“自然语言处理”“很有趣”“喜欢”这些单词出现的次数。这两个句子可以表示为一个词频向量，如[2,2,2,1,1]（假设按照上述单词顺序统计词频），其中数字分别代表这些单词在这两个句子组合中的出现次数。

二、构建步骤

词汇表构建
首先需要构建一个词汇表，这个...

语义嵌入-

393 views

一、定义

语义嵌入（Semantic Embedding）是一种将语义信息（如单词、句子、图像等）映射到低维连续向量空间的技术。在这个向量空间中，语义相近的对象在向量空间中的距离也比较近，从而可以通过向量之间的距离、相似度等指标来衡量语义的相似性。

二、应用场景和优势

自然语言处理（NLP）
文本分类：
- 例如在新闻分类任务中，将新闻文本转换为语义嵌入向量。可以通过比较向量之间的距离来判断新闻属于体育、娱乐、政治等类别。假设我们有一个体育新闻“某著名球星在比赛中受伤”和另一个体育新闻“某球队在关键比赛中获胜”，它们的语义嵌入向量在向量空间中的距离会比与娱乐新闻（如“某明星发布新专辑”）的...

模型架构

382 views

神经网络模型架构基础概念
神经网络模型架构主要由神经元（节点）和它们之间的连接（边）组成。神经元是基本的计算单元，它接收输入信号，通过激活函数进行处理后产生输出信号。连接则具有权重，用于调整输入信号对输出信号的影响程度。
例如，在一个简单的感知机（最基本的神经元模型）中，它接收多个输入(x_1,x_2,\cdots,x_n)，每个输入都有一个对应的权重(w_1,w_2,\cdots,w_n)，感知机的输出(y)计算公式为(y = f(\sum_{i = 1}^{n}w_ix_i + b))，其中(b)是偏置，(f)是激活函数。激活函数可以是阶跃函数、Sigmoid函数、ReLU函数等，...

DevOps流程规范体系：构建高效的软件交付生态

431 views

DevOps流程规范体系：构建高效的软件交付生态

摘要： 本文深入探讨 DevOps 流程规范体系，涵盖研发协作流程、DevOps 工具能力体系以及运营服务体系等核心方面。详细阐述各环节的规范要求、关键作用及相互关系，旨在为企业构建完善的 DevOps 流程规范提供全面的指导，以实现高效、可靠、安全的软件交付与运营。

一、引言

在当今数字化时代，软件的快速迭代与高质量交付成为企业竞争的关键因素。DevOps 作为一种融合开发与运维的理念与实践方法，通过打破部门壁垒、优化流程和整合工具，实现了从代码编写到应用部署及运营的全生命周期管理。建立一套科学合理的 DevOps 流程规范体系对于企业...

步幅-DL

323 views

在深度学习中，“步幅”（stride）是一个与卷积层和池化层相关的重要概念，它指的是在进行卷积或池化操作时，滤波器每次移动的步长。以下是关于步幅的详细介绍：

卷积层中的步幅

定义与作用：在卷积神经网络（CNN）的卷积层中，步幅决定了滤波器在输入数据上滑动的步长大小。例如，当步幅为1时，滤波器每次移动一个像素位置；当步幅为2时，滤波器每次移动两个像素位置。步幅的主要作用是控制输出特征图的尺寸大小，同时也会影响网络对输入数据的采样方式和特征提取效果。
对特征图尺寸的影响：设输入特征图的尺寸为(W\times H)（宽度(W)和高度(H)），滤波器的尺寸为(F\times F)，填充（pad...

Boson AI-

349 views

您提供的链接是指向Boson AI的官方网站。根据您提供的网页内容，Boson AI是一个专注于智能代理作为人类伴侣和助手的公司，他们致力于改变故事讲述、知识学习和洞察收集的方式。以下是他们近期的一些动态：

RPBench-Auto：Boson AI推出了一个自动基准测试，用于评估角色扮演模型。
Higgs Llama V2：他们宣布了新的Higgs模型，这个模型提高了一般能力并增强了角色扮演功能。
Higgs Family of LLMs：Boson AI宣布了他们的第一个开源模型Higgs-LLama-3，这个模型基于Meta的LLama-3，特别为角色扮演进行了调整。
...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。

特征归一化

验证备份数据的有效性

池化层-CNN

声学特征

词袋模型

语义嵌入-

模型架构

DevOps流程规范体系：构建高效的软件交付生态

DevOps流程规范体系：构建高效的软件交付生态

一、引言

步幅-DL

卷积层中的步幅

Boson AI-