分类目录归档：基础设施

开放集识别

267 views

一、定义

Open - set recognition（开放集识别）是一种在计算机视觉、模式识别等领域中使用的概念。它主要处理的情况是在训练阶段和测试阶段的数据分布不同，测试阶段会出现训练阶段没有见过的类别（即未知类别）的数据。

传统的分类任务（如闭集分类）假设测试数据中的类别都是在训练数据中出现过的，而开放集识别则更贴近现实世界的复杂情况。例如，在一个人脸识别系统的训练过程中，我们只使用了公司内部员工的人脸图像进行训练。但在实际使用场景中，可能会有外来人员（未知类别）出现在摄像头前，开放集识别就是要在识别出已知员工的同时，能够判断出未知人员。

二、关键要素

已知类别（Known Cl...

网络入侵检测

284 views

一、定义

Network intrusion detection（网络入侵检测）是一种用于监控计算机网络活动，识别任何试图破坏网络安全、未经授权访问网络资源或者恶意利用网络漏洞的安全技术。它的主要目的是在入侵行为对网络系统造成严重损害之前检测并发出警报，同时也可以协助收集有关入侵活动的证据。

例如，当外部攻击者试图通过端口扫描来寻找网络系统中的开放端口，以便后续发动攻击时，网络入侵检测系统可以检测到这种异常的扫描行为，并提醒网络管理员采取相应的防范措施。

二、工作原理

基于特征的检测（Signature - based Detection）
这种方法依赖于已知的攻击模式或“特征（Sig...

异常检测-ML

222 views

一、定义

Anomaly detection（异常检测）是指在数据集中识别与正常行为模式或预期模式显著不同的数据点或模式的过程。这些异常点可能代表了系统中的错误、故障、欺诈行为、安全漏洞或者其他罕见但具有重要意义的事件。

例如，在网络流量监测中，正常情况下流量的大小、频率和流向等都有一定的规律。如果突然出现大量的数据传输到一个异常的外部服务器，这就可能是数据泄露的异常行为；在工业生产中，机器正常运转时的温度、振动频率等参数在一个合理的范围内波动，当这些参数出现明显偏离正常范围的情况时，可能意味着机器出现故障。

二、应用场景

金融领域
信用卡欺诈检测：银行会记录每一笔信用卡交易的信息，包...

随机梯度下降

219 views

随机梯度下降（Stochastic Gradient Descent，SGD）是一种常用的优化算法，主要用于在机器学习和深度学习中，通过迭代的方式来最小化目标函数，以找到最优的模型参数。以下是关于随机梯度下降的详细介绍：

基本原理

目标函数与梯度：在机器学习中，通常会定义一个目标函数来衡量模型的预测结果与实际结果之间的差异，如均方误差、交叉熵损失等。而梯度则是目标函数对模型参数的偏导数，它表示了目标函数在当前参数下的变化率，且其方向是目标函数增长最快的方向，因此负梯度方向就是目标函数下降最快的方向。
迭代更新：随机梯度下降算法从随机初始化的模型参数开始，在每次迭代中，随机选取一个训练样...

计算任务-ML

279 views

在机器学习领域，“计算任务”是指在处理ML workload过程中涉及的各种需要进行计算操作的具体工作，以下是详细介绍：

数据预处理计算任务

数据清洗：去除数据中的噪声、重复数据、缺失值等，可能需要编写代码来识别和处理这些问题。例如，使用Python的pandas库中的drop_duplicates函数去除重复行，使用fillna方法填充缺失值等。
数据标准化与归一化：将数据的特征缩放到特定的范围，如将数据归一化到[0, 1]区间或标准化为均值为0、方差为1的分布。常见的方法有Min-Max归一化和Z-Score标准化，需要进行相应的数学运算。
数据编码：对于分类数据，需要将其转换为计...

工作负载-ML

285 views

“ML workload”指的是机器学习（Machine Learning）工作负载，即运行机器学习任务所需要的计算资源、数据处理量以及模型训练和推理等操作的综合需求，以下是具体介绍：

主要特点

计算密集型：通常需要大量的计算资源来进行数据处理、模型训练和优化。例如，深度神经网络的训练可能需要在多个GPU或TPU上并行计算，以加快训练速度。
数据依赖性强：数据是机器学习的核心，ML workload对数据的质量、数量和多样性有很高要求。大规模的数据集需要高效的存储和读取机制，同时数据的预处理和标注工作也会增加工作负载。
模型复杂度高：随着技术的发展，机器学习模型越来越复杂，如Trans...

无监督文本摘要

249 views

定义与概念
无监督文本摘要（Unsupervised Summarization）是一种自然语言处理任务，旨在在没有人工标注的摘要数据（如没有给定摘要样本作为训练参考）的情况下，自动从文本中提取或生成摘要。它主要依赖文本自身的特征，如词频、句子位置、语义相似性等来确定文本的关键内容，从而生成简洁、能够代表原文主要思想的摘要。
主要方法
基于统计的方法
- 词频统计法：这种方法基于一个简单的假设，即文本中出现频率高的词往往是重要的词。例如，在一篇新闻报道中，反复出现的人名、地名、事件名称等高频词可能是关键信息。通过计算词频，选取包含高频词的句子来构成摘要。不过，这种方法的局限性在于，...

Text as representation

234 views

定义与概念
- “Text as representation”指的是将文本作为一种数据表示形式，利用文本的内容、结构、语法、语义等方面来传达信息、描述对象或者体现某种特征。文本本身可以是自然语言文本，如文章、句子、短语等，也可以是经过特定格式化、编码后的文本形式，例如用特定符号表示的代码文本等。它旨在通过文字的组织来构建一种能够被计算机或人类理解、分析、处理的表达形式。
在不同领域的应用及体现
- 自然语言处理（NLP）
  - 文本分类任务：文本被当作一种表示来区分不同的类别。例如在新闻分类中，一篇新闻报道的文本内容就是其表示，模型会根据文本中包含的词汇、语句结构、语义信息等来判断...

离散表示-

255 views

定义与概念
离散表示（Discrete Representation）是一种将数据或信息表示为离散值的方式。与连续表示（如实数范围内的数值）相对，离散表示的取值是有限个或者可数无穷个孤立的值。例如，在数字电路中，信号只有0和1两种状态，这就是一种离散表示；在自然语言处理中，词汇表中的单词可以看作是离散的符号，每个单词就是一个离散的表示单元。
在不同领域的应用及示例
自然语言处理
- 单词表示：单词是自然语言处理中最基本的离散表示单元。词汇表可以看作是一个离散集合，每个单词在这个集合中有一个唯一的索引或标识符。例如，在一个简单的文本分类任务中，文本首先被分割成单词，这些单词就以离散的...

语音转换

239 views

定义与基本原理
定义：语音转换（Voice Conversion）是一种音频处理技术，其目的是在保留语音内容（如所说的字词）的基础上，改变语音的音色、语调、语速等属性。例如，将一个人的语音转换为另一个人具有相似内容但不同音色的语音，或者改变语音的情感色彩，如从平淡的语气转换为欢快的语气。
基本原理：语音转换通常基于对语音信号的声学特征分析和合成。首先，从原始语音信号中提取出声学特征，如基频（Fundamental Frequency，F0）、梅尔频率倒谱系数（Mel - Frequency Cepstral Coefficients，MFCC）、谐波结构等。这些特征可以描述语音的音高...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。

开放集识别

网络入侵检测

异常检测-ML

随机梯度下降

基本原理

计算任务-ML

数据预处理计算任务

工作负载-ML

主要特点

无监督文本摘要

Text as representation

离散表示-

语音转换