分类目录归档:自研课程

MLOPS原理-视频文字


MLOps 原理与知识体系介绍

MLOps(Machine Learning Operations)是一种将机器学习模型从开发到部署、监控和维护的端到端流程进行标准化和自动化的实践。它借鉴了 DevOps 的理念,旨在提高机器学习项目的效率、可靠性和可重复性。

MLOps 的核心原理包括:

  • 自动化: 自动化机器学习工作流的各个环节,包括数据准备、模型训练、评估、部署和监控,以减少人为错误,提高效率。
  • 协作: 促进数据科学家、工程师和运维人员之间的协作,打破部门壁垒,实现知识共享和高效沟通。
  • 可重复性: 确保机器学习模型的训练和部署过程可重复,以便于调试、优化和版本控制。
  • 监控: ...

Read more

支持向量机-SVM-视频文字


支持向量机(Support Vector Machine, SVM)是一种经典的监督学习算法,主要用于分类和回归任务,尤其在高维数据中表现优异。它的核心思想是通过寻找一个最优的超平面来分隔不同类别的数据,从而实现分类。以下是对SVM的详细介绍。


核心概念

  1. 超平面
  2. 在n维空间中,超平面是一个n-1维的子空间。对于二维数据,超平面是一条直线;对于三维数据,它是一个平面。SVM的目标是找到一个超平面,能够将不同类别的数据点分开。

  3. 支持向量

  4. 支持向量是离超平面最近的样本点,它们是决定超平面位置的关键。这些点“支持”了超平面的位置,因此得名。

  5. 间隔

  6. 间隔是超平面到最近支持...

Read more

FinGPT 技术分析-视频文字


FinGPT 技术分析:深入理解

1. 引言

FinGPT 是由 AI4Finance Foundation 开发的开源金融大语言模型(LLM),旨在为金融领域提供高效、低成本的数据处理和分析解决方案。其核心目标是通过民主化的金融数据和灵活的微调机制,推动金融科技的创新与应用。

2. FinGPT 的核心技术

2.1 数据驱动与动态适应性
FinGPT 采用以数据为中心的方法,强调金融数据的获取、清理和预处理。通过自动化数据管理管道,FinGPT 能够及时更新数据(每月或每周),确保模型的准确性和相关性。与传统金融大模型(如 BloombergGPT)相比,FinGPT 的微调成本显...

Read more

知识蒸馏-视频文字-V2


知识蒸馏(Knowledge Distiction)的深度解析

知识蒸馏是一种模型压缩与迁移学习技术,旨在将大型、复杂的模型(称为教师模型)的知识转移到小型、简单的模型(称为学生模型)中。其核心目标是通过模仿教师模型的行为,使学生模型在保持较高性能的同时,显著减少计算复杂度、存储需求和推理时间。这种方法在深度学习领域被广泛应用,尤其是在资源受限的场景中,如移动设备、嵌入式系统和实时应用。


核心思想与原理

知识蒸馏的核心思想是利用教师模型的“软输出”(soft outputs)作为额外的监督信号,而不仅仅依赖于训练数据中的“硬标签”(hard labels)。教师模型在训练数据上生成的输...

Read more

softmax-视频文字


Softmax 详细讲解

Softmax 是一种常用的数学函数,主要用于将一组实数转换为概率分布。它在机器学习和深度学习中扮演着重要角色,尤其是在多分类问题中。本文将详细讲解 Softmax 的原理、计算步骤、特性及其应用。


1. Softmax 的定义

Softmax 函数的输入是一个实数向量 ( \mathbf{z} = [z_1, z_2, \dots, z_n] ),输出是一个概率分布 ( \mathbf{s} = [s_1, s_2, \dots, s_n] )。其公式定义为:

[ s_i = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}} ]

...

Read more

LSTM-视频文字


LSTM(长短期记忆网络,Long Short-Term Memory)是一种特殊的循环神经网络(RNN),专门用来解决普通RNN在处理长序列数据时容易出现的梯度消失梯度爆炸问题。LSTM通过一种独特的“记忆单元”结构,能够有效地记住长期信息,同时也能灵活地忘记不重要的信息。

LSTM的核心思想

LSTM的关键在于它引入了三个门控机制,分别是遗忘门输入门输出门。这些门控机制就像“开关”一样,控制信息的流动,决定哪些信息需要记住,哪些信息需要丢弃。


LSTM的三个门控机制

  1. 遗忘门
  2. 作用:决定哪些信息需要从记忆单元中丢弃。
  3. 通俗解释:遗忘门会根据当前的输入和前一时刻的隐藏状态,...

Read more

RNN-视频文字


循环神经网络(RNN)原理详解

循环神经网络(Recurrent Neural Network,RNN)是一种专门用于处理序列数据的神经网络模型。与传统的前馈神经网络不同,RNN 具有记忆能力,能够捕捉序列数据中的时间依赖关系。它在自然语言处理、时间序列分析、语音识别等领域有着广泛的应用。本文将从 RNN 的基本原理、结构、优缺点以及应用场景等方面进行详细介绍。


1. RNN 的基本原理

RNN 的核心思想是利用循环结构来处理序列数据。序列数据的特点是数据点之间存在时间或顺序上的依赖关系,例如句子中的单词、时间序列中的观测值等。传统的前馈神经网络无法直接处理这种依赖关系,因为它们的输入...

Read more

时间序列预测模型-视频文字


时间序列预测模型是用于分析和预测时间序列数据的统计或机器学习模型。时间序列数据是按时间顺序排列的数据点序列,常见于金融、气象、销售等领域。以下是几种常用的时间序列预测模型:

1. 传统统计模型

  • ARIMA (自回归积分滑动平均模型)
    • ARIMA 是一种经典的时间序列预测模型,适用于线性数据。它结合了自回归 (AR)、差分 (I) 和移动平均 (MA) 三个部分。
    • 公式:ARIMA(p, d, q),其中 p 是自回归阶数,d 是差分阶数,q 是移动平均阶数。
  • SARIMA (季节性 ARIMA)
    • SARIMA 是 ARIMA 的扩展,适用于具有季节性特征的时间序列数据。
    • 公式:SA...

Read more

基础模型-视频文字


Base Model(基础模型)是机器学习中的一个概念,通常指未经微调或特定任务训练的预训练模型。这些模型在大规模数据集上进行训练,学习通用的特征表示,适用于多种任务。以下是关于Base Model的详细介绍:

1. 定义

Base Model 是在大规模数据集上预训练的模型,具备通用的特征提取能力。它们通常作为起点,可以通过微调(Fine-tuning)适应特定任务。

2. 特点

  • 预训练:在大规模数据集(如文本、图像)上训练,学习通用特征。
  • 通用性:适用于多种任务,如分类、检测、生成等。
  • 可微调:可以通过微调适应特定任务,提升性能。

3. 常见类型

  • 自然语言处理(NLP)
  • BE...

Read more

LSTM-概述


LSTM(Long Neural Network,LSTM)是一种特殊的循环神经网络(RNN),专门设计用来解决标准RNN在处理长序列数据时遇到的梯度消失和梯度爆炸问题。LSTM通过引入记忆单元和门控机制,能够有效地捕捉和利用序列数据中的长期依赖关系。

LSTM的核心结构

LSTM的核心结构包括以下几个关键组件:

  1. 记忆单元(Cell State)
  2. 记忆单元是LSTM的核心,它贯穿整个时间步,负责保存和传递信息。记忆单元的状态在每个时间步都会被更新,但更新方式受到输入门、遗忘门和输出门的控制。

  3. 遗忘门(Forget Gate)

  4. 遗忘门决定哪些信息应该从记忆单元中丢弃。它通过...

Read more