分类目录归档:自研课程

数据中台概述-视频文字


数据中台(Data Middle Platform)是近年来企业数字化转型中的热门概念,其核心目标是打破数据孤岛、实现数据资产化,并通过统一的数据服务能力赋能业务快速创新。以下是关于数据中台的详细解析:


1. 数据中台的定义

数据中台是企业级的数据能力共享平台,通过整合多源异构数据(业务系统、IoT设备、日志等),构建统一的数据资产体系,并以API、可视化工具等方式为前端业务(如营销、风控、运营)提供灵活、高效的数据服务。

类比:类似于“数据厨房”,将原始数据(食材)加工成标准化、可复用的数据产品(半成品菜),供业务端快速调用,避免重复“切菜炒菜”。


2. 数据中台 vs 传统数据平...

Read more

数据工程概述-视频文字


数据工程架构概述

数据工程架构是支撑现代数据驱动应用的核心框架,旨在高效、可靠地管理数据的全生命周期(采集、存储、处理、分析和服务)。它为企业提供从原始数据到业务价值的转化能力,是数据科学、机器学习、商业智能(BI)等上层应用的基础。


1. 核心目标

  • 数据可用性:确保数据可被正确、及时地访问。
  • 可扩展性:支持海量数据的增长(如PB级数据)。
  • 可靠性:保障数据一致性、容错性和灾备能力。
  • 高效性:优化存储与计算的成本及性能。
  • 安全性:通过权限控制、加密等手段保护数据隐私。

2. 典型分层架构

数据工程架构通常分为以下层次:

(1)数据采集层(Ingestion)
  • 功能:从异构数据源...

Read more

AI数据分析-视频文字


AI数据分析:驱动智能时代的决策革命

引言:数据洪流中的智能进化

步入21世纪,数据已然成为与石油相媲美的战略资源。国际数据公司(IDC)预测,到2025年,全球数据总量将激增至175 ZB(1 ZB = 1万亿GB)。然而,令人惊讶的是,其中被有效分析的数据竟不足2%。传统的数据分析方法,由于效率低下,且高度依赖人工经验,在面对海量、复杂且异构的数据时,愈发显得力不从心。

AI数据分析(AI-Driven Data Analytics)适时登场,借助机器学习、深度学习等前沿技术,为数据赋予了“自我学习”的能力,能够从过往的历史规律中精准洞察未来趋势。以Netflix为例,它运用AI深入...

Read more

TimeGPT原理架构概述-视频文字-


TimeGPT原理架构概述 TimeGPT是由Nixtla开发的一种基于Transformer的生成式预训练模型,专门用于时间序列预测任务。其核心架构和原理如下: 1. 架构设计 TimeGPT的架构基于多层编码器-解码器结构,每一层都包含残差连接和层归一化。这种设计借鉴了“Attention is all you need”中提出的自注意力机制,能够有效捕捉时间序列数据中的复杂模式和长期依赖关系。 编码器-解码器结构:编码器负责将输入的时间序列数据编码为特征表示,而解码器则基于这些特征生成预测结果。 残差连接与层归一化:这些技术有助于缓解深度网络中的梯度消失问题,提升模型的训练效率和稳...

Read more

特征平台概述-视频文字


特征平台:数据智能时代的核心引擎

在大数据与人工智能深度融合的今天,特征平台已成为企业智能化转型的核心基础设施。作为连接原始数据与机器学习模型的桥梁,特征平台通过系统化的特征管理机制,实现了数据价值的深度挖掘与高效转化。

一、特征平台技术原理

特征平台基于特征全生命周期管理理念构建,包含特征注册、版本控制、元数据管理等核心模块。离线计算层依托Hadoop/Spark生态,通过批处理方式完成TB级特征加工,在线计算层则采用Flink/Kafka技术栈实现毫秒级实时特征计算。统一的特征元数据中心维护着特征血缘关系,确保特征可追溯、可复用。

分层架构设计是特征平台的技术精髓,自下而上包含数据源...

Read more

AutoGluon:原理、架构与应用场景-视频文字


AutoGluon:原理、架构与应用场景

一、引言

在当今快速发展的机器学习领域,自动化机器学习(AutoML)逐渐成为研究热点。AutoGluon 是一款开源的自动机器学习框架,旨在帮助用户更轻松地构建和优化机器学习模型,尤其适合初学者和希望快速迭代模型的开发者。它通过自动化的特征工程、模型选择、超参数调优等流程,极大地简化了机器学习的复杂性,同时也能为专家提供强大的工具来提升现有模型和数据管道的性能。

二、AutoGluon 的原理

(一)自动化特征工程

AutoGluon 会自动对输入数据进行特征分析和处理。它能够识别数据中的缺失值、异常值,并进行填充和修正。同时,它会根据数据类型...

Read more

KV Cache-视频文字


KV Cache(键值缓存)是Transformer架构中优化大语言模型(LLM)推理性能的核心技术,尤其在自回归生成任务中表现突出。以下是关于KV Cache的详细解析:


1. KV Cache的核心作用

KV Cache通过缓存注意力机制中的Key和Value矩阵,避免重复计算历史token的中间结果,从而显著提升推理效率。
- 加速推理:在自回归生成过程中,每一步仅需计算当前新token的Query,而Key和Value从缓存中复用,计算量从与序列长度平方相关(O(n²))降至线性(O(n))。
- 降低计算资源消耗:实验表明,开启KV Cache后,生成1000个token的耗...

Read more

RLHF-文字视频


基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)的全面分析,涵盖原理、架构、关键过程和应用场景:


一、原理

RLHF 的核心目标是通过人类偏好信号优化AI模型的行为,解决传统强化学习(RL)中奖励函数难以设计的难题。其原理可分解为: 1. 人类偏好建模
将人类对模型输出的主观评价(如A回复优于B)转化为可量化的奖励信号。 2. 策略优化
基于奖励信号,通过强化学习算法(如PPO、DPO)调整模型策略,使其输出更符合人类价值观。

理论依据
- Bradley-Terry模型:将成对偏好转化为概率分布,...

Read more

AutoML-视频文字


AutoML(Automated Machine Learning)旨在通过自动化机器学习流程中的关键步骤,降低技术门槛并提升效率。其核心知识体系涵盖以下核心模块:

一、AutoML核心架构

AutoML Architecture (注:此处可插入典型AutoML系统架构图)

1. 自动化数据预处理

  • 数据清洗增强:自动处理缺失值(插值/删除)、异常检测(Isolation Forest)、数据增强(SMOTE过采样)
  • 特征工程自动化:通过遗传编程自动生成高阶特征组合(如乘除运算),特征选择(LASSO正则化)
  • 类型自动识别:智能识别时间序列、文本(TF-IDF)、图像(自动维度匹配)

2. 智能模型选择

  • 元学习系统:构...

Read more

大模型微调-视频文字-


大模型微调(Fine-tuning)是迁移学习的一种重要技术,其核心思想是在预训练模型(Pre-trained Model)的基础上,通过特定任务的数据对模型参数进行进一步调整,使其适配下游任务。以下是其原理的概述:


1. 预训练阶段

  • 目标:利用大规模无标注数据(如文本、图像等)训练模型,学习通用的特征表示。
  • 方法:常见的预训练任务包括:
  • 自回归语言建模(如GPT系列):预测下一个词。
  • 自编码语言建模(如BERT):通过掩码预测(Masked Language Modeling)学习上下文表示。
  • 对比学习(如CLIP):学习跨模态的语义对齐。
  • 输出:模型具备对输入数据的通用理解能力(...

Read more