作者文章归档:course
统计学习要素-机器学习中的数据挖掘,推断与预测-Books
概述
监督学习概述
回归的线性方法
分类的线性方法
基展开与正则化方法
核平滑方法
模型的评估和选择
模型的推断和平均
加性模型,树和相关方法
Boosting 和加性树
神经网络
支持向量机与柔性判别分析
原型方法与最近邻
非监督学习
随机森林
集成学习
无向图模型
高维问题
精通特征工程-Feature Engineering For Machine Learning-Books
机器学习的流程
简单而又奇妙的数值
文本数据: 扁平化,过滤和分块
特征缩放的效果:从词袋到tf-idf
分类变量:自动化时代的数据计数
数据降维:使用PCA 挤压数据
非线性特征话与k-均值模型堆叠
自动特征生成:图像特征提取和深度学习
回到特征:建立学术论文推荐器
附录A: 线性建模与线性代数基础
链式法则:微积分中看不见的纽带
链式法则:微积分中看不见的纽带
在微积分的宏伟殿堂中,链式法则宛如一条看不见的纽带,将复杂函数的求导过程分解为优雅而简洁的步骤。这条看似简单的法则,不仅是数学家的精巧创造,更是我们理解变化世界中多层关系的钥匙。当我们追踪空气中污染物的扩散、计算金融市场的复合增长率,甚至训练深度神经网络时,链式法则都在默默发挥着它的魔力。
链式法则解决的核心问题是复合函数的求导方法。所谓复合函数,就像俄罗斯套娃,一个函数嵌套在另一个函数之中。形式上,如果有两个函数y=f(u)和u=g(x),那么它们的复合函数就是y=f(g(x))。链式法则告诉我们,这个复合函数的导数可以表示为:dy/dx = (dy/d...
提示词-ONE
分析平台
写一个预测分析页面,实现的功能为 选择开始时间 结束时间,分别展示某只股票, 这段时间内 预测价格 与 真实价格的 绘制出折线图,完成前后端的所有代码功能,并把这个页面放在分析平台的导航栏中
日线模型 预测数据的的集合为 predictPriceV2 真实数据的集合为bsStockDailyHist
stock_database是存放预测数据的数据库 src_db是存放真实数据的数据库
bsStockDailyHist 集合字段 为{ _id: ObjectId('68ca7e54385eccc7dd4bab09'), code: 'sh.600000',...
TimeXer:融合外部变量的时间序列预测新范式
TimeXer:融合外部变量的时间序列预测新范式
TimeXer 是清华大学研究团队在2024年提出的一种创新型时间序列预测模型,它专门设计用于有效融合外生变量(外部因素) 来提升对目标序列(内生变量)的预测精度。该模型基于经典的Transformer架构,通过巧妙的嵌入策略和注意力机制调整,使其能够同时捕捉时间序列的内在模式和外部因素的影响。
核心设计与原理
TimeXer 的核心创新在于其差异化的嵌入策略和双注意力机制,解决了传统方法在处理外生变量时面临的挑战。
-
差异化的嵌入策略
- 内生变量嵌入:采用分块(Patching)策略(将时间序列分割为不重叠的片段,每个片段视为一个 t...
洞察市场的脉搏:动态条件相关模型(DCC)深度解析
洞察市场的脉搏:动态条件相关模型(DCC)深度解析
在金融市场的波澜诡谲中,资产之间的关系绝非一成不变。牛市时,股票齐涨,相关性增强;危机中,所有资产似乎都同步下跌,相关性骤然飙升;而在平静期,它们又可能各自为政。这种如同“情绪”般不断变化的关联性,是风险管理的核心,也是传统模型无法捕捉的盲区。而动态条件相关模型(Dynamic Conditional Correlation, DCC)正是为了洞察这一“市场脉搏”而诞生的强大工具。
一、 核心思想:从“静态”到“动态”的革命
在DCC模型出现之前,分析多种资产风险的主流方法是使用常相关假设,比如经典的资本资产定价模型(CAPM)或风险矩...
FastDTW-时间序列相似性检测
FastDTW(Fast Dynamic Time Warping)是一种用于计算两个时间序列之间相似性的高效算法。它是经典动态时间规整(DTW)算法的一种近似方法,旨在解决 DTW 计算复杂度高的问题。
为了更好地理解 FastDTW,我们首先需要了解它要解决的问题和它改进的原始算法。
1. 背景:什么是 DTW?
动态时间规整 (Dynamic Time Warping, DTW) 是一种用于衡量两个不同长度的时间序列之间相似度的经典算法。它的核心思想是找到两个序列之间的最佳对齐方式,即使它们在时间轴上有非线性(如速度不一)的偏移。
- 解决的问题:例如,比较两个人说同一个单词的音频...
数据科学体系架构:从理论基础到工程实践-V03
数据科学体系架构:从理论基础到工程实践
一、数据基础架构与工程实践
现代数据科学建立在规模化数据工程基础之上。数据流水线采用Lambda架构实现批流一体化处理,使用Apache Spark进行分布式ETL处理,通过Apache Kafka构建实时数据流平台。数据质量保障采用系统化方法:使用Great Expectations框架定义数据质量规则,通过Anomaly Detection算法识别数据异常,基于数据血缘分析实现全链路追溯。
在特征工程层面,我们采用自动化特征工程(AutoFE)技术:使用TSFresh进行时序特征自动生成,通过FeatureTools实现深度特征合成。针对高维稀...
数据科学体系化构建:从底层处理到生产级部署-v02
数据科学体系化构建:从底层处理到生产级部署
数据科学作为一门融合统计学、计算机科学和领域知识的交叉学科,已形成完整的理论体系和技术栈。本文将从专业视角深入剖析数据科学的关键组成部分,着重探讨数据处理与分析、机器学习、图分析、向量搜索、优化算法以及MLOps等核心模块的技术实现与系统集成。
数据工程基础:构建可靠的数据流水线
数据处理是数据科学项目的基石。在实际工业场景中,数据工程师需要构建稳健的ETL(Extract-Transform-Load)流水线来处理多源异构数据。我们采用Apache Spark等分布式计算框架处理海量数据,运用数据质量框架如Great Expectations...