- 支持向量机-SVM 1
- 知识蒸馏 1
- 建模
- 特征提取
- 特征工程 1
- 特征归一化
- softmax 1
- 时间序列预测模型 1
- FinGPT 1
- FinML
- ChatGPT
- LLM
- GPT 1
- LSTM
- Transformer 1
- 梯度下降 1
- 特征工程 1
- 神经网络 1
- AI原理系列-强化学习 1
- AI原理系列-无监督学习 1
- AI原理系列-监督学习 1
- MoE架构的解析 1
- GPU 消费级与专业级性价比分析报告
- 算力集群的自建与租赁方案对比分析报告
- 训练一个1B的金融大模型需要花多少钱? 1
- AlphaNet 1
- 卷积神经网络
- 循环神经网络
- Bert
- AlphaNet
- Vnp...
分类目录归档:个人成长
全面解析时间序列分析与预测-v01
全面解析时间序列分析与预测
1. 时间序列分析的核心概念与理论基础
时间序列分析是数据科学和统计学中的一个核心领域,专注于研究按时间顺序排列的数据点。这些数据点通常以固定的时间间隔(如每日、每周、每月)进行测量和记录,其本质特征是数据值会随着时间的推移而发生变化 。时间序列分析的目标不仅仅是描述历史数据,更重要的是理解其内在结构,并基于这种理解对未来进行预测。这一过程在金融、经济、气象、零售、医疗等众多领域都有着广泛的应用。例如,金融分析师利用时间序列模型预测股票价格的走势,气象学家用它来预报未来的天气变化,而零售商则通过分析历史销售数据来优化库存管理和制定营销策略 。时间序列数据可以被...
神经网络与机器学习-books
导言
Rosenblatt 感知器
回归建模
最小均方算法
多层感知器
核方法和径向基函数网络
支持向量机
主成分分析
自组织映射
信息论学习模型
源于统计力学的随机方法
动态规划
神经动力学
动态系统状态估计的贝叶斯滤波
动态驱动递归网络
统计学习要素-机器学习中的数据挖掘,推断与预测-Books
概述
监督学习概述
回归的线性方法
分类的线性方法
基展开与正则化方法
核平滑方法
模型的评估和选择
模型的推断和平均
加性模型,树和相关方法
Boosting 和加性树
神经网络
支持向量机与柔性判别分析
原型方法与最近邻
非监督学习
随机森林
集成学习
无向图模型
高维问题
精通特征工程-Feature Engineering For Machine Learning-Books
机器学习的流程
简单而又奇妙的数值
文本数据: 扁平化,过滤和分块
特征缩放的效果:从词袋到tf-idf
分类变量:自动化时代的数据计数
数据降维:使用PCA 挤压数据
非线性特征话与k-均值模型堆叠
自动特征生成:图像特征提取和深度学习
回到特征:建立学术论文推荐器
附录A: 线性建模与线性代数基础
链式法则:微积分中看不见的纽带
链式法则:微积分中看不见的纽带
在微积分的宏伟殿堂中,链式法则宛如一条看不见的纽带,将复杂函数的求导过程分解为优雅而简洁的步骤。这条看似简单的法则,不仅是数学家的精巧创造,更是我们理解变化世界中多层关系的钥匙。当我们追踪空气中污染物的扩散、计算金融市场的复合增长率,甚至训练深度神经网络时,链式法则都在默默发挥着它的魔力。
链式法则解决的核心问题是复合函数的求导方法。所谓复合函数,就像俄罗斯套娃,一个函数嵌套在另一个函数之中。形式上,如果有两个函数y=f(u)和u=g(x),那么它们的复合函数就是y=f(g(x))。链式法则告诉我们,这个复合函数的导数可以表示为:dy/dx = (dy/d...
数据科学体系架构:从理论基础到工程实践-V03
数据科学体系架构:从理论基础到工程实践
一、数据基础架构与工程实践
现代数据科学建立在规模化数据工程基础之上。数据流水线采用Lambda架构实现批流一体化处理,使用Apache Spark进行分布式ETL处理,通过Apache Kafka构建实时数据流平台。数据质量保障采用系统化方法:使用Great Expectations框架定义数据质量规则,通过Anomaly Detection算法识别数据异常,基于数据血缘分析实现全链路追溯。
在特征工程层面,我们采用自动化特征工程(AutoFE)技术:使用TSFresh进行时序特征自动生成,通过FeatureTools实现深度特征合成。针对高维稀...
数据科学体系化构建:从底层处理到生产级部署-v02
数据科学体系化构建:从底层处理到生产级部署
数据科学作为一门融合统计学、计算机科学和领域知识的交叉学科,已形成完整的理论体系和技术栈。本文将从专业视角深入剖析数据科学的关键组成部分,着重探讨数据处理与分析、机器学习、图分析、向量搜索、优化算法以及MLOps等核心模块的技术实现与系统集成。
数据工程基础:构建可靠的数据流水线
数据处理是数据科学项目的基石。在实际工业场景中,数据工程师需要构建稳健的ETL(Extract-Transform-Load)流水线来处理多源异构数据。我们采用Apache Spark等分布式计算框架处理海量数据,运用数据质量框架如Great Expectations...
数据科学全景解析:从数据处理到智能部署-V01
数据科学全景解析:从数据处理到智能部署
在当今数据驱动的时代,数据科学已成为企业获取竞争优势的核心引擎。作为一名数据科学家,我深刻理解这个领域的复杂性和多维性。数据科学不仅是一门学科,更是一个完整的生态系统,涵盖了从数据收集到智能决策的全过程。本文将带您深入探索数据科学的关键组成部分,揭示如何将原始数据转化为可行动的智能。
数据基础:处理与分析的艺术
任何数据科学项目的起点都是数据。数据处理与分析构成了整个数据科学金字塔的基石。在实际工作中,数据往往以混乱、不完整的形式存在。数据清洗和预处理因此成为最关键且最耗时的环节。我们使用各种工具和技术来处理缺失值、异常值和重复数据,确保数据质量。...