作者文章归档：course

从无配对数据中学习

404 views

定义
“Learning from unpaired data”指从无配对数据中学习。在机器学习和数据挖掘领域，这是一种比较特殊的数据利用方式。通常，我们接触的监督学习是基于配对数据的，即输入数据和对应的目标输出（标签）是成对出现的。而无配对数据学习面对的数据是没有这种明确配对关系的，例如有两个不同的数据集，一个包含猫的图像，另一个包含狗的图像，没有明确指出哪些猫的图像和哪些狗的图像有对应关系。
应用场景
图像风格转换
- 无配对数据学习在图像风格转换任务中表现出色。例如，有一组包含真实风景照片的数据集和一组梵高画作风格的数据集。通过无配对数据学习，可以让模型学习到真实风景照片的内...

标量在机器学习中的应用有哪些？

320 views

损失函数中的应用
均方误差（MSE）
- 在回归任务中，均方误差是一种常用的损失函数。对于一个包含(n)个样本的数据集，设预测值为(\hat{y}i)，真实值为(y_i)，均方误差的计算公式为(MSE=\frac{1}{n}\sum^{n}(\hat{y}_i - y_i)^2)。这里的((\hat{y}_i - y_i)^2)计算的是每个样本预测值与真实值差值的平方，这是一个标量。对所有样本的这个标量进行求和并取平均，得到的MSE也是一个标量，它衡量了模型预测值与真实值的整体偏差程度。例如，在预测房价的任务中，MSE越小，表示模型预测的房价与实际房价的差距越小。
交叉熵损失（Cros...

预测任务

327 views

定义和重要性
定义：预测任务是指通过对历史数据或已知信息的分析，构建模型来推测未来事件、趋势、数值等未知信息的任务。它是机器学习和数据分析领域中的一个关键应用方向，旨在发现数据中的规律和模式，从而为决策提供依据。
重要性：在许多领域都有广泛的应用，例如在商业领域，可以帮助企业预测销售趋势、市场需求变化、客户行为等，从而优化库存管理、制定营销策略和规划生产计划；在气象学中，预测天气变化对于灾害预警、农业生产安排等有着至关重要的意义；在医疗领域，预测疾病的发展趋势、患者的康复情况等有助于医生制定更合理的治疗方案。
常见类型
时间序列预测
- 定义：处理按时间顺序排列的数据序列，目标是预...

Text to Image-发展历史

373 views

Text to Image的发展历程是一个充满创新与突破的过程，以下是其详细介绍：

早期探索阶段

在深度学习兴起之前，构建Text to Image模型的尝试主要局限于通过拼接现有图像组件来制作拼贴画，例如利用剪贴画数据库中的图像进行组合。

基于GAN的初步尝试阶段

2015年：多伦多大学的研究人员推出了第一个现代意义上的Text to Image模型AlignDraw，它扩展了之前的Draw架构，使用带有注意力机制的循环变分自编码器，并以文本序列为条件生成图像。不过，其生成的图像较为模糊，不够逼真，但具有一定的泛化能力，能够处理训练数据中未出现过的物体和新颖的提示.
2016年...

条件生成-ML

353 views

定义
条件生成（Conditional Generation）是一种生成模型的任务类型，它指的是在给定某些条件的情况下生成符合要求的样本。这些条件可以是类别标签、文本描述、部分输入样本等多种形式，生成模型根据这些条件来控制生成的内容。
应用场景
图像生成
- 基于类别标签生成图像：例如，给定“狗”这个类别标签，条件生成模型可以生成各种不同品种、姿势、背景的狗的图像。在电子商务中，可以根据商品类别（如服装、电子产品等）生成相应的产品展示图像，帮助商家快速获得商品展示素材。
- 基于文本描述生成图像：利用自然语言处理技术，将文本描述（如“一个有红色屋顶的海边小屋”）转换为图像。这在创意设计...

FID-DL

360 views

定义
FID即Fréchet Inception Distance，是一种用于评估生成模型（如生成对抗网络 - GAN、变分自编码器 - VAE等）生成样本质量的指标。它主要衡量生成样本的分布与真实样本分布之间的距离。
计算原理
特征提取：
- 利用在大规模图像数据集（如ImageNet）上预训练的Inception - v3模型来提取特征。Inception - v3是一个深度卷积神经网络，能够很好地捕捉图像的高级语义特征。对于生成样本和真实样本，都通过这个预训练模型来提取特征向量。
计算均值和协方差：
- 设生成样本经过特征提取后得到的特征向量集合为(m)，其均值为(\mu_m)，协方...

多样性-ML

352 views

多样性的定义与重要性
定义：在机器学习和数据处理的语境下，多样性通常指样本、特征或模型等方面的丰富程度。例如，在生成模型中，样本多样性是指生成的样本能够涵盖目标数据分布中的多种不同模式；在数据集中，特征多样性表示数据集中包含各种不同类型的、能够有效表征数据的特征。
重要性：
- 模型泛化能力：具有多样性的训练数据有助于提高模型的泛化能力。以图像分类为例，如果训练集中包含各种不同场景、光照条件、物体姿态等多样性的图像，模型就能更好地学习到图像的通用特征，从而在面对新的、未见过的图像时也能准确分类。
- 生成模型质量：对于生成模型，如GAN和VAE，生成样本的多样性是衡量模型性能的关键指标之一...

Crawl4AI-开源且免费的、专为大型语言模型（LLM）和AI应用设计的网页爬虫及数据提取工具

399 views

Crawl4AI是一款开源且免费的、专为大型语言模型（LLM）和AI应用设计的网页爬虫及数据提取工具。以下是对它的详细介绍：

特点

强大的功能与数据处理能力：支持滚动页面、抓取多个URL、提取媒体标签（如图片、视频、音频）、元数据、外部/内部链接以及屏幕截图等，可处理各种复杂网页环境。
AI驱动的智能化提取：能通过学习网页结构，智能地识别并提取所需信息，减少人为错误，提高处理复杂网页的能力。
输出格式友好：支持将提取到的数据转换为JSON、Markdown等结构化格式，方便后续的分析和处理。
高度可定制：支持用户自定义认证、请求头信息、爬取前页面修改、用户代理以及JavaScript脚...

灰犀牛事件

451 views

灰犀牛事件是指明显的、高概率的却又屡屡被人忽视、最终有可能酿成大危机的事件。以下是关于它的详细介绍：

概念提出

起源：该概念由美国作家、政策分析师米歇尔·渥克在其2017年出版的财经畅销书《灰犀牛：如何应对大概率危机》中提出。

特点

高概率性

灰犀牛事件发生的概率较大，并非小概率的意外事件。例如，全球气候变化带来的灾害性天气，随着温室气体排放的增加和气候变暖的趋势，极端天气事件如暴雨、洪涝、干旱、飓风等发生的频率和强度都在不断增加，对人类社会和自然环境造成巨大影响，这是一个大概率会发生的危机。

可预见性

在危机爆发前往往有明显的信号或前奏，是可以被预见的。如美国次贷危机爆发前...

黑天鹅事件

431 views

黑天鹅事件是指具有意外性、稀有性、极大的冲击性且难以预测的重大事件，以下是关于它的详细介绍：

概念提出

起源：黑天鹅事件这一概念由纳西姆·尼古拉斯·塔勒布（Nassim Nicholas Taleb）在其2007年出版的著作《黑天鹅》中提出。在发现澳大利亚的黑天鹅之前，欧洲人一直认为天鹅都是白色的，“黑天鹅”曾经是他们言谈与写作中的惯用语，用来指不可能存在的事物。然而，澳大利亚黑天鹅的出现彻底颠覆了这一认知，塔勒布借此比喻那些难以预测、但一旦发生就会产生巨大影响的稀有事件。

特点

稀有性

黑天鹅事件通常是极其罕见的，在历史的长河中很少发生。例如，2008年全球金融危机、2020年新...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。

从无配对数据中学习

标量在机器学习中的应用有哪些？

预测任务

Text to Image-发展历史

早期探索阶段

基于GAN的初步尝试阶段

条件生成-ML

FID-DL

多样性-ML

Crawl4AI-开源且免费的、专为大型语言模型（LLM）和AI应用设计的网页爬虫及数据提取工具

特点

灰犀牛事件

概念提出

特点

高概率性

可预见性

黑天鹅事件

概念提出

特点

稀有性