Agentic AI 如何构建更好的解决方案?


利用智能体人工智能(Agentic AI)与多大型语言模型(LLMs)创建更智能解决方案的解读报告

一、引言

在人工智能技术飞速发展的当下,大型语言模型(Large Language Models,简称LLMs )已成为推动各领域创新的关键力量。而智能体人工智能(Agentic AI)概念的出现,进一步拓展了LLMs的应用边界,为构建更智能、更具协同性的解决方案提供了新路径。本次报告聚焦于“Using Agentic AI to create smarter solutions with multiple LLMs (step - by - step process)”这一主题,通过对相...

Read more

AI Engineer-网站



一段话总结

2025年6月3日至5日在旧金山举办的AI Engineer World's Fair已第三届,是工程师必参加的盛会,由Microsoft和smol.ai主办,汇聚世界顶尖AI实验室人员、创始人、财富500强CTO与AI工程师等约1000人,有超150场分18个轨道的演讲、20+场实践工作坊、前沿博览会等丰富活动,其高技术性、高生产价值获参与者盛赞,称其信号噪音比高、内容前沿,还可查看2023-2025年演讲。


思维导图

## **基本信息**
- 时间:202563-5
- 地点:旧金山
- 主办方:Microsoftsmol.ai
- 参与人员:约1000名创...

Read more

Qlib-论文



一段话总结

量化投资旨在通过金融工具在连续交易期内实现收益最大化与风险最小化,受AI技术快速发展及其在量化投资中创新潜力的启发,AI驱动的量化研究与投资工作流应用日益增多,与此同时,AI技术在丰富量化投资方法论的同时,也对量化投资系统提出了基础设施需升级以适应新学习范式、需更强大性能以满足数据驱动特性、以及在金融场景中应用AI解决不同任务存在独特挑战等新要求,为应对这些挑战并桥接AI技术与量化投资,我们设计开发了Qlib,其旨在实现AI技术在量化投资中的潜力、赋能相关研究并创造价值。


思维导图

## **标题**
- Qlib: An AI-oriented Quantitative...

Read more

策略梯度上升-RL


Policy Gradient Ascent(策略梯度上升)是强化学习中直接优化策略参数的一类方法,核心思想是通过梯度上升调整策略网络的参数,使得智能体在环境中获得的期望累积回报最大化。它属于策略梯度(Policy Gradient)算法家族,适用于连续或高维动作空间场景(如机器人控制)。

核心思想:直接优化策略

与价值函数方法(如Q-learning,通过估计“状态-动作价值”间接优化策略)不同,策略梯度方法直接对策略参数$\theta$(如神经网络权重)进行优化。策略$\pi_\theta(a|s)$表示在状态$s$下选择动作$a$的概率(随机策略)或确定动作(确定性策略)。目标是最...

Read more

策略网络-RL


在强化学习(Reinforcement Learning, RL)中,策略网络(Policy Network)是直接输出智能体(Agent)动作策略的神经网络模型,是策略梯度(Policy Gradient)类算法(如REINFORCE、PPO、TRPO等)的核心组件。其核心作用是将环境状态映射到动作的概率分布(或确定性动作),指导智能体在不同状态下做出决策。

策略网络的核心特点

  1. 输入:通常是环境的状态(State),可以是图像(如像素矩阵)、数值向量(如机器人关节角度)等。
  2. 输出
  3. 对于离散动作空间:输出各动作的概率分布(通过Softmax激活函数),例如动作空间为3时,输出...

Read more

集成学习实战-Books


集成学习基础知识

集成方法:集体智慧

关注集成学习原因

单个模型中的拟合度与复杂性

第一个集成模型

集成方法的术语和分类

基本集成方法

同质并行集成:Bagging法和随机森林

并行集成

Bagging: Boostrap结合算法

随机森林

更多同质并行集成

案例研究: 乳腺癌诊断

异构并行集成:结合强学习器

异质集成的基础估计器

通过加权结合预测

通过元学习结合预测

案例研究:情感分析

顺序集成: 自适应提升

弱学习器的顺序集成

AdaBoost: 自适应提升

AdaBoost在实践中的应用

案例研究: 手写数字分类

LogitBoost:使用逻辑损失进行提升

顺序继承...

Read more

时间差分学习-RL


时间差分学习(Temporal Difference Learning, TD Learning)是强化学习(Reinforcement Learning, RL)中的核心方法之一,它巧妙结合了动态规划(Dynamic Programming, DP)和蒙特卡洛(Monte Carlo, MC)方法的优点,能够在无需完全知晓环境模型的情况下,通过采样交互数据在线更新值函数。以下从核心概念、算法原理、优势对比及应用场景等方面展开概述:

一、TD学习的核心思想

  1. 自举(Bootstrapping)与采样的结合
  2. 自举:利用当前已有的值函数估计来更新其他状态的值(类似DP,基于后续状态的估计...

Read more

智能体(Agents)的“智能体化”程度探究


智能体(Agents)的“智能体化”程度探究:现状、挑战与未来方向

一、幻灯片内容解析

(一)核心问题:How agentic are our agents?(我们的智能体有多“智能体化”? )

这一问题聚焦于当下智能体(agents)在自主性、功能实现等维度,与理想中具备高度智能体特质(如自主决策、长期任务执行等)的契合度探究,是理解智能体发展现状与瓶颈的关键切入点。

(二)具体要点展开

  1. Many agents are pipelines(许多智能体是管道式结构 )

◦ Low degree of autonomy(低自主性 ):这类智能体多遵循预设的、线性的流程运行,像工厂流水线...

Read more

大盘云图-ONE-功能架构



一段话总结

2025年06月11日20:07:00的大盘云图显示,上证指数为3402.32(涨0.52%)、深证成指为10246.02(涨0.83%)、创业板指为2061.87(涨1.21%)、科创50为980.93(跌0.20%)、沪深300为3894.63(涨0.75%),此外还提及A股全图和美股云图。


思维导图

## **大盘云图信息**
- 日期时间:2025-06-11 20:07:00
- 指数情况
  - 上证指数:3402.32,+0.52%
  - 深证成指:10246.02,+0.83%
  - 创业板指:2061.87,+1.21%
  - 科创50:980.9...

Read more