Gemini Deep Research-概述


以下是关于 Gemini Deep Research 的核心内容总结:

一、服务介绍

  • Gemini Deep Research 是一款由 Gemini 2.0 Flash Thinking(实验性功能)驱动的个人研究助理服务,具备自动浏览网站、思考并生成多页报告的能力,可将报告转化为播客风格对话,节省时间。
  • 它能够将提示转化为个性化的多点研究计划,自主搜索并深入浏览网页以获取相关信息,展示其思考过程,并最终生成详细全面的定制研究报告。

二、应用场景

  • 竞争分析:深入了解新产品竞争对手的市场情况,涵盖产品供应、定价、营销策略及客户反馈等方面。
  • 尽职调查:调查潜在销售线索,分析公司产品、融资历史、团队构成及竞争环境。
  • 主题理解:深入剖析主题,比较关键概念,识别思想间的关系,阐释基本原理。
  • 产品比较:根据功能、性能、价格和客户评论等因素评估不同型号的家电产品。

三、使用方式

  • Gemini Deep Research 旨在处理复杂的任务,通过分解问题、探索网络以寻找答案,并将发现整合为全面的结果。
  • 用户可以在桌面端、移动设备上,以 150 个国家、45 种语言使用该服务,Google Workspace 用户也可使用。用户只需从提示栏或模型选择器下拉菜单中选择 Deep Research 即可开始使用,Gemini 高级用户可获得更广泛的访问权限。

四、技术原理

  • 分解问题:面对复杂用户查询时,系统首先制定详细的研究计划,将问题分解为多个较小、易于管理的子任务,用户可调整该计划以确保其聚焦于正确领域。
  • 研究过程:模型监督计划的执行,智能地确定哪些子任务可以并行处理,哪些需要依次进行,并可使用搜索和网络浏览工具获取信息并进行推理。在每一步,模型都会根据现有信息决定下一步行动,并为用户引入思考面板,以便用户跟踪模型目前所学到的内容及下一步打算做什么。
  • 综合整理:当模型认为已收集到足够信息时,将其综合成一份全面的报告。在构建报告时,Gemini 会对信息进行批判性评估,识别关键主题和不一致性,并以逻辑且信息丰富的方式构建报告,甚至进行多次自我批评以增强清晰度和细节。

五、技术挑战与解决方案

  • 多步骤规划:研究任务需要多个步骤的迭代规划。在每一步,模型要基于目前已收集的所有信息,识别缺失信息和想要探索的差异,同时在全面性与计算和用户等待时间之间进行权衡。通过训练模型以高效的数据方式在长期多步骤规划中保持高效,使 Deep Research 能够在开放领域环境下涵盖所有主题。
  • 长时间推理:一个典型的 Deep Research 任务涉及多个模型调用,持续数分钟。为应对单点故障导致任务需要重新开始的挑战,开发了一种新颖的异步任务管理器,该管理器在规划器和任务模型之间维护共享状态,允许在不重新启动整个任务的情况下优雅地恢复错误。该系统是真正的异步系统,用户可以在开始一个 Deep Research 项目后切换到其他应用,甚至关闭计算机,下次访问 Gemini 时会收到研究完成的通知。
  • 上下文管理:在研究过程中,Gemini 可处理数百页的内容。为保持连续性并支持后续问题,使用 Gemini 行业领先的 100 万令牌上下文窗口,辅以 RAG 设置。这使系统能够“记住”聊天会话期间学到的所有内容,从而在与用户的交互中变得更智能。

六、未来发展

  • Gemini Deep Research 系统被构建为多功能的,随着时间推移,可通过赋予用户更多对其可浏览内容的控制权,并提供超出开放网络的来源,来扩展其功能。
  • 宝石团队希望了解人们如何使用 Deep Research,这些实际使用经验将指导他们如何继续构建和改进该产品。其最终目标是打造一个真正具有主体性和普遍帮助性的 AI 助手。

deep-research Google