文章核心内容概述
-
主要介绍:OpenAI推出了一种名为“Deep Research”的新智能助手功能,可在ChatGPT中使用,它能通过推理综合大量在线信息,帮用户完成多步骤研究任务,节省研究时间。
-
功能特点:
- 多领域应用:适用于金融、科学、政策、工程等知识密集型领域及购物等日常场景,可提供全面报告,含清晰引用和思考总结,便于验证信息。
- 关键技术:基于即将推出的OpenAI o3模型版本,专为网络浏览和数据分析优化,能处理文本、图像、PDF等多种信息,通过训练学会规划和执行多步骤操作以获取所需数据。
- 对比优势:与GPT-4o相比,更适合需要深度和细节的多方面、特定领域查询,可进行广泛探索和引用每个观点,提供更详细、可验证的答案。
-
使用方法:
- 操作步骤:在ChatGPT中选择“deep research”,输入查询内容,可附加文件或表格提供上下文,之后会出现侧边栏显示步骤和来源,研究时间为5-30分钟,完成后会通过聊天报告形式呈现结果,并将在未来几周添加嵌入式图像、数据可视化等分析输出。
-
工作原理:
- 训练方式:采用端到端强化学习,训练数据涵盖多个领域的复杂浏览和推理任务,学习到如何规划和执行多步操作来寻找数据,并能根据实时信息进行回溯和。 反应 - 能力表现:在“Humanity’s Last Exam”和GAIA 1等测试中表现优异,展现出在化学、人文学科、社会科学和数学等领域的显著提升以及处理现实问题的能力。
- 数据处理:可浏览用户上传的文件,使用Python工具绘制和迭代图表,并在回应中嵌入自动生成的图表和网站图像,引用特定句子或段落。
-
局限性:
- 事实准确性:有时会在回应中幻觉事实或做出错误推断,尽管内部评估显示这一情况比现有ChatGPT模型少。
- 信息区分能力:可能难以区分权威信息和谣言。
- 不确定性表达:目前在信心校准方面存在弱点,往往不能准确传达不确定性。
- 格式和启动问题:刚推出时报告和引用可能存在格式错误,任务启动可能耗时较长。
-
访问与使用限制:
- 用户群体:目前对Pro用户开放,每月最多100次查询,后续将向Plus和Team用户开放,再之后是Enterprise用户,还在努力使英国、瑞士和欧洲经济区的用户能够使用。
- 资源消耗:Deep Research的计算资源需求大,查询研究时间越长,所需的推理计算资源就越多。
- 未来计划:将未来推出由较小模型提供支持的更快、更具成本效益的版本,为付费用户提供多轮对话用户提供便捷入口用户提高速率限额,还将连接更专业的数据源,增强输出的强度和个性化程度。
-
安全测试:
- 风险评估:对支持Deep Research的o3早期版本进行了严格的安全测试、准备评估和治理审查,确定为中等风险,并针对其网络浏览能力相关的增量风险进行了额外安全测试,增加了新的缓解措施。
- 持续监督:将继续对当前有限版本进行彻底测试和密切监督,计划在向Plus用户扩大访问范围时分享Deep Research的安全见解和保障措施