分类目录归档：论文

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning-论文

118 views

这篇论文是DeepSeek-AI关于大语言模型推理能力提升的研究成果，主要介绍了DeepSeek-R1-Zero和DeepSeek-R1模型，通过强化学习提升模型推理能力，并探索了模型蒸馏，为该领域研究提供了重要参考。

研究背景：大语言模型（LLMs）发展迅速，后训练成为提升模型性能的重要环节。OpenAI的o1系列模型通过增加思维链推理长度提高了推理能力，但有效测试时缩放仍是研究难题。此前方法未达到o1系列模型的推理性能，该研究旨在用纯强化学习（RL）提升语言模型推理能力。
研究方法
- DeepSeek-R1-Zero：直接对基础模型应用RL，不依赖监督微调（SFT）。采用分组相对策...

Reasoning Language Models: A Blueprint-论文

138 views

这篇论文是来自ETH Zurich等机构的研究人员撰写的 “Reasoning Language Models: A Blueprint”，核心是提出一个用于构建、分析和实验推理语言模型（RLMs）的综合蓝图，旨在降低RLMs设计和实验的门槛，推动该领域的发展。

RLMs的发展与挑战：RLMs结合了大语言模型（LLMs）和先进推理机制，在多领域有变革性突破，但存在成本高、专利性质以及架构复杂等问题，导致获取和扩展困难。其技术基础不透明，组件间的协同机制也尚未明确。
RLMs的本质：由LLMs、强化学习（RL）和高性能计算（HPC）共同发展而来，具备系统2思维能力。与标准LLMs的插值能...

DeepSeek-V3 Technical Report-论文

122 views

这篇论文是关于DeepSeek-V3的技术报告，介绍了该混合专家（MoE）语言模型在架构、训练、评估等方面的创新与优化，展示其超越开源模型、接近闭源模型的性能优势及高效低成本的训练特点。

模型概述：DeepSeek-V3是671B参数的MoE语言模型，每个token激活37B参数。采用MLA和DeepSeekMoE架构，创新提出无辅助损失的负载均衡策略和多token预测训练目标，在14.8万亿高质量token上预训练，经监督微调（SFT）和强化学习（RL）后，性能优异且训练成本低，模型检查点开源。
模型架构：基于Transformer框架，采用MLA和DeepSeekMoE。MLA通过...

DRL for AutomatedStock Trading:An Ensemble Strategy-深度强化学习-量化交易

164 views

全文总结 本文围绕股票交易策略展开，提出采用深度强化方案的集合策略，通过三种 actor--critic based 算法获得集合交易策略，以在复杂多变的股票市场中实现收益最大化。 重要亮点

研究背景与动机：股票交易策略在投资中至关重要，但设计获利策略具挑战性。传统方法实施复杂且成本高，现有机器学习方法多专注选股而非分配交易头寸。作者提出结合三种深度强化学习算法的新颖组合策略，以适应复杂动态股票市场，实现收益最大化并根据不同市场情况调整策略。
相关工作：介绍了 Critic-only、Policy-only 和 Actor-Critic 三种方法在金融领域的应用。Critic-only...

股票交易策略-论文

181 views

股票交易策略是投资者在股票市场中用于获取收益、控制风险的一系列方法和规则。以下是一些常见的股票交易策略：

一、价值投资策略

核心原则：价值投资基于这样一个理念，即股票的价格最终会向其内在价值回归。投资者需要通过分析公司的基本面，如财务报表、行业地位、竞争优势、管理团队等来评估股票的内在价值。例如，巴菲特是价值投资的典范，他投资的公司通常具有稳定的现金流、良好的品牌和强大的竞争壁垒。像可口可乐公司，巴菲特看中的是其全球著名的品牌、广泛的销售渠道和持续稳定的盈利能力。他会在市场价格低于其评估的内在价值时买入，并且长期持有，等待价格回归或超越内在价值后才考虑卖出。
分析方法：
- 财务分析：详细...

DeepSeekV2论文

130 views

当然可以，这篇论文介绍了一个名为DeepSeek-V2的新型大型混合专家（Mixture-of-Experts，MoE）语言模型。以下是对论文内容的总结：

模型概述：
DeepSeek-V2是一个具有经济性和高效率的语言模型，总参数量为236B（亿），每个token激活21B（亿）参数，支持128K（128,000）token的上下文长度。
架构创新：
模型采用了两种创新架构：Multi-head Latent Attention（MLA）和DeepSeekMoE。
MLA通过显著压缩Key-Value（KV）缓存到一个潜在向量来保证高效的推理，而DeepSeekMoE通过稀...

AutoGen-论文

131 views

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

Attention Is All You Need-论文

133 views

“Attention Is All You Need”是2017年由谷歌的Ashish Vaswani、Noam Shazeer、Niki Parmar等八位科学家撰写的一篇具有重大影响力的研究论文。以下是对该论文的详细介绍：

核心贡献

提出Transformer架构：摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）中复杂的递归和卷积操作，完全基于注意力机制构建了Transformer架构，为自然语言处理领域带来了新的突破。
引入自注意力机制：自注意力机制能够让模型学习到输入序列中每个位置与其他位置之间的依赖关系，而不依赖于位置的先后顺序，大大提高了模型对长序列的处理能力和...

论文-阅读记录