CodeFuse-DevOps-Model是一系列开源的中文开发运维大模型,主要用于解决DevOps领域的问题,提供了模型下载、评测、快速使用、训练及量化等相关内容。 1. 模型概述 - 模型研发:基于Qwen系列模型,使用高质量中文DevOps语料加训得到Base模型,再经DevOps QA数据对齐产出Chat模型。 - 模型下载:提供了7B和14B的基座模型(Base)和对齐模型(Chat),可从🤗Huggingface和🤖ModelScope获取,部分量化模型即将推出。 2. 模型评测 - 评测数据选取:在CMMLU和CEval评测数据集中选取与DevOps...
作者文章归档:course
感知机-
感知机(Perceptron)作为神经网络的基础单元,以下将从定义、原理、学习算法、实现示例等多个方面对其进行深入剖析:
定义与基本结构
- 定义:感知机是一种二分类的线性分类模型,它是神经网络的基本组成单元,由输入层、输出层组成,有时会带有一个偏置单元。
- 基本结构:输入层接收外部输入信号,每个输入信号对应一个权重,表示该输入对输出的影响程度。偏置单元用于调整神经元的激活阈值,在计算时与权重类似。输出层根据输入信号的加权和与偏置的结果,通过激活函数产生最终的输出。
工作原理
- 前向传播:在工作时,感知机将输入数据与相应的权重相乘,然后将所有乘积相加,再加上偏置项,得到一个净输入值。将净输...
Qwen-阿里云推出的通义千问大语言模型
Qwen是阿里云推出的通义千问大语言模型及相关项目的官方仓库,包含多种语言模型,具备丰富功能和特性,支持多种使用和部署方式。 1. 模型概述 - 模型发布:开源了Qwen系列模型,包括基础语言模型Qwen - 1.8B、Qwen - 7B、Qwen - 14B、Qwen - 72B,以及聊天模型Qwen - 1.8B - Chat、Qwen - 7B - Chat、Qwen - 14B - Chat、Qwen - 72B - Chat。 - 模型特点 - 基础语言模型经过大量数据训练,在基准数据集上表现出色,如在MMLU、C - Eval、GSM8K等数据...
LLaMA - Factory-轻松高效微调大语言模型的项目
LLaMA - Factory是一个用于轻松高效微调大语言模型的项目,具有多种功能和特点,支持众多模型和训练方法,提供了丰富的数据集和便捷的使用方式。 1. 项目概述 - 目标:提供统一高效的方式对100多种大语言模型进行微调。 - 功能特点 - 支持多种模型,如LLaMA、ChatGLM、Qwen等系列。 - 集成多种训练方法,包括预训练、监督微调、奖励建模等。 - 具备可扩展资源,支持16位全量微调、冻结微调、LoRA及多种量化方式。 - 采用先进算法,如GaLore、BAdam、Adam - mini等...
Awesome-Domain-LLM-收集和梳理垂直领域的开源模型、数据集及评测基准
文档主要介绍了Awesome Domain LLM项目,该项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准,推动大模型在各行各业的应用。 1. 模型分类 - 通用模型:整理了常用的开源通用模型,如LLaMA2、ChatGLM3 - 6B、Qwen、Baichuan2、InternLM等,包括模型大小、所属机构和相关论文。 - 领域模型 - 医疗领域:包含ChiMed - GPT、AlpaCare、Taiyi、MentalLLaMA、WiNGPT2等众多模型,分别介绍了其基于的基础模型、训练方式、功能特点等,部分模型还开源了相关数据集。 ...
全连接层-
在深度学习中,Dense Layer(全连接层)是一种非常常见且重要的神经网络层,以下是对其的详细介绍:
定义与基本原理
- 定义:Dense Layer也叫全连接层,是一种在神经网络中,当前层的每个神经元与前一层的所有神经元都相互连接的层,其神经元之间的连接是全连接的方式,即每个输入神经元都与每个输出神经元相连。
- 基本原理:在全连接层中,输入数据被看作是一个一维向量,每个神经元对输入数据进行加权求和,并加上一个偏置项,然后通过一个激活函数得到输出。
数学表达式
- 假设全连接层的输入为$x$,是一个维度为$n$的向量,权重矩阵为$W$,其形状为$(m, n)$,其中$m$是该层神经元的数...
交叉熵-
- 定义与概念
-
交叉熵(Cross - Entropy)是信息论中的一个概念,用于衡量两个概率分布之间的差异程度。给定两个概率分布(p)(真实分布)和(q)(预测分布),它们的交叉熵(H(p,q)=-\sum_{i}p(i)\log q(i))。这里(i)遍历所有可能的事件,并且假设概率分布是离散的;如果是连续分布,则用积分形式表示。例如,在一个简单的二分类问题中,假设真实标签的概率分布(p = [1,0])(表示正类概率为(1),负类概率为(0)),预测概率分布(q = [0.8,0.2]),那么交叉熵(H(p,q)=-(1\times\log0.8 + 0\times\log0.2)...
Softmax回归模型-
- 定义与基本原理
- 定义:Softmax回归模型是一种用于多分类问题的概率模型。它将一个包含多个数值的输入向量转换为一个概率分布向量,这个概率分布向量表示输入数据属于各个类别可能性的大小。例如,在一个图像分类问题中,输入是图像的特征向量,Softmax回归模型会输出这个图像属于每个可能类别(如猫、狗、兔子等)的概率。
-
基本原理:假设输入向量为(\boldsymbol{x}=(x_1,x_2,\cdots,x_n)),对于一个有(k)个类别的多分类问题,Softmax回归模型首先计算每个类别的得分(z_j),一般通过线性变换(z_j = \boldsymbol{w}j^T\boldsymb...
学习率-
- 定义
-
学习率(Learning Rate)是机器学习和深度学习中优化算法的一个重要超参数。它决定了在每次迭代过程中,模型参数朝着损失函数梯度下降方向更新的步长大小。简单来说,学习率控制着模型学习的速度。例如,在梯度下降算法中,对于一个参数(\theta),其更新公式为(\theta = \theta - \alpha \times \nabla L(\theta)),其中(\alpha)就是学习率,(\nabla L(\theta))是损失函数(L)关于(\theta)的梯度。
-
作用和影响
- 学习速度:如果学习率设置得较大,模型参数更新的步长就大,模型学习的速度会加快。例如,在训...