当前位置:首页 > 神经网络 > 正文

全连接神经网络公式

ˋ^ˊ深度神经网络中的FLOPs是什么意思?

在深度学习域,模型的计算性能衡量标准至关重要,包括FLOPs(每秒浮点运算)、Macs(乘法和加法运算)和FC(全连接层)、CNN、LSTM和Transformer。 模型的计算范围是性能的重要指标。 让我们一一分解这些术语。


FLOPs

Macs

训练模型估计

CNNLayer的计算范围

LSTMLayer

Transformer架构

,尤其是LLM(大型语言模型),其计算负荷主要来自注意力机和多层感知器模块(MLP)。 码器和解码器各有6层注意力以及解码器的掩码机。 每层的参数包括Multi-HeadAttention和MLP的具体矩阵形状。


在Transformer参数分析中,每一层的参数计算包括Attention模块的缩放和平移参数以及MLP的参数集。 例如,可以通过矩阵乘法的大小来估计每个注意力层的参数数量。


Transformer的整体参数还包括词嵌入矩阵。 随着模型层数的增加,例如B.7B到70B模型,隐层参数的数量通常会显着增加。


在计算FLOPs时,Transformer模型主要基于矩阵乘法。 公式通常为:input_size乘以参数个数,然后再乘以2。 例如,假设训练语料中的token数量为10亿,则训练所需的FLOPs可估算如下:FLOPs≈100,000。 000x参数x2。


对于LLM,例如LLaMa-13B模型,FLOPs的计算公式更加复杂,并且考虑了注意力、LMhead和隐层的大小。 简化后,FLOPs大约是……(具体值根据模型参数计算)。


要了解有关这些计算的详细信息,您可以阅读EthanYan的文章,该文章详细解释了估计计算和精算计算之间的差异以及FFN(前馈)是否应为网络)和词汇量计算。 请务必查看AttentionisAllyouNeed和TheIllusteratedTransformer等信誉良好的文章和博客,以获取详细见解。


以上由ZhihuOnVSCode整理,为理解模型训练背后的算力计算提供了有价值的指导。

+ω+深度学习之神经网络(ANN/FNN/MLP)工神经网络(ANN)、全连接神经网络(FNN)和多层感知器(MLP)(也称为神经网络)是深度学习的核心构建块。 它源自对脑神经元及其复杂连接的模拟,通过学习如何调整神经元之间的连接强度来实现预测。 在机器学习中,神经网络模仿脑中的数十亿个神经元来构建复杂的网络来学习逻辑、语言和情感。 尤其应用于深度学习和工智能域,如图像识别、语音识别等。 技术。
神经网络算法的目的是模拟生物神经系统的学习,但其复杂性降低了模型的可解释性。 尽管神经网络在商业分析中不常用,但它在深度学习中至关重要。 神经网络的基本原理可以追溯到早期的感知器,通过活函数和参数向量确定决策边界。 每个神经元接收输入并使用权重和偏差对其进行处理以形成预测输出。 这个过程类似于感知器集成。
神经网络的核心结构包括输入层、隐层和输出层。 输入层处理特征向量,隐层通过复杂的网络结构学习特征之间的关系,输出层根据学习到的信息生成预测。 理解隐层,特别是调整它们的活函数和参数,是理解神经网络的一个关键困难。 例如,一个简单的三层网络可以包含大量参数,而现实应用中的神经网络通常处理大量特征和复杂的网络结构。
神经网络的训练过程涉及选择和优化损失函数,例如计算损失函数梯度并调整网络参数的梯度下降算法。 计算过程很复杂,但是一旦了解了基本原理,您就会它是基于已知的数学和机器学习概念。 要继续学习,请查看3blue1brown的教程以更直观地理解这些概念。
综上所述,学习神经网络需要学习网络结构、参数调整、前向和反向传播以及如何使用损失函数来衡量模型性能。 使用Numpy等工具实现神经网络算法可以应用于实际问题,但同时必须注意了解其固有的复杂性和限性。