AI-Transformer学习

基础了解

函数解释万物：符号主义

把世间万物的联系都用一个函数联系

有输入，放入函数，得到输出

但是到头了，因为人类很多时候无法总结出一个函数来描述

近似逼近函数：联结主义

通过简化函数，找到接近真实函数的近似解

比如一堆点，可以找一条近似的直线，而不是一条复杂无比的曲线

激活函数

把线性函数变为非线性函数，比如加个sin，变成e的幂等等

神经网络

输入层两个x1，x2；

线性变化+激活函数，得到隐藏层；

再线性变换+激活函数，得到输出层；

一层层嵌套，像是箭头不断向右，这就是神经网络的前向传播

损失函数

表示真实值和预测值的偏差

最小二乘法回归分析

所要做的就是让损失函数尽可能逼近0

现在的方案就是不断尝试进行逼近直到足够小

求出最小的w和b的过程就是梯度下降

通过每次损失函数计算w和b，然后左一次接着右一次计算

就相当于不断向左传播w和b，称之为反向传播

过拟合/泛化能力/惩罚项/正则化/Dropout

通过控制训练过程的数量和时长，防止过拟合

惩罚项，正则化

通过损失函数加上某个值，如果w增长快，会导致惩罚项-损失函数值>0，此时抑制增长

Dropout，通过随机丢弃一部分参数来训练，避免过度依赖某些小部分参数

矩阵和CNN

矩阵略

卷积核，卷积运算略

深度学习领域，卷积层是计算出的一层参数

适用于图像识别领域的叫卷积神经网络CNN

RNN到Transformer

词嵌入：把文字转化为一个多维的向量

通过点积和cos得到特征

嵌入矩阵：每个词的向量合并

RNN

通过每个词的矩阵和权重矩阵相乘，不断计算隐藏状态并向前传递

Transformer架构

RNN会有串行计算，长期依赖困难的问题

Transformer

给每个词加上位置信息：也就是位置矩阵叠加本身词的转化矩阵
权重值Wq，Wk，Wv分别和词相乘，得到向量

通过每个q和不同的k计算得到相似系数a
不同相似系数*v相加，这样相当于把不同词的上下文信息都存到新向量里了
不断用不同权重矩阵重复3和4步骤然后叠加，得到多头注意力

把两组小a拼起来依旧组成一个六维向量，就是双头注意力

人工智能

#AI #Transformer

AI-Transformer学习

http://example.com/2025/05/01/AI-Transformer学习/

作者

WoodQ

发布于

2025年5月1日

许可协议

突然理解大模型的编排与发展用途上一篇

Eino框架学习下一篇