1) 输入一句话
英文按空格分词;中文按字演示(简化)。最多支持 12 个 token。
2) 算法流水线
1️⃣
分词 Tokenization
把句子切分为更小的单位(token)。演示中:英文按空格,中文按字。
2️⃣
嵌入 Embedding
每个 token 映射为 d_model 维向量,代表其语义。这里用可重复的伪随机向量代替真实词向量。
3️⃣
位置编码 Positional Encoding
用正弦/余弦函数为不同位置注入位置信息,让模型感知顺序。
4️⃣
多头自注意力 Multi‑Head Self‑Attention
为每个 token 计算查询 Q、键 K、值 V;通过缩放点积得到注意力分布,再对值做加权求和。多头可以并行关注不同关系。
5️⃣
残差与归一化 Add & LayerNorm
将注意力输出与输入相加(残差),再做归一化以稳定训练(此处略作展示)。
6️⃣
前馈网络 Feed‑Forward
对每个位置独立的两层 MLP(带激活)进一步变换特征。
3) 自注意力交互演示
🗺️ 注意力热力图
📊 选中 token 的注意力分布
核心公式(缩放点积注意力)
Q, K, V ← 由输入通过不同线性层得到Attention(Q, K, V)
=
softmax(Q·Kᵀ / √dₖ)
· V
此演示为教学简化版本:不包含训练、掩码、解码器、真正的词表或 LayerNorm 细节。数值由可重复的伪随机权重生成,用于帮助理解计算流程。
© 2025 • Transformer 大模型原理可视化 ·