Transformer 可视化 | Transformer Visualization

1) 输入一句话

英文按空格分词；中文按字演示（简化）。最多支持 12 个 token。

1️⃣

把句子切分为更小的单位（token）。演示中：英文按空格，中文按字。

2️⃣

每个 token 映射为 d_model 维向量，代表其语义。这里用可重复的伪随机向量代替真实词向量。

3️⃣

用正弦/余弦函数为不同位置注入位置信息，让模型感知顺序。

4️⃣

为每个 token 计算查询 Q、键 K、值 V；通过缩放点积得到注意力分布，再对值做加权求和。多头可以并行关注不同关系。

5️⃣

将注意力输出与输入相加（残差），再做归一化以稳定训练（此处略作展示）。

6️⃣

对每个位置独立的两层 MLP（带激活）进一步变换特征。

选择查询 token：

0—

行=查询，列=键/值

🗺️ 注意力热力图

📊 选中 token 的注意力分布

核心公式（缩放点积注意力）

Q, K, V ← 由输入通过不同线性层得到

Attention(Q, K, V) = softmax(Q·Kᵀ / √dₖ) · V

此演示为教学简化版本：不包含训练、掩码、解码器、真正的词表或 LayerNorm 细节。数值由可重复的伪随机权重生成，用于帮助理解计算流程。