💥
【薪火相传】MiniCPM的三代注意力演进

用户309

2025年1月1日修改

👇

模型地址：https://huggingface.co/openbmb/MiniCPM3-4B

github地址：https://github.com/OpenBMB/MiniCPM

本项目地址：应用github

面向人员：对transformer已经有了基本了解，对算法底层有深入了解需求的人，​

三代注意力

未得本人与面壁智能同意，不可转载。

MiniCPM基于transformer架构，MiniCPM1.0使用MHA，MiniCPM2.0使用GQA，MiniCPM3.0使用MLA​

CPM 1.0 的 MHA:

示意图：

common.docs_name - LarkCCM_Docs_Menu_Image

图中与具体实现存在以下差别：

1.
Wq、Wk、Wv的个数不同​

图中：在(3)(4)步中，x通过和第i头的Wiq，Wik，Wiv投影得到第i头的qi，ki，vi的值。​

代码中：代码中没有只有一个Wq即self.project_q，将x与self.project_q相乘后得到所有头的q值，再对q进行维度的切分，获得qi。​

简而言之：就是图中是先切分后投影，代码是先投影后切分

2.
图中步骤（4）和（5）之间缺少注意力计算，即图中的Z应该是如下操作得到的：​

MiniCPM1.0代码实现（节选）

1.
首先输入有三个矩阵对hidden_state分别进行投影获得q，k，v三个值，​

类似图中（4）操作，但是存在上述第一点差异

代码块

query = self.project_q(hidden_q)# [b,l,H]​
key = self.project_k(hidden_kv)# [b,l,H]​
value = self.project_v(hidden_kv)# [b,l,H]​

2.
然后对q,k,v三个值在最后一维H进行切分成num_heads*h，​

维度都从[b,l,H]变成[b,l,num_head,h]。类似图中（4）操作，但是存在上述第一点差异​

代码块

.#都是[b,l,num_head,h]​
query = query.view(batch_size, len_q, self.num_heads, self.dim_head).permute(0, 2, 1, 3)​
key = key.view(batch_size, len_k, self.num_heads, self.dim_head).permute(0, 2, 1, 3)​
value = value.view(batch_size, len_k, self.num_heads, self.dim_head).permute(0, 2, 1, 3)​
​

3.
进行以下图中的注意力计算，示意图缺乏此操作。​

代码块

#下面这行计算的是Q*KT，并且加上绝对位置编码​
score = torch.matmul(query, key.transpose(-1, -2)) / math.sqrt(self.dim_head)​
score = score + position_bias​
​
# 下面这行代码是加上了上三角为负无穷大的attentionmask，也就是单向注意力的由来​
score = torch.masked_fill(​
    score,​
    attention_mask.view(batch_size, 1, len_q, len_k) == torch.tensor(False),​
    torch.scalar_tensor(float("-inf"), device=score.device, dtype=score.dtype),​
)​
# 以下是进行softmax操作​
score = self.softmax(score)​
​
#将pad的位置注意力归零​
score = torch.masked_fill(​
    score,​
    attention_mask.view(batch_size, 1, len_q, len_k) == torch.tensor(False),​
    torch.scalar_tensor(0, device=score.device, dtype=score.dtype),​
)​
# 以下这行是计算softmax（q*kT）*v的结果，socre=softmax（q*kT​
# (batch_size, num_heads, len_q, len_k) @ (batch_size, num_heads, len_k, dim_head) -> (batch_size, num_heads, len_q, dim_head)​
score = torch.matmul(score, value)​
​