本文最后更新于 2024-08-19,文章内容可能已经过时。

之前感觉这个一直很难,不知道从哪里入手,看不懂这个掩码矩阵是什么。下面我给一个具体的例子。

也就是说它这个mask呀,一般是W和H它都表示token的数量,每行的一个元素都代表其中一个token,每列的一个元素也代表其中一个token,我们是将行看成query, 列(竖着看)就是key,也就是说图中画x的意思,就是我们num_query不能从num_denoising中去提取信息。