摘要: Attention 的计算公式中 Attention $(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{\top}}{\sqrt{d}}\right)$ 为什么要除以 $\sqrt{d}$ ?
阅读更多
摘要: Attention 的计算公式中 Attention $(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{\top}}{\sqrt{d}}\right)$ 为什么要除以 $\sqrt{d}$ ?