Scaled Dot-Product Attention中为什么要除以√d_k？

题目摘要

多模态算法工程师面试题：Scaled Dot-Product Attention中为什么要除以√d_k？重点考察点积结果的方差问题、Softmax饱和区的梯度消失、缩放因子的数学推导。可结合这是经典高频题，建议按因果链回答： 1. 先说明不缩放会出现什么问题（点积值过大） 2....

岗位方向：多模态算法工程师
所属章节：Transformer架构
当前小节：注意力分数的归一化方式
考察重点：点积结果的方差问题、Softmax饱和区的梯度消失、缩放因子的数学推导。
作答建议：这是经典高频题，建议按因果链回答： 1. 先说明不缩放会出现什么问题（点积值过大） 2. 解释为什么点积值大会导致Softmax饱和 3. 推导为什么是√d_k而不是其他值 4. 补充实验验证或工程经验

考察要点

点积结果的方差问题、Softmax饱和区的梯度消失、缩放因子的数学推导。

这是经典高频题，建议按因果链回答： 1. 先说明不缩放会出现什么问题（点积值过大） 2. 解释为什么点积值大会导致Softmax饱和 3. 推导为什么是√d_k而不是其他值 4. 补充实验验证或工程经验

这道题的参考答案包含了详细的分析和要点总结。点击下方按钮查看完整答案。

答案经过精心组织，帮助你建立系统化的知识框架。