offera.io
3多模态算法工程师
Transformer架构/注意力机制基础/注意力分数的归一化方式

Scaled Dot-Product Attention中为什么要除以√d_k?

题目摘要

多模态算法工程师面试题:Scaled Dot-Product Attention中为什么要除以√d_k?重点考察点积结果的方差问题、Softmax饱和区的梯度消失、缩放因子的数学推导。可结合这是经典高频题,建议按因果链回答: 1. 先说明不缩放会出现什么问题(点积值过大) 2....

  • 岗位方向:多模态算法工程师
  • 所属章节:Transformer架构
  • 当前小节:注意力分数的归一化方式
  • 考察重点:点积结果的方差问题、Softmax饱和区的梯度消失、缩放因子的数学推导。
  • 作答建议:这是经典高频题,建议按因果链回答: 1. 先说明不缩放会出现什么问题(点积值过大) 2. 解释为什么点积值大会导致Softmax饱和 3. 推导为什么是√d_k而不是其他值 4. 补充实验验证或工程经验

考察要点

点积结果的方差问题、Softmax饱和区的梯度消失、缩放因子的数学推导。

答题思路

这是经典高频题,建议按因果链回答: 1. 先说明不缩放会出现什么问题(点积值过大) 2. 解释为什么点积值大会导致Softmax饱和 3. 推导为什么是√d_k而不是其他值 4. 补充实验验证或工程经验

这道题的参考答案包含了详细的分析和要点总结。点击下方按钮查看完整答案。

答案经过精心组织,帮助你建立系统化的知识框架。