12 min read
阅读人数--人DeepSeek V4 技术细节解读:共享 K=V 后为什么还要 inverse RoPE
聚焦 DeepSeek V4 的一个很小但关键的注意力细节:在 CSA 中共享 K=V 以后,为什么还要用 inverse RoPE 把位置信息从 value 路径里“拿掉”。
Study notes, reading traces, and reusable technical references.
聚焦 DeepSeek V4 的一个很小但关键的注意力细节:在 CSA 中共享 K=V 以后,为什么还要用 inverse RoPE 把位置信息从 value 路径里“拿掉”。