1 min read
阅读人数--人Learning Notes
Study notes, reading traces, and reusable technical references.
12 min read
阅读人数--人DeepSeek V4 技术细节解读:共享 K=V 后为什么还要 inverse RoPE
聚焦 DeepSeek V4 的一个很小但关键的注意力细节:在 CSA 中共享 K=V 以后,为什么还要用 inverse RoPE 把位置信息从 value 路径里“拿掉”。