Disable weight computation in self-attention for TransformerDecoderLayer (#4398)

eugene123tw · web-flow · commit bbbb91d457d1 · 2025-05-28T14:27:39.000+01:00
Disable weight computation in self-attention for TransformerDecoderLayer in dfine_decoder.py and rtdetr_decoder.py
diff --git a/src/otx/algo/detection/heads/dfine_decoder.py b/src/otx/algo/detection/heads/dfine_decoder.py
@@ -117,7 +117,7 @@ def forward(
         # self attention
         q = k = self.with_pos_embed(target, query_pos_embed)
 
-        target2, _ = self.self_attn(q, k, value=target, attn_mask=attn_mask)
+        target2, _ = self.self_attn(q, k, value=target, attn_mask=attn_mask, need_weights=False)
         target = target + self.dropout1(target2)
         target = self.norm1(target)
 
diff --git a/src/otx/algo/detection/heads/rtdetr_decoder.py b/src/otx/algo/detection/heads/rtdetr_decoder.py
@@ -196,7 +196,7 @@ def forward(
         # self attention
         q = k = self.with_pos_embed(tgt, query_pos_embed)
 
-        tgt2, _ = self.self_attn(q, k, value=tgt, attn_mask=attn_mask)
+        tgt2, _ = self.self_attn(q, k, value=tgt, attn_mask=attn_mask, need_weights=False)
         tgt = tgt + self.dropout1(tgt2)
         tgt = self.norm1(tgt)