fix causal mask leading to high mem consumption for 65536 length

lucidrains · lucidrains · commit 9bce9f898233 · 2022-03-04T08:58:21.000-08:00
diff --git a/memory_efficient_attention_pytorch/memory_efficient_attention.py b/memory_efficient_attention_pytorch/memory_efficient_attention.py
@@ -39,7 +39,7 @@ def attention(
 
     if causal:
         i, j = sim.shape[-2:]
-        mask = torch.ones(i, j, device = q.device).triu(j - i + 1).bool()
+        mask = torch.ones(i, j, device = q.device, dtype = torch.bool).triu(j - i + 1)
         sim = sim.masked_fill(mask, mask_value)
 
     attn = sim.softmax(dim = -1)
@@ -95,7 +95,7 @@ def memory_efficient_attention(
 
     if causal:
         i, j = q.shape[-2], k.shape[-2]
-        causal_mask = torch.ones(i, j, device = q.device).triu(j - i + 1).bool()
+        causal_mask = torch.ones(i, j, device = q.device, dtype = torch.bool).triu(j - i + 1)
         causal_mask_chunks = causal_mask.split(q_bucket_size, dim = 0)
         causal_mask_chunks = list(map(lambda t: t.split(k_bucket_size, dim = -1), causal_mask_chunks))
 
diff --git a/memory_efficient_attention_pytorch/memory_efficient_cosine_sim_attention.py b/memory_efficient_attention_pytorch/memory_efficient_cosine_sim_attention.py
@@ -40,7 +40,7 @@ def attention(
 
     if causal:
         i, j = sim.shape[-2:]
-        mask = torch.ones(i, j, device = q.device).triu(j - i + 1).bool()
+        mask = torch.ones(i, j, device = q.device, dtype = torch.bool).triu(j - i + 1)
         sim = sim.masked_fill(mask, mask_value)
 
     attn = sim.softmax(dim = -1)
@@ -90,7 +90,7 @@ def numerically_unstable_memory_efficient_attention(
 
     if causal:
         i, j = q.shape[-2], k.shape[-2]
-        causal_mask = torch.ones(i, j, device = q.device).triu(j - i + 1).bool()
+        causal_mask = torch.ones(i, j, device = q.device, dtype = torch.bool).triu(j - i + 1)
         causal_mask_chunks = causal_mask.split(q_bucket_size, dim = 0)
         causal_mask_chunks = list(map(lambda t: t.split(k_bucket_size, dim = -1), causal_mask_chunks))
 
diff --git a/setup.py b/setup.py
@@ -3,7 +3,7 @@
 setup(
   name = 'memory-efficient-attention-pytorch',
   packages = find_packages(exclude=[]),
-  version = '0.0.9',
+  version = '0.0.10',
   license='MIT',
   description = 'Memory Efficient Attention - Pytorch',
   author = 'Phil Wang',