PaddlePaddle
diff --git a/‎fastdeploy/model_executor/layers/embeddings.py
Lines changed: 61 additions & 38 deletions b/‎fastdeploy/model_executor/layers/embeddings.py
Lines changed: 61 additions & 38 deletions
@@ -23,7 +23,7 @@
 
 from fastdeploy.config import FDConfig
 
-from .utils import get_tensor
+from .utils import _set_var_distributed, get_tensor
 
 
 class VocabParallelEmbedding(nn.Layer):
@@ -66,33 +66,34 @@ def __init__(
         self.max_position_embeddings: int = fd_config.model_config.max_position_embeddings
         self.tie_word_embeddings: bool = fd_config.model_config.tie_word_embeddings
         self.params_dtype: str = params_dtype
-
-        if self.use_ep:
-            self.word_embeddings = nn.Embedding(
-                num_embeddings,
-                embedding_dim,
-            )
-        else:
-            if not self.column_cut:
-                self.word_embeddings = fleet.meta_parallel.VocabParallelEmbedding(
-                    num_embeddings,
-                    embedding_dim,
-                    mp_group=fleet.get_hybrid_communicate_group().
-                    get_model_parallel_group(),
-                    weight_attr=paddle.ParamAttr(
-                        initializer=nn.initializer.Normal(
-                            mean=0.0, std=self.initializer_range), ),
-                )
-            else:
-                # column cut embedding
-                self.word_embeddings = nn.Embedding(
-                    num_embeddings,
-                    embedding_dim // self.world_size,
-                )
-
-                self.word_embeddings.weight.is_distributed = True
-                self.word_embeddings.weight.split_axis = 1
-
+        self.num_embeddings=num_embeddings
+        self.embedding_dim=embedding_dim
+        # if self.use_ep:
+        #     self.word_embeddings = nn.Embedding(
+        #         num_embeddings,
+        #         embedding_dim,
+        #     )
+        # else:
+        #     if not self.column_cut:
+        #         self.word_embeddings = fleet.meta_parallel.VocabParallelEmbedding(
+        #             num_embeddings,
+        #             embedding_dim,
+        #             mp_group=fleet.get_hybrid_communicate_group().
+        #             get_model_parallel_group(),
+        #             weight_attr=paddle.ParamAttr(
+        #                 initializer=nn.initializer.Normal(
+        #                     mean=0.0, std=self.initializer_range), ),
+        #         )
+        #     else:
+        #         # column cut embedding
+        #         self.word_embeddings = nn.Embedding(
+        #             num_embeddings,
+        #             embedding_dim // self.world_size,
+        #         )
+
+        #         self.word_embeddings.weight.is_distributed = True
+        #         self.word_embeddings.weight.split_axis = 1
+        self.init_weight()
         if not self.use_rope:
             self.position_embeddings = nn.Embedding(
                 self.max_position_embeddings,
@@ -103,6 +104,23 @@ def __init__(
 
         self.prefix = prefix
         self.dropout = nn.Dropout(self.hidden_dropout_prob)
+    def weight_loader(self, param, loaded_weight):
+        param.copy_(loaded_weight,False)
+    def init_weight(self):
+        from fastdeploy.model_executor.models.utils import set_param_attr
+        self.weight = self.create_parameter(
+            shape=[self.num_embeddings//self.world_size,self.embedding_dim],
+            dtype= paddle.get_default_dtype(),
+            is_bias=False,
+            default_initializer=paddle.nn.initializer.Constant(0),
+        )
+        if self.world_size > 0:
+            if self.column_cut:
+                _set_var_distributed(self.weight, split_axis=1)
+                set_param_attr(self.weight,{"is_column":False,"weight_loader":self.weight_loader})
+            else:
+                _set_var_distributed(self.weight, split_axis=0)
+                set_param_attr(self.weight,{"is_column":True,"weight_loader":self.weight_loader})
 
     def load_state_dict(self, state_dict: Dict[str,
                                                paddle.Tensor | np.ndarray]):
@@ -112,15 +130,20 @@ def load_state_dict(self, state_dict: Dict[str,
         Args:
             state_dict (dict): A dictionary containing the checkpoint weights and biases.
         """
-        a = state_dict[self.prefix + ".weight"]
+        # a = state_dict[self.prefix + ".weight"]
         if self.tie_word_embeddings:
-            self.word_embeddings.weight.set_value(
-                get_tensor(state_dict[self.prefix + ".weight"]).astype(
-                    paddle.get_default_dtype()))
+            # bh_ops.static_op_bh_copy(self.word_embeddings.weight,get_tensor(state_dict[self.prefix + ".weight"]))
+            self.weight.weight.copy_(
+                get_tensor(state_dict[self.prefix + ".weight"]),False)
+                # .astype(
+                    # paddle.get_default_dtype()))
         else:
-            self.word_embeddings.weight.set_value(
-                get_tensor(state_dict.pop(self.prefix + ".weight")).astype(
-                    paddle.get_default_dtype()))
+            # bh_ops.static_op_bh_copy(self.word_embeddings.weight,get_tensor(state_dict.pop(self.prefix + ".weight")))
+
+            self.weight.weight.copy_(
+                get_tensor(state_dict.pop(self.prefix + ".weight")),False)
+                # .astype(
+                # paddle.get_default_dtype()))
 
     def forward(self, ids_remove_padding=None) -> paddle.Tensor:
         """
@@ -134,10 +157,10 @@ def forward(self, ids_remove_padding=None) -> paddle.Tensor:
             Tensor: Embedded tensor representation of the input IDs.
         """
         if self.use_ep:
-            input_embedings = self.word_embeddings(ids_remove_padding)
+            input_embedings = self.weight(ids_remove_padding)
         else:
             if self.column_cut:
-                input_embedings = self.word_embeddings(ids_remove_padding)
+                input_embedings = nn.functional.embedding(x=ids_remove_padding,weight=self.weight)
                 inputs_embeds_temp = []
                 paddle.distributed.all_gather(
                     inputs_embeds_temp,
@@ -148,6 +171,6 @@ def forward(self, ids_remove_padding=None) -> paddle.Tensor:
                 )
                 input_embedings = paddle.concat(inputs_embeds_temp, -1)
             else:
-                input_embedings = self.word_embeddings(ids_remove_padding)
+                input_embedings = nn.functional.embedding(x=ids_remove_padding,weight=self.weight)
 
         return input_embedings