jrzaurin
diff --git a/‎examples/scripts/readme_snippets.py
Lines changed: 83 additions & 0 deletions b/‎examples/scripts/readme_snippets.py
Lines changed: 83 additions & 0 deletions
diff --git a/‎tests/test_multi_model_and_mutil_data/data_for_muti_tabular_components/test.csv
Lines changed: 101 additions & 0 deletions b/‎tests/test_multi_model_and_mutil_data/data_for_muti_tabular_components/test.csv
Lines changed: 101 additions & 0 deletions
diff --git a/‎tests/test_multi_model_and_mutil_data/data_for_muti_tabular_components/train.csv
Lines changed: 801 additions & 0 deletions b/‎tests/test_multi_model_and_mutil_data/data_for_muti_tabular_components/train.csv
Lines changed: 801 additions & 0 deletions
diff --git a/‎tests/test_multi_model_and_mutil_data/data_for_muti_tabular_components/val.csv
Lines changed: 101 additions & 0 deletions b/‎tests/test_multi_model_and_mutil_data/data_for_muti_tabular_components/val.csv
Lines changed: 101 additions & 0 deletions
diff --git a/‎tests/test_multi_model_and_mutil_data/generate_synthetic_data.py
Lines changed: 166 additions & 0 deletions b/‎tests/test_multi_model_and_mutil_data/generate_synthetic_data.py
Lines changed: 166 additions & 0 deletions
diff --git a/‎tests/test_multi_text_or_image_data/load_from_folder_test_data/images/image_set1_0.png renamed to ‎tests/test_multi_model_and_mutil_data/load_from_folder_test_data/images/image_set1_0.png b/‎tests/test_multi_text_or_image_data/load_from_folder_test_data/images/image_set1_0.png renamed to ‎tests/test_multi_model_and_mutil_data/load_from_folder_test_data/images/image_set1_0.png
diff --git a/‎tests/test_multi_text_or_image_data/load_from_folder_test_data/images/image_set1_1.png renamed to ‎tests/test_multi_model_and_mutil_data/load_from_folder_test_data/images/image_set1_1.png b/‎tests/test_multi_text_or_image_data/load_from_folder_test_data/images/image_set1_1.png renamed to ‎tests/test_multi_model_and_mutil_data/load_from_folder_test_data/images/image_set1_1.png
diff --git a/‎tests/test_multi_text_or_image_data/load_from_folder_test_data/images/image_set1_10.png renamed to ‎tests/test_multi_model_and_mutil_data/load_from_folder_test_data/images/image_set1_10.png b/‎tests/test_multi_text_or_image_data/load_from_folder_test_data/images/image_set1_10.png renamed to ‎tests/test_multi_model_and_mutil_data/load_from_folder_test_data/images/image_set1_10.png
diff --git a/‎tests/test_multi_text_or_image_data/load_from_folder_test_data/images/image_set1_11.png renamed to ‎tests/test_multi_model_and_mutil_data/load_from_folder_test_data/images/image_set1_11.png b/‎tests/test_multi_text_or_image_data/load_from_folder_test_data/images/image_set1_11.png renamed to ‎tests/test_multi_model_and_mutil_data/load_from_folder_test_data/images/image_set1_11.png
diff --git a/‎tests/test_multi_text_or_image_data/load_from_folder_test_data/images/image_set1_12.png renamed to ‎tests/test_multi_model_and_mutil_data/load_from_folder_test_data/images/image_set1_12.png b/‎tests/test_multi_text_or_image_data/load_from_folder_test_data/images/image_set1_12.png renamed to ‎tests/test_multi_model_and_mutil_data/load_from_folder_test_data/images/image_set1_12.png
@@ -437,3 +437,86 @@ def output_dim(self):
     n_epochs=1,
     batch_size=32,
 )
+
+
+# 8. A Two tower model
+np.random.seed(42)
+
+# user_features dataframe
+user_ids = np.arange(1, 101)
+ages = np.random.randint(18, 60, size=100)
+genders = np.random.choice(["male", "female"], size=100)
+locations = np.random.choice(["city_a", "city_b", "city_c", "city_d"], size=100)
+user_features = pd.DataFrame(
+    {"id": user_ids, "age": ages, "gender": genders, "location": locations}
+)
+
+# item_features dataframe
+item_ids = np.arange(1, 101)
+prices = np.random.uniform(10, 500, size=100).round(2)
+colors = np.random.choice(["red", "blue", "green", "black"], size=100)
+categories = np.random.choice(["electronics", "clothing", "home", "toys"], size=100)
+
+item_features = pd.DataFrame(
+    {"id": item_ids, "price": prices, "color": colors, "category": categories}
+)
+
+# Interactions dataframe
+interaction_user_ids = np.random.choice(user_ids, size=1000)
+interaction_item_ids = np.random.choice(item_ids, size=1000)
+purchased = np.random.choice([0, 1], size=1000, p=[0.7, 0.3])
+interactions = pd.DataFrame(
+    {
+        "user_id": interaction_user_ids,
+        "item_id": interaction_item_ids,
+        "purchased": purchased,
+    }
+)
+user_item_purchased = interactions.merge(
+    user_features, left_on="user_id", right_on="id"
+).merge(item_features, left_on="item_id", right_on="id")
+
+
+# Users
+tab_preprocessor_user = TabPreprocessor(
+    cat_embed_cols=["gender", "location"],
+    continuous_cols=["age"],
+)
+X_user = tab_preprocessor_user.fit_transform(user_item_purchased)
+tab_mlp_user = TabMlp(
+    column_idx=tab_preprocessor_user.column_idx,
+    cat_embed_input=tab_preprocessor_user.cat_embed_input,
+    continuous_cols=["age"],
+    mlp_hidden_dims=[16, 8],
+    mlp_dropout=[0.2, 0.2],
+)
+
+# Items
+tab_preprocessor_item = TabPreprocessor(
+    cat_embed_cols=["color", "category"],
+    continuous_cols=["price"],
+)
+X_item = tab_preprocessor_item.fit_transform(user_item_purchased)
+tab_mlp_item = TabMlp(
+    column_idx=tab_preprocessor_item.column_idx,
+    cat_embed_input=tab_preprocessor_item.cat_embed_input,
+    continuous_cols=["price"],
+    mlp_hidden_dims=[16, 8],
+    mlp_dropout=[0.2, 0.2],
+)
+
+two_tower_model = ModelFuser([tab_mlp_user, tab_mlp_item], fusion_method="dot")
+
+model = WideDeep(deeptabular=two_tower_model)
+
+trainer = Trainer(
+    model,
+    objective="binary",
+)
+
+trainer.fit(
+    X_tab=[X_user, X_item],
+    target=interactions.purchased.values,
+    n_epochs=1,
+    batch_size=32,
+)
@@ -0,0 +1,166 @@
+# sometimes I call this script generate_fake_data.py
+import os
+import random
+from typing import Tuple
+from pathlib import Path
+
+import cv2
+import numpy as np
+import pandas as pd
+from faker import Faker
+
+
+def generate_fake_data() -> Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame]:
+
+    current_dir = os.path.dirname(os.path.realpath(__file__))
+
+    # Set seed for reproducibility
+    random.seed(42)
+
+    Faker.seed(42)
+
+    num_rows = 64 + 16 + 16
+
+    # Generate random categorical data
+    categories = ["category_A", "category_B", "category_C"]
+
+    cat_col = [random.choice(categories) for _ in range(num_rows)]
+
+    # Generate random numerical data
+    num_col = [np.random.rand() for _ in range(num_rows)]
+
+    # Generate random sentences
+    fake = Faker()
+    text_col1 = [fake.sentence() for _ in range(num_rows)]
+    text_col2 = [fake.sentence() for _ in range(num_rows)]
+
+    # Generate the image data
+    img_folder = "images"
+
+    img_path = "/".join([current_dir, "load_from_folder_test_data", img_folder])
+
+    if not os.path.exists(img_path):
+        os.makedirs(img_path)
+
+    for i in range(num_rows):
+        image = np.random.randint(0, 256, (16, 16, 3), dtype="uint8")
+        image_name = "image_set1_{}.png".format(i)
+        cv2.imwrite("/".join([img_path, image_name]), image)
+
+        image = np.random.randint(0, 256, (16, 16, 3), dtype="uint8")
+        image_name = "image_set2_{}.png".format(i)
+        cv2.imwrite("/".join([img_path, image_name]), image)
+
+    # Generate fake target values
+    target = [random.choice([0, 1]) for _ in range(num_rows)]
+
+    # Create DataFrame
+    data = {
+        "cat_col": cat_col,
+        "num_col": num_col,
+        "text_col1": text_col1,
+        "text_col2": text_col2,
+        "image_col1": ["image_set1_{}.png".format(i) for i in range(num_rows)],
+        "image_col2": ["image_set2_{}.png".format(i) for i in range(num_rows)],
+        "target": target,
+    }
+
+    df = pd.DataFrame(data)
+
+    save_dir = Path(current_dir) / "load_from_folder_test_data"
+
+    if not save_dir.exists():
+        save_dir.mkdir(parents=True)
+
+    train_df = df.iloc[:64]
+    val_df = df.iloc[64:80]
+    test_df = df.iloc[80:]
+
+    train_df.to_csv(save_dir / "train.csv", index=False)
+    val_df.to_csv(save_dir / "val.csv", index=False)
+    test_df.to_csv(save_dir / "test.csv", index=False)
+
+    print("Dataset and images created and saved successfully.")
+
+    return train_df, val_df, test_df
+
+
+def generate_fake_data_for_mutil_tabular_components() -> (
+    Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame]
+):
+
+    current_dir = os.path.dirname(os.path.realpath(__file__))
+    save_dir = Path(current_dir) / "data_for_muti_tabular_components"
+
+    if not save_dir.exists():
+        save_dir.mkdir(parents=True)
+
+    fake = Faker()
+
+    random.seed(42)
+    np.random.seed(42)
+
+    # Create User Features DataFrame
+    user_ids = range(1, 33)
+    ages = np.random.randint(18, 65, size=32)
+    genders = np.random.choice(["male", "female"], size=32)
+    locations = np.random.choice(["location_a", "location_b", "location_c"], size=32)
+    reviews = [fake.sentence(nb_words=10) for _ in range(32)]
+
+    user_features = pd.DataFrame(
+        {
+            "id": user_ids,
+            "age": ages,
+            "gender": genders,
+            "location": locations,
+            "review": reviews,
+        }
+    )
+
+    # Create Item Features DataFrame
+    item_ids = range(1, 33)
+    prices = np.round(np.random.uniform(10, 1000, size=32), 2)
+    colors = np.random.choice(["red", "blue", "green", "yellow"], size=32)
+    categories = np.random.choice(["category_1", "category_2", "category_3"], size=32)
+    descriptions = [fake.sentence(nb_words=10) for _ in range(32)]
+
+    item_features = pd.DataFrame(
+        {
+            "id": item_ids,
+            "price": prices,
+            "color": colors,
+            "category": categories,
+            "description": descriptions,
+        }
+    )
+
+    # Create Interaction DataFrame
+    interaction_data = []
+    for _ in range(1000):  # maybe 1000 interactions is too much for a test
+        user_id = random.choice(user_ids)
+        item_id = random.choice(item_ids)
+        purchased = random.choice([0, 1])
+        interaction_data.append([user_id, item_id, purchased])
+
+    interactions = pd.DataFrame(
+        interaction_data, columns=["user_id", "item_id", "purchased"]
+    )
+
+    user_item_purchased_df = interactions.merge(
+        user_features, left_on="user_id", right_on="id"
+    ).merge(item_features, left_on="item_id", right_on="id")
+
+    train_df = user_item_purchased_df.iloc[:800]
+    val_df = user_item_purchased_df.iloc[800:900]
+    test_df = user_item_purchased_df.iloc[900:]
+
+    train_df.to_csv(save_dir / "train.csv", index=False)
+    val_df.to_csv(save_dir / "val.csv", index=False)
+    test_df.to_csv(save_dir / "test.csv", index=False)
+
+    return train_df, val_df, test_df
+
+
+if __name__ == "__main__":
+    # _, _, _ = generate_fake_data()
+    _, _, _ = generate_fake_data_for_mutil_tabular_components()