automl
diff --git a/‎.github/workflows/examples.yml‎
Lines changed: 2 additions & 1 deletion b/‎.github/workflows/examples.yml‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎autoPyTorch/evaluation/abstract_evaluator.py‎
Lines changed: 3 additions & 0 deletions b/‎autoPyTorch/evaluation/abstract_evaluator.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/TabularColumnTransformer.py‎
Lines changed: 4 additions & 4 deletions b/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/TabularColumnTransformer.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/encoding/OrdinalEncoder.py‎
Lines changed: 0 additions & 33 deletions b/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/encoding/OrdinalEncoder.py‎
Lines changed: 0 additions & 33 deletions
diff --git a/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/encoding/base_encoder_choice.py‎
Lines changed: 1 addition & 1 deletion b/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/encoding/base_encoder_choice.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎autoPyTorch/pipeline/components/setup/network/base_network.py‎
Lines changed: 2 additions & 1 deletion b/‎autoPyTorch/pipeline/components/setup/network/base_network.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎autoPyTorch/pipeline/components/setup/network_backbone/base_network_backbone.py‎
Lines changed: 5 additions & 1 deletion b/‎autoPyTorch/pipeline/components/setup/network_backbone/base_network_backbone.py‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎autoPyTorch/pipeline/components/setup/network_embedding/LearnedEntityEmbedding.py‎
Lines changed: 132 additions & 0 deletions b/‎autoPyTorch/pipeline/components/setup/network_embedding/LearnedEntityEmbedding.py‎
Lines changed: 132 additions & 0 deletions
diff --git a/‎autoPyTorch/pipeline/components/setup/network_embedding/NoEmbedding.py‎
Lines changed: 44 additions & 0 deletions b/‎autoPyTorch/pipeline/components/setup/network_embedding/NoEmbedding.py‎
Lines changed: 44 additions & 0 deletions
diff --git a/‎autoPyTorch/pipeline/components/setup/network_embedding/__init__.py‎ b/‎autoPyTorch/pipeline/components/setup/network_embedding/__init__.py‎
@@ -31,4 +31,5 @@ jobs:
     - name: Run tests
       run: |
         python examples/example_tabular_classification.py
-        python examples/example_image_classification.py
+        python examples/example_tabular_regression.py
+        python examples/example_image_classification.py
@@ -331,6 +331,8 @@ def __init__(self, backend: Backend,
             name=logger_name,
             port=logger_port,
         )
+        self.backend.setup_logger(name=logger_name, port=logger_port)
+
         self.Y_optimization: Optional[np.ndarray] = None
         self.Y_actual_train: Optional[np.ndarray] = None
         self.pipelines: Optional[List[BaseEstimator]] = None
@@ -538,6 +540,7 @@ def file_output(
         else:
             pipeline = None
 
+        self.logger.debug("Saving directory {}, {}, {}".format(self.seed, self.num_run, self.budget))
         self.backend.save_numrun_to_dir(
             seed=int(self.seed),
             idx=int(self.num_run),
 
@@ -2,7 +2,7 @@
 
 import numpy as np
 
-from sklearn.compose import ColumnTransformer, make_column_transformer
+from sklearn.compose import ColumnTransformer
 from sklearn.pipeline import make_pipeline
 
 import torch
@@ -57,9 +57,9 @@ def fit(self, X: Dict[str, Any], y: Any = None) -> "TabularColumnTransformer":
         if len(X['dataset_properties']['categorical_columns']):
             categorical_pipeline = make_pipeline(*preprocessors['categorical'])
 
-        self.preprocessor = make_column_transformer(
-            (numerical_pipeline, X['dataset_properties']['numerical_columns']),
-            (categorical_pipeline, X['dataset_properties']['categorical_columns']),
+        self.preprocessor = ColumnTransformer([
+            ('numerical_pipeline', numerical_pipeline, X['dataset_properties']['numerical_columns']),
+            ('categorical_pipeline', categorical_pipeline, X['dataset_properties']['categorical_columns'])],
             remainder='passthrough'
         )
 
 
@@ -65,7 +65,7 @@ def get_hyperparameter_search_space(self,
             raise ValueError("no encoders found, please add a encoder")
 
         if default is None:
-            defaults = ['OneHotEncoder', 'OrdinalEncoder', 'NoEncoder']
+            defaults = ['OneHotEncoder', 'NoEncoder']
             for default_ in defaults:
                 if default_ in available_preprocessors:
                     if include is not None and default_ not in include:
 
@@ -29,6 +29,7 @@ def __init__(
         self.add_fit_requirements([
             FitRequirement("network_head", (torch.nn.Module,), user_defined=False, dataset_property=False),
             FitRequirement("network_backbone", (torch.nn.Module,), user_defined=False, dataset_property=False),
+            FitRequirement("network_embedding", (torch.nn.Module,), user_defined=False, dataset_property=False),
         ])
         self.final_activation = None
 
@@ -47,7 +48,7 @@ def fit(self, X: Dict[str, Any], y: Any = None) -> autoPyTorchTrainingComponent:
         # information to fit this stage
         self.check_requirements(X, y)
 
-        self.network = torch.nn.Sequential(X['network_backbone'], X['network_head'])
+        self.network = torch.nn.Sequential(X['network_embedding'], X['network_backbone'], X['network_head'])
 
         # Properly set the network training device
         if self.device is None:
 
@@ -14,6 +14,7 @@
 from autoPyTorch.pipeline.components.base_component import (
     autoPyTorchComponent,
 )
+from autoPyTorch.pipeline.components.setup.network_backbone.utils import get_output_shape
 from autoPyTorch.utils.common import FitRequirement
 
 
@@ -31,7 +32,9 @@ def __init__(self,
             FitRequirement('X_train', (np.ndarray, pd.DataFrame, csr_matrix), user_defined=True,
                            dataset_property=False),
             FitRequirement('input_shape', (Iterable,), user_defined=True, dataset_property=True),
-            FitRequirement('tabular_transformer', (BaseEstimator,), user_defined=False, dataset_property=False)])
+            FitRequirement('tabular_transformer', (BaseEstimator,), user_defined=False, dataset_property=False),
+            FitRequirement('network_embedding', (nn.Module,), user_defined=False, dataset_property=False)
+        ])
         self.backbone: nn.Module = None
         self.config = kwargs
         self.input_shape: Optional[Iterable] = None
@@ -56,6 +59,7 @@ def fit(self, X: Dict[str, Any], y: Any = None) -> BaseEstimator:
             column_transformer = X['tabular_transformer'].preprocessor
             input_shape = column_transformer.transform(X_train[:1]).shape[1:]
 
+        input_shape = get_output_shape(X['network_embedding'], input_shape=input_shape)
         self.input_shape = input_shape
 
         self.backbone = self.build_backbone(
 
@@ -0,0 +1,132 @@
+from typing import Any, Dict, Optional, Tuple, Union
+
+from ConfigSpace.configuration_space import ConfigurationSpace
+from ConfigSpace.hyperparameters import (
+    UniformFloatHyperparameter,
+    UniformIntegerHyperparameter
+)
+
+import numpy as np
+
+import torch
+from torch import nn
+
+from autoPyTorch.pipeline.components.setup.network_embedding.base_network_embedding import NetworkEmbeddingComponent
+
+
+class _LearnedEntityEmbedding(nn.Module):
+    """ Learned entity embedding module for categorical features"""
+
+    def __init__(self, config: Dict[str, Any], num_input_features: np.ndarray, num_numerical_features: int):
+        """
+        Arguments:
+            config (Dict[str, Any]): The configuration sampled by the hyperparameter optimizer
+            num_input_features (np.ndarray): column wise information of number of output columns after transformation
+                for each categorical column and 0 for numerical columns
+            num_numerical_features (int): number of numerical features in X
+        """
+        super().__init__()
+        self.config = config
+
+        self.num_numerical = num_numerical_features
+        # list of number of categories of categorical data
+        # or 0 for numerical data
+        self.num_input_features = num_input_features
+        categorical_features = self.num_input_features > 0
+
+        self.num_categorical_features = self.num_input_features[categorical_features]
+
+        self.embed_features = [num_in >= config["min_unique_values_for_embedding"] for num_in in
+                               self.num_input_features]
+        self.num_output_dimensions = [0] * num_numerical_features
+        self.num_output_dimensions.extend([config["dimension_reduction_" + str(i)] * num_in for i, num_in in
+                                           enumerate(self.num_categorical_features)])
+        self.num_output_dimensions = [int(np.clip(num_out, 1, num_in - 1)) for num_out, num_in in
+                                      zip(self.num_output_dimensions, self.num_input_features)]
+        self.num_output_dimensions = [num_out if embed else num_in for num_out, embed, num_in in
+                                      zip(self.num_output_dimensions, self.embed_features,
+                                          self.num_input_features)]
+        self.num_out_feats = self.num_numerical + sum(self.num_output_dimensions)
+
+        self.ee_layers = self._create_ee_layers()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        # pass the columns of each categorical feature through entity embedding layer
+        # before passing it through the model
+        concat_seq = []
+        last_concat = 0
+        x_pointer = 0
+        layer_pointer = 0
+        for num_in, embed in zip(self.num_input_features, self.embed_features):
+            if not embed:
+                x_pointer += 1
+                continue
+            if x_pointer > last_concat:
+                concat_seq.append(x[:, last_concat: x_pointer])
+            categorical_feature_slice = x[:, x_pointer: x_pointer + num_in]
+            concat_seq.append(self.ee_layers[layer_pointer](categorical_feature_slice))
+            layer_pointer += 1
+            x_pointer += num_in
+            last_concat = x_pointer
+
+        concat_seq.append(x[:, last_concat:])
+        return torch.cat(concat_seq, dim=1)
+
+    def _create_ee_layers(self) -> nn.ModuleList:
+        # entity embeding layers are Linear Layers
+        layers = nn.ModuleList()
+        for i, (num_in, embed, num_out) in enumerate(zip(self.num_input_features, self.embed_features,
+                                                         self.num_output_dimensions)):
+            if not embed:
+                continue
+            layers.append(nn.Linear(num_in, num_out))
+        return layers
+
+
+class LearnedEntityEmbedding(NetworkEmbeddingComponent):
+    """
+    Class to learn an embedding for categorical hyperparameters.
+    """
+
+    def __init__(self, random_state: Optional[Union[np.random.RandomState, int]] = None, **kwargs: Any):
+        super().__init__(random_state=random_state)
+        self.config = kwargs
+
+    def build_embedding(self, num_input_features: np.ndarray, num_numerical_features: int) -> nn.Module:
+        return _LearnedEntityEmbedding(config=self.config,
+                                       num_input_features=num_input_features,
+                                       num_numerical_features=num_numerical_features)
+
+    @staticmethod
+    def get_hyperparameter_search_space(
+        dataset_properties: Optional[Dict[str, str]] = None,
+        min_unique_values_for_embedding: Tuple[Tuple, int, bool] = ((3, 7), 5, True),
+        dimension_reduction: Tuple[Tuple, float] = ((0, 1), 0.5),
+    ) -> ConfigurationSpace:
+        cs = ConfigurationSpace()
+        min_hp = UniformIntegerHyperparameter("min_unique_values_for_embedding",
+                                              lower=min_unique_values_for_embedding[0][0],
+                                              upper=min_unique_values_for_embedding[0][1],
+                                              default_value=min_unique_values_for_embedding[1],
+                                              log=min_unique_values_for_embedding[2]
+                                              )
+        cs.add_hyperparameter(min_hp)
+        if dataset_properties is not None:
+            for i in range(len(dataset_properties['categorical_columns'])):
+                ee_dimensions_hp = UniformFloatHyperparameter("dimension_reduction_" + str(i),
+                                                              lower=dimension_reduction[0][0],
+                                                              upper=dimension_reduction[0][1],
+                                                              default_value=dimension_reduction[1]
+                                                              )
+                cs.add_hyperparameter(ee_dimensions_hp)
+        return cs
+
+    @staticmethod
+    def get_properties(dataset_properties: Optional[Dict[str, Any]] = None) -> Dict[str, Union[str, bool]]:
+        return {
+            'shortname': 'embedding',
+            'name': 'LearnedEntityEmbedding',
+            'handles_tabular': True,
+            'handles_image': False,
+            'handles_time_series': False,
+        }
@@ -0,0 +1,44 @@
+from typing import Any, Dict, Optional, Union
+
+from ConfigSpace.configuration_space import ConfigurationSpace
+
+import numpy as np
+
+import torch
+from torch import nn
+
+from autoPyTorch.pipeline.components.setup.network_embedding.base_network_embedding import NetworkEmbeddingComponent
+
+
+class _NoEmbedding(nn.Module):
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return x
+
+
+class NoEmbedding(NetworkEmbeddingComponent):
+    """
+    Class to learn an embedding for categorical hyperparameters.
+    """
+
+    def __init__(self, random_state: Optional[Union[np.random.RandomState, int]] = None):
+        super().__init__(random_state=random_state)
+
+    def build_embedding(self, num_input_features: np.ndarray, num_numerical_features: int) -> nn.Module:
+        return _NoEmbedding()
+
+    @staticmethod
+    def get_hyperparameter_search_space(
+        dataset_properties: Optional[Dict[str, str]] = None,
+    ) -> ConfigurationSpace:
+        cs = ConfigurationSpace()
+        return cs
+
+    @staticmethod
+    def get_properties(dataset_properties: Optional[Dict[str, Any]] = None) -> Dict[str, Union[str, bool]]:
+        return {
+            'shortname': 'no embedding',
+            'name': 'NoEmbedding',
+            'handles_tabular': True,
+            'handles_image': False,
+            'handles_time_series': False,
+        }