Adds documentation, example and fixes setup.py

ravinkohli · ravinkohli · commit 532cabb1a89c · 2021-05-07T14:11:58.000+02:00
diff --git a/autoPyTorch/api/base_task.py b/autoPyTorch/api/base_task.py
@@ -701,6 +701,7 @@ def _search(
         precision: int = 32,
         disable_file_output: List = [],
         load_models: bool = True,
+        run_greedy_portfolio: bool = False
     ) -> 'BaseTask':
         """
         Search for the best pipeline configuration for the given dataset.
@@ -771,7 +772,12 @@ def _search(
             disable_file_output (Union[bool, List]):
             load_models (bool), (default=True): Whether to load the
                 models after fitting AutoPyTorch.
-
+            run_greedy_portfolio (bool), (default=False): If True,
+                runs initial configurations present in
+                'autoPyTorch/optimizer/greedy_portfolio.json'.
+                These configurations are the best performing configurations
+                when search was performed on meta training datasets.
+                For more info refer to `AutoPyTorch Tabular <https://arxiv.org/abs/2006.13799>
         Returns:
             self
 
@@ -953,7 +959,8 @@ def _search(
                 # We do not increase the num_run here, this is something
                 # smac does internally
                 start_num_run=self._backend.get_next_num_run(peek=True),
-                search_space_updates=self.search_space_updates
+                search_space_updates=self.search_space_updates,
+                run_greedy_portfolio=run_greedy_portfolio
             )
             try:
                 run_history, self.trajectory, budget_type = \
diff --git a/autoPyTorch/api/tabular_classification.py b/autoPyTorch/api/tabular_classification.py
@@ -201,7 +201,11 @@ def search(
             load_models (bool), (default=True): Whether to load the
                 models after fitting AutoPyTorch.
             run_greedy_portfolio (bool), (default=False): If True,
-                runs initial
+                runs initial configurations present in
+                'autoPyTorch/optimizer/greedy_portfolio.json'.
+                These configurations are the best performing configurations
+                when search was performed on meta training datasets.
+                For more info refer to `AutoPyTorch Tabular <https://arxiv.org/abs/2006.13799>
 
         Returns:
             self
@@ -248,6 +252,7 @@ def search(
             precision=precision,
             disable_file_output=disable_file_output,
             load_models=load_models,
+            run_greedy_portfolio=run_greedy_portfolio
         )
 
     def predict(
diff --git a/autoPyTorch/api/tabular_regression.py b/autoPyTorch/api/tabular_regression.py
@@ -123,6 +123,7 @@ def search(
         precision: int = 32,
         disable_file_output: List = [],
         load_models: bool = True,
+        run_greedy_portfolio: bool = False
     ) -> 'BaseTask':
         """
         Search for the best pipeline configuration for the given dataset.
@@ -187,7 +188,12 @@ def search(
             disable_file_output (Union[bool, List]):
             load_models (bool), (default=True): Whether to load the
                 models after fitting AutoPyTorch.
-
+            run_greedy_portfolio (bool), (default=False): If True,
+                            runs initial configurations present in
+                            'autoPyTorch/optimizer/greedy_portfolio.json'.
+                            These configurations are the best performing configurations
+                            when search was performed on meta training datasets.
+                            For more info refer to `AutoPyTorch Tabular <https://arxiv.org/abs/2006.13799>
         Returns:
             self
 
@@ -233,6 +239,7 @@ def search(
             precision=precision,
             disable_file_output=disable_file_output,
             load_models=load_models,
+            run_greedy_portfolio=run_greedy_portfolio
         )
 
     def predict(
diff --git a/autoPyTorch/optimizer/smbo.py b/autoPyTorch/optimizer/smbo.py
@@ -108,7 +108,8 @@ def __init__(self,
                  all_supported_metrics: bool = True,
                  ensemble_callback: typing.Optional[EnsembleBuilderManager] = None,
                  logger_port: typing.Optional[int] = None,
-                 search_space_updates: typing.Optional[HyperparameterSearchSpaceUpdates] = None
+                 search_space_updates: typing.Optional[HyperparameterSearchSpaceUpdates] = None,
+                 run_greedy_portfolio: bool = False
                  ):
         """
         Interface to SMAC. This method calls the SMAC optimize method, and allows
@@ -157,7 +158,9 @@ def __init__(self,
                 Allows to create a user specified SMAC object
             ensemble_callback (typing.Optional[EnsembleBuilderManager]):
                 A callback used in this scenario to start ensemble building subtasks
-
+            run_greedy_portfolio (bool), (default=False): If True,
+                runs initial configurations present in
+                'autoPyTorch/optimizer/greedy_portfolio.json'.
         """
         super(AutoMLSMBO, self).__init__()
         # data related
@@ -213,16 +216,18 @@ def __init__(self,
         # read and validate initial configurations
         initial_configurations = json.load(open(os.path.join(os.path.dirname(__file__), 'greedy_portfolio.json')))
 
-        self.initial_configurations: typing.List[Configuration] = list()
-        for configuration_dict in initial_configurations:
-            try:
-                configuration = Configuration(self.config_space, configuration_dict)
-                self.initial_configurations.append(configuration)
-            except Exception as e:
-                self.logger.warning(f"Failed to convert {configuration_dict} into"
-                                    f" a Configuration with error {e}. "
-                                    f"Therefore, it can't be used as an initial "
-                                    f"configuration as it does not match the current config space. ")
+        self.initial_configurations: typing.Optional[typing.List[Configuration]] = None
+        if run_greedy_portfolio:
+            self.initial_configurations = list()
+            for configuration_dict in initial_configurations:
+                try:
+                    configuration = Configuration(self.config_space, configuration_dict)
+                    self.initial_configurations.append(configuration)
+                except Exception as e:
+                    self.logger.warning(f"Failed to convert {configuration_dict} into"
+                                        f" a Configuration with error {e}. "
+                                        f"Therefore, it can't be used as an initial "
+                                        f"configuration as it does not match the current config space. ")
 
     def reset_data_manager(self) -> None:
         if self.datamanager is not None:
diff --git a/examples/tabular/40_advanced/example_run_with_portfolio.py b/examples/tabular/40_advanced/example_run_with_portfolio.py
@@ -0,0 +1,71 @@
+"""
+============================================
+Tabular Classification with Greedy Portfolio
+============================================
+
+The following example shows how to fit a sample classification model
+with AutoPyTorch using the greedy portfolio
+"""
+import os
+import tempfile as tmp
+import warnings
+
+os.environ['JOBLIB_TEMP_FOLDER'] = tmp.gettempdir()
+os.environ['OMP_NUM_THREADS'] = '1'
+os.environ['OPENBLAS_NUM_THREADS'] = '1'
+os.environ['MKL_NUM_THREADS'] = '1'
+
+warnings.simplefilter(action='ignore', category=UserWarning)
+warnings.simplefilter(action='ignore', category=FutureWarning)
+
+import sklearn.datasets
+import sklearn.model_selection
+
+from autoPyTorch.api.tabular_classification import TabularClassificationTask
+
+
+if __name__ == '__main__':
+
+    ############################################################################
+    # Data Loading
+    # ============
+    X, y = sklearn.datasets.fetch_openml(data_id=40981, return_X_y=True, as_frame=True)
+    X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(
+        X,
+        y,
+        random_state=42,
+    )
+
+    ############################################################################
+    # Build and fit a classifier
+    # ==========================
+    api = TabularClassificationTask(
+        seed=42,
+    )
+
+    ############################################################################
+    # Search for an ensemble of machine learning algorithms
+    # =====================================================
+    api.search(
+        X_train=X_train,
+        y_train=y_train,
+        X_test=X_test.copy(),
+        y_test=y_test.copy(),
+        optimize_metric='accuracy',
+        total_walltime_limit=300,
+        func_eval_time_limit_secs=50,
+        # Setting this option to True
+        # will make smac run the configurations
+        # present in 'autoPyTorch/optimizer/greedy_portfolio.json'
+        run_greedy_portfolio=True
+    )
+
+    ############################################################################
+    # Print the final ensemble performance
+    # ====================================
+    print(api.run_history, api.trajectory)
+    y_pred = api.predict(X_test)
+    score = api.score(y_pred, y_test)
+    print(score)
+    # Print the final ensemble built by AutoPyTorch
+    print(api.show_models())
diff --git a/setup.py b/setup.py
@@ -11,10 +11,10 @@
 # noinspection PyInterpreter
 setuptools.setup(
     name="autoPyTorch",
-    version="0.0.3",
+    version="0.1.0",
     author="AutoML Freiburg",
     author_email="zimmerl@informatik.uni-freiburg.de",
-    description=("Auto-PyTorch searches neural architectures using BO-HB"),
+    description=("Auto-PyTorch searches neural architectures using smac"),
     long_description=long_description,
     url="https://github.com/automl/Auto-PyTorch",
     long_description_content_type="text/markdown",
@@ -59,5 +59,6 @@
         "docs": ["sphinx", "sphinx-gallery", "sphinx_bootstrap_theme", "numpydoc"],
     },
     test_suite="pytest",
-    data_files=[('configs', ['autoPyTorch/configs/default_pipeline_options.json'])]
+    data_files=[('configs', ['autoPyTorch/configs/default_pipeline_options.json']),
+                ('portfolio', ['autoPyTorch/optimizer/greedy_portfolio.json'])]
 )