frederikhoengaard
diff --git a/‎python/src/lazylearn/lazylearn.py
+21-2 b/‎python/src/lazylearn/lazylearn.py
+21-2
diff --git a/‎python/src/lazylearn/pipeline/pipeline.py
+11 b/‎python/src/lazylearn/pipeline/pipeline.py
+11
diff --git a/‎python/src/lazylearn/preprocessing/encoding/encoders.py
+29-7 b/‎python/src/lazylearn/preprocessing/encoding/encoders.py
+29-7
diff --git a/‎python/src/lazylearn/regression/models/randomforest/random_forest_steps/regressor_step.py
+14-8 b/‎python/src/lazylearn/regression/models/randomforest/random_forest_steps/regressor_step.py
+14-8
diff --git a/‎python/src/lazylearn/regression/models/randomforest/randomforest.py
+15-7 b/‎python/src/lazylearn/regression/models/randomforest/randomforest.py
+15-7
diff --git a/‎python/src/lazylearn/strategies/strategy_builder.py
-1 b/‎python/src/lazylearn/strategies/strategy_builder.py
-1
@@ -2,7 +2,10 @@
 from model_selection.splitters import test_train_splitter
 from preprocessing.time.date_processor import date_processor
 from preprocessing.time.duration import duration_builder
-from regression.models.randomforest.randomforest import RandomForestRegressionRunner
+from regression.models.randomforest.randomforest import (  # noqa
+    RandomForestRegressionRunner,
+)
+from sklearn.metrics import mean_absolute_error
 
 
 class LazyLearner:
@@ -40,9 +43,25 @@ def create_project(self, data, target, task="infer"):
         # set modelling configurations
 
     def run_autopilot(self):
+        """
+        TODO: Everything here must be abstracted away into strategies
+        TODO: such that several models are run and their scores are added to
+        TODO: the leaderboard
+
+        :return:
+        """
+
         simple_random_forest = RandomForestRegressionRunner(
-            target=self.target, dataset=self.dataset
+            target=self.target,
+            dataset=self.dataset,
+            random_state=self.random_state,  # noqa
         )
         simple_random_forest.fit()
 
+        # get holdout scores
+        simple_random_forest.predict(self.dataset.partitions["test"])
+        simple_random_forest.pipeline.holdout_score = mean_absolute_error(
+            self.dataset.partitions["test"][self.target],
+            simple_random_forest.pipeline.tmp_pred,
+        )
         return simple_random_forest
@@ -24,6 +24,9 @@ def apply(self, pipeline: Pipeline):
     def fit(self, pipeline: Pipeline):
         pass
 
+    def predict(self, pipeline: Pipeline):
+        pass
+
 
 class IngestionPipeline(Pipeline):
     def __init__(self):
@@ -49,11 +52,19 @@ def __init__(self):
         super().__init__()
         self._is_fitted = False
         self.feature_list: list = []
+        self.tmp_test = None
+        self.tmp_pred = None
+        self.target = None
 
     def fit(self):
         [step.fit(self) for step in self._steps]
         self._is_fitted = True
 
+    def predict(self):
+        assert self._is_fitted
+        [step.predict(self) for step in self._steps]
+        return self.tmp_pred
+
 
 class RegressionPipeline(ModelPipeline):
     def __init__(self):
 
@@ -1,4 +1,4 @@
-from models.models import Dataset
+from pandas import DataFrame
 from pipeline.pipeline import ModelPipeline
 
 
@@ -21,15 +21,25 @@ def __init__(
 
     def fit(self, pipeline: ModelPipeline):
         for var in self.cat_vars:
-            pipeline.train_features_df = self.convert(pipeline.train_features_df, var)
+            pipeline.train_features_df = self.convert(
+                pipeline.train_features_df, var
+            )  # noqa
             pipeline.feature_list.append(var)
 
-    def convert(self, df, col_name):
+    def convert(self, df: DataFrame, col_name: str) -> DataFrame:
         """
+        Encodes a categorical column ordinally.
+        Currently only the "freq" method is supported,
+        and it encodes a value with an integer id by
+        increasing frequency i.e. more frequent values
+        receive a higher encoding
 
-        :param df:
-        :param col_name:
-        :return:
+        Note that this should only be done on the training
+        data!
+
+        :param df: pandas DataFrame of features
+        :param col_name: column to consider
+        :return: transformed DataFrame
         """
         if self.method == "freq":
             self.cat_freqs[col_name] = {}
@@ -43,7 +53,7 @@ def convert(self, df, col_name):
                 [(key, val) for key, val in self.cat_freqs[col_name].items()],
                 key=lambda x: x[1],
             )
-            print(freq_pairs)
+
             self.cat_maps[col_name] = {key: val for key, val in freq_pairs}
 
             df[col_name] = df[col_name].apply(
@@ -54,3 +64,15 @@ def convert(self, df, col_name):
             return df
         else:
             raise ValueError("Unsupported encoding method, try [freq]")
+
+    def predict(self, pipeline: ModelPipeline):
+        df = pipeline.tmp_test
+
+        for var in self.cat_vars:
+            df[var] = df[var].apply(
+                lambda x: self.cat_maps[var][x]
+                if x in self.cat_maps[var]
+                else -2  # noqa
+            )
+
+        pipeline.tmp_test = df
@@ -1,17 +1,23 @@
 from pipeline.pipeline import PipelineStep, RegressionPipeline
 from sklearn.ensemble import RandomForestRegressor
-from sklearn.metrics import mean_absolute_error
 
 
 class RandomForestRegressorStep(PipelineStep):
-    def __init__(self):
-        self.regressor = RandomForestRegressor()
+    def __init__(self, random_state=None):
+        self.regressor = RandomForestRegressor(random_state=random_state)
 
     def fit(self, pipeline: RegressionPipeline):
-        self.regressor.fit(X=pipeline.train_features_df, y=pipeline.train_targets)
-
-        # y_hat = self.regressor.predict(X=pipeline.holdout_features_df)
-        # pipeline.holdout_score = mean_absolute_error(pipeline.holdout_targets, y_hat)
+        pipeline.feature_list = [
+            item for item in pipeline.feature_list if item != pipeline.target
+        ]
+        print("Fitting RandomForestRegressor")
+        self.regressor.fit(
+            X=pipeline.train_features_df[pipeline.feature_list],
+            y=pipeline.train_targets,
+        )  # noqa
+        print("RandomForestRegressor fitted!")
 
     def predict(self, pipeline: RegressionPipeline):
-        raise NotImplementedError
+        pipeline.tmp_pred = self.regressor.predict(
+            X=pipeline.tmp_test[pipeline.feature_list]
+        )
@@ -4,29 +4,37 @@
 from regression.models.randomforest.random_forest_steps.regressor_step import (
     RandomForestRegressorStep,
 )
-from sklearn.ensemble import RandomForestRegressor
 
 
 class RandomForestRegressionRunner:
-    def __init__(self, target, dataset):
+    def __init__(self, target, dataset, random_state=42):
         self.target = target
         self.dataset: Dataset = dataset
+        self.random_state = random_state
         self.pipeline = RegressionPipeline()
+        self.pipeline.target = target
 
-        self.pipeline.train_features_df = self.dataset.partitions["train"].copy()
+        self.pipeline.train_features_df = self.dataset.partitions[
+            "train"
+        ].copy()  # noqa
         self.pipeline.train_targets = self.dataset.partitions["train"][target]
-        self.pipeline.holdout_features_df = self.dataset.partitions["test"].copy()
+        self.pipeline.holdout_features_df = self.dataset.partitions[
+            "test"
+        ].copy()  # noqa
         self.pipeline.holdout_targets = self.dataset.partitions["test"][target]
 
     def fit(self):
         # preprocess numeric vars
         cat_vars = self.dataset.type_collections["categorical"]
+        num_vars = self.dataset.type_collections["numeric"]
+        self.pipeline.feature_list.extend(num_vars)
 
         self.pipeline.add(OrdinalConverter(cat_vars=cat_vars))
 
-        # self.pipeline.add(RandomForestRegressorStep())
+        self.pipeline.add(RandomForestRegressorStep())
 
         self.pipeline.fit()
 
-    def predict(self):
-        raise NotImplementedError
+    def predict(self, features):
+        self.pipeline.tmp_test = features
+        return self.pipeline.predict()
@@ -1 +0,0 @@
-from lazylearn import LazyLearner