scikit-learn
diff --git a/‎sklearn/feature_selection/sequential_feature_selector.py
Lines changed: 6 additions & 4 deletions b/‎sklearn/feature_selection/sequential_feature_selector.py
Lines changed: 6 additions & 4 deletions
diff --git a/‎sklearn/feature_selection/tests/test_sequential_feature_selector.py
Lines changed: 23 additions & 2 deletions b/‎sklearn/feature_selection/tests/test_sequential_feature_selector.py
Lines changed: 23 additions & 2 deletions
@@ -183,7 +183,7 @@ def fit(self, X, y):
 
             if self.n_features_to_select[0] > self.n_features_to_select[1]:
                 raise ValueError('The min n_features_to_select value must be'
-                                 ' larger than the max'
+                                 ' smaller than the max'
                                  ' n_features_to_select value.')
 
         if isinstance(self.n_features_to_select, tuple):
@@ -211,7 +211,7 @@ def fit(self, X, y):
             self.subsets_[k] = {
                 'feature_subset_idx': k_idx,
                 'cv_scores': k_score,
-                'avg_score': k_score.mean()
+                'avg_score': np.nanmean(k_score)
                 }
 
         best_subset = None
@@ -245,6 +245,8 @@ def fit(self, X, y):
         if select_in_range:
             max_score = float('-inf')
             for k in self.subsets_:
+                if k < self.n_features_to_select[0] or k > self.n_features_to_select[1]:
+                    continue
                 if self.subsets_[k]['avg_score'] > max_score:
                     max_score = self.subsets_[k]['avg_score']
                     best_subset = k
@@ -279,7 +281,7 @@ def _inclusion(self, orig_set, subset, X, y):
             for feature in remaining:
                 new_subset = tuple(subset | {feature})
                 cv_scores = self._calc_score(X, y, new_subset)
-                all_avg_scores.append(cv_scores.mean())
+                all_avg_scores.append(np.nanmean(cv_scores))
                 all_cv_scores.append(cv_scores)
                 all_subsets.append(new_subset)
             best = np.argmax(all_avg_scores)
@@ -299,7 +301,7 @@ def _exclusion(self, feature_set, X, y, fixed_feature=None):
                 if fixed_feature and fixed_feature not in set(p):
                     continue
                 cv_scores = self._calc_score(X, y, p)
-                all_avg_scores.append(cv_scores.mean())
+                all_avg_scores.append(np.nanmean(cv_scores))
                 all_cv_scores.append(cv_scores)
                 all_subsets.append(p)
             best = np.argmax(all_avg_scores)
 
@@ -93,7 +93,7 @@ def test_kfeatures_type_5():
     y = iris.target
     knn = KNeighborsClassifier()
     expect = ('he min n_features_to_select value must be'
-              ' larger than the max n_features_to_select value.')
+              ' smaller than the max n_features_to_select value.')
     sfs = SFS(estimator=knn,
               n_features_to_select=(3, 1))
     assert_raise_message(ValueError, expect, sfs.fit, X, y)
@@ -221,7 +221,10 @@ def test_regression():
     assert round(sfs_r.score_, 4) == 0.2001
 
 
-def test_regression_in_tuplerange():
+def test_regression_in_tuplerange_forward():
+    """Test if selected features are within
+    the selected tuple range when running forward selection
+    """
     boston = load_boston()
     X, y = boston.data, boston.target
     lr = LinearRegression()
@@ -234,6 +237,24 @@ def test_regression_in_tuplerange():
     assert round(sfs_r.score_, 4) == 0.2991, sfs_r.score_
 
 
+def test_regression_in_tuplerange_backward():
+    """Test if selected features are within
+    the selected tuple range when running backward selection
+    """
+    boston = load_boston()
+    X, y = boston.data, boston.target
+    lr = LinearRegression()
+
+    sfs_r = SFS(lr,
+                n_features_to_select=(1, 5),
+                forward=False,
+                scoring='neg_mean_squared_error',
+                cv=10)
+
+    sfs_r = sfs_r.fit(X, y)
+    assert len(sfs_r.feature_subset_idx_) == 5
+
+
 def test_transform_not_fitted():
     iris = load_iris()
     X = iris.data