thomasjpfan
diff --git a/‎sklearn/metrics/_ranking.py
Lines changed: 3 additions & 3 deletions b/‎sklearn/metrics/_ranking.py
Lines changed: 3 additions & 3 deletions
diff --git a/‎sklearn/preprocessing/_encoders.py
Lines changed: 4 additions & 5 deletions b/‎sklearn/preprocessing/_encoders.py
Lines changed: 4 additions & 5 deletions
diff --git a/‎sklearn/preprocessing/_label.py
Lines changed: 64 additions & 63 deletions b/‎sklearn/preprocessing/_label.py
Lines changed: 64 additions & 63 deletions
diff --git a/‎sklearn/preprocessing/tests/test_label.py
Lines changed: 6 additions & 8 deletions b/‎sklearn/preprocessing/tests/test_label.py
Lines changed: 6 additions & 8 deletions
@@ -34,7 +34,7 @@
 from ..utils.validation import _deprecate_positional_args
 from ..exceptions import UndefinedMetricWarning
 from ..preprocessing import label_binarize
-from ..preprocessing._label import _encode
+from ..preprocessing._label import _encode, _unique
 
 from ._base import _average_binary_score, _average_multiclass_ovo_score
 
@@ -460,7 +460,7 @@ def _multiclass_roc_auc_score(y_true, y_score, labels,
 
     if labels is not None:
         labels = column_or_1d(labels)
-        classes = _encode(labels)
+        classes = _unique(labels)
         if len(classes) != len(labels):
             raise ValueError("Parameter 'labels' must be unique")
         if not np.array_equal(classes, labels):
@@ -474,7 +474,7 @@ def _multiclass_roc_auc_score(y_true, y_score, labels,
             raise ValueError(
                 "'y_true' contains labels not in parameter 'labels'")
     else:
-        classes = _encode(y_true)
+        classes = _unique(y_true)
         if len(classes) != y_score.shape[1]:
             raise ValueError(
                 "Number of classes in y_true not equal to the number of "
 
@@ -10,7 +10,7 @@
 from ..utils.validation import check_is_fitted
 from ..utils.validation import _deprecate_positional_args
 
-from ._label import _encode, _encode_check_unknown
+from ._label import _encode, _encode_check_unknown, _unique
 
 
 __all__ = [
@@ -83,7 +83,7 @@ def _fit(self, X, handle_unknown='error'):
         for i in range(n_features):
             Xi = X_list[i]
             if self.categories == 'auto':
-                cats = _encode(Xi)
+                cats = _unique(Xi)
             else:
                 cats = np.array(self.categories[i], dtype=Xi.dtype)
                 if Xi.dtype != object:
@@ -138,9 +138,8 @@ def _transform(self, X, handle_unknown='error'):
                     Xi[~valid_mask] = self.categories_[i][0]
             # We use check_unknown=False, since _encode_check_unknown was
             # already called above.
-            _, encoded = _encode(Xi, self.categories_[i], encode=True,
-                                 check_unknown=False)
-            X_int[:, i] = encoded
+            X_int[:, i] = _encode(Xi, uniques=self.categories_[i],
+                                  check_unknown=False)
 
         return X_int, X_mask
 
 
@@ -34,46 +34,8 @@
 ]
 
 
-def _encode_numpy(values, uniques=None, encode=False, check_unknown=True):
-    # only used in _encode below, see docstring there for details
-    if uniques is None:
-        if encode:
-            uniques, encoded = np.unique(values, return_inverse=True)
-            return uniques, encoded
-        else:
-            # unique sorts
-            return np.unique(values)
-    if encode:
-        if check_unknown:
-            diff = _encode_check_unknown(values, uniques)
-            if diff:
-                raise ValueError("y contains previously unseen labels: %s"
-                                 % str(diff))
-        encoded = np.searchsorted(uniques, values)
-        return uniques, encoded
-    else:
-        return uniques
-
-
-def _encode_python(values, uniques=None, encode=False):
-    # only used in _encode below, see docstring there for details
-    if uniques is None:
-        uniques = sorted(set(val
B41A
ues))
-        uniques = np.array(uniques, dtype=values.dtype)
-    if encode:
-        table = {val: i for i, val in enumerate(uniques)}
-        try:
-            encoded = np.array([table[v] for v in values])
-        except KeyError as e:
-            raise ValueError("y contains previously unseen labels: %s"
-                             % str(e))
-        return uniques, encoded
-    else:
-        return uniques
-
-
-def _encode(values, uniques=None, encode=False, check_unknown=True):
-    """Helper function to factorize (find uniques) and encode values.
+def _encode(values, *, uniques, check_unknown=True):
+    """Helper function encode values.
 
     Uses pure python method for object dtype, and numpy method for
     all other dtypes.
@@ -86,12 +48,10 @@ def _encode(values, uniques=None, encode=False, check_unknown=True):
     ----------
     values : array
         Values to factorize or encode.
-    uniques : array, optional
-        If passed, uniques are not determined from passed values (this
+    uniques : array
+        Uniques are not determined from passed values (this
         can be because the user specified categories, or because they
         already have been determined in fit).
-    encode : bool, default False
-        If True, also encode the values into integer codes based on `uniques`.
     check_unknown : bool, default True
         If True, check for values in ``values`` that are not in ``unique``
         and raise an error. This is ignored for object dtype, and treated as
@@ -101,25 +61,67 @@ def _encode(values, uniques=None, encode=False, check_unknown=True):
 
     Returns
     -------
-    uniques
-        If ``encode=False``. The unique values are sorted if the `uniques`
-        parameter was None (and thus inferred from the data).
-    (uniques, encoded)
-        If ``encode=True``.
-
+    encoded : ndarray
+        Encoded values
     """
     if values.dtype == object:
+        table = {val: i for i, val in enumerate(uniques)}
         try:
-            res = _encode_python(values, uniques, encode)
-        except TypeError:
-            types = sorted(t.__qualname__
-                           for t in set(type(v) for v in values))
-            raise TypeError("Encoders require their input to be uniformly "
-                            f"strings or numbers. Got {types}")
-        return res
+            return np.array([table[v] for v in values])
+        except KeyError as e:
+            raise ValueError(f"y contains previously unseen labels: {str(e)}")
     else:
-        return _encode_numpy(values, uniques, encode,
-                             check_unknown=check_unknown)
+        if check_unknown:
+            diff = _encode_check_unknown(values, uniques)
+            if diff:
+                raise ValueError(f"y contains previously unseen labels: "
+                                 f"{str(diff)}")
+        return np.searchsorted(uniques, values)
+
+
+def _unique_python(values, *, return_inverse):
+    # Only used in _u
10000
niques below, see docstring there for details
+    try:
+        uniques = sorted(set(values))
+        uniques = np.array(uniques, dtype=values.dtype)
+    except TypeError:
+        types = sorted(t.__qualname__
+                       for t in set(type(v) for v in values))
+        raise TypeError("Encoders require their input to be uniformly "
+                        f"strings or numbers. Got {types}")
+
+    ret = (uniques, )
+
+    if return_inverse:
+        table = {val: i for i, val in enumerate(uniques)}
+        inverse = np.array([table[v] for v in values])
+        ret += (inverse, )
+
+    if len(ret) == 1:
+        ret = ret[0]
+
+    return ret
+
+
+def _unique(values, *, return_inverse=False):
+    """Helper function to find uniques with support for python objects.
+
+    Uses pure python method for object dtype, and numpy method for
+    all other dtypes.
+
+    Parameters
+    ----------
+    unique : ndarray
+        The sorted uniique values
+
+    unique_inverse : ndarray
+        The indicies to reconstruct the original array from the unique array.
+        Only provided if `return_inverse` is True.
+    """
+    if values.dtype == object:
+        return _unique_python(values, return_inverse=return_inverse)
+    # numerical
+    return np.unique(values, return_inverse=return_inverse)
 
 
 def _encode_check_unknown(values, uniques, return_mask=False):
@@ -237,7 +239,7 @@ def fit(self, y):
         self : returns an instance of self.
         """
         y = column_or_1d(y, warn=True)
-        self.classes_ = _encode(y)
+        self.classes_ = _unique(y)
         return self
 
     def fit_transform(self, y):
@@ -253,7 +255,7 @@ def fit_transform(self, y):
         y : array-like of shape [n_samples]
         """
         y = column_or_1d(y, warn=True)
-        self.classes_, y = _encode(y, encode=True)
+        self.classes_, y = _unique(y, return_inverse=True)
         return y
 
     def transform(self, y):
@@ -274,8 +276,7 @@ def transform(self, y):
         if _num_samples(y) == 0:
             return np.array([])
 
-        _, y = _encode(y, uniques=self.classes_, encode=True)
-        return y
+        return _encode(y, uniques=self.classes_)
 
     def inverse_transform(self, y):
         """Transform labels back to original encoding.
 
@@ -24,6 +24,7 @@
 from sklearn.preprocessing._label import _inverse_binarize_thresholding
 from sklearn.preprocessing._label import _inverse_binarize_multiclass
 from sklearn.preprocessing._label import _encode
+from sklearn.preprocessing._label import _unique
 
 from sklearn import datasets
 
@@ -626,12 +627,9 @@ def test_inverse_binarize_multiclass():
           np.array(['a', 'b', 'c']))],
         ids=['int64', 'object', 'str'])
 def test_encode_util(values, expected):
-    uniques = _encode(values)
+    uniques = _unique(values)
     assert_array_equal(uniques, expected)
-    uniques, encoded = _encode(values, encode=True)
-    assert_array_equal(uniques, expected)
-    assert_array_equal(encoded, np.array([1, 0, 2, 0, 2]))
-    _, encoded = _encode(values, uniques, encode=True)
+    encoded = _encode(values, uniques=uniques)
     assert_array_equal(encoded, np.array([1, 0, 2, 0, 2]))
 
 
@@ -643,14 +641,14 @@ def test_encode_check_unknown():
     # Default is True, raise error
     with pytest.raises(ValueError,
                        match='y contains previously unseen labels'):
-        _encode(values, uniques, encode=True, check_unknown=True)
+        _encode(values, uniques=uniques, check_unknown=True)
 
     # dont raise error if False
-    _encode(values, uniques, encode=True, check_unknown=False)
+    _encode(values, uniques=uniques, check_unknown=False)
 
     # parameter is ignored for object dtype
     uniques = np.array(['a', 'b', 'c'], dtype=object)
     values = np.array(['a', 'b', 'c', 'd'], dtype=object)
     with pytest.raises(ValueError,
                        match='y contains previously unseen labels'):
-        _encode(values, uniques, encode=True, check_unknown=False)
+        _encode(values, uniques=uniques, check_unknown=False)