scikit-learn
diff --git a/‎sklearn/metrics/__init__.py
Lines changed: 92 additions & 88 deletions b/‎sklearn/metrics/__init__.py
Lines changed: 92 additions & 88 deletions
diff --git a/‎sklearn/metrics/base.py
Lines changed: 123 additions & 0 deletions b/‎sklearn/metrics/base.py
Lines changed: 123 additions & 0 deletions
@@ -3,97 +3,101 @@
 and pairwise metrics and distance computations.
 """
 
-from .metrics import (accuracy_score,
-                      average_precision_score,
-                      auc,
-                      roc_auc_score,
-                      classification_report,
-                      confusion_matrix,
-                      explained_variance_score,
-                      f1_score,
-                      fbeta_score,
-                      hamming_loss,
-                      hinge_loss,
-                      jaccard_similarity_score,
-                      label_ranking_average_precision_score,
-                      log_loss,
-                      matthews_corrcoef,
-                      mean_squared_error,
-                      mean_absolute_error,
-                      precision_recall_curve,
-                      precision_recall_fscore_support,
-                      precision_score,
-                      recall_score,
-                      r2_score,
-                      roc_curve,
-                      zero_one_loss)
+from .ranking import auc
+from .ranking import average_precision_score
+from .ranking import label_ranking_average_precision_score
+from .ranking import log_loss
+from .ranking import precision_recall_curve
+from .ranking import roc_auc_score
+from .ranking import roc_curve
+from .ranking import hinge_loss
 
+from .classification import accuracy_score
+from .classification import classification_report
+from .classification import confusion_matrix
+from .classification import f1_score
+from .classification import fbeta_score
+from .classification import hamming_loss
+from .classification import jaccard_similarity_score
+from .classification import matthews_corrcoef
+from .classification import precision_recall_fscore_support
+from .classification import precision_score
+from .classification import recall_score
+from .classification import zero_one_loss
 
-# Deprecated in 0.16
-from .metrics import auc_score
+from . import cluster
+from .cluster import adjusted_mutual_info_score
+from .cluster import adjusted_rand_score
+from .cluster import completeness_score
+from .cluster import consensus_score
+from .cluster import homogeneity_completeness_v_measure
+from .cluster import homogeneity_score
+from .cluster import mutual_info_score
+from .cluster import normalized_mutual_info_score
+from .cluster import silhouette_samples
+from .cluster import silhouette_score
+from .cluster import v_measure_score
 
-from .scorer import make_scorer, SCORERS
+from .pairwise import euclidean_distances
+from .pairwise import pairwise_distances
+from .pairwise import pairwise_distances_argmin
+from .pairwise import pairwise_distances_argmin_min
+from .pairwise import pairwise_kernels
 
-from . import cluster
-from .cluster import (adjusted_rand_score,
-                      adjusted_mutual_info_score,
-                      completeness_score,
-                      homogeneity_completeness_v_measure,
-                      homogeneity_score,
-                      mutual_info_score,
-                      normalized_mutual_info_score,
-                      silhouette_score,
-                      silhouette_samples,
-                      v_measure_score,
-                      consensus_score)
+from .regression import explained_variance_score
+from .regression import mean_absolute_error
+from .regression import mean_squared_error
+from .regression import r2_score
 
-from .pairwise import (euclidean_distances,
-                       pairwise_distances,
-                       pairwise_distances_argmin_min,
-                       pairwise_distances_argmin,
-                       pairwise_kernels)
+from .scorer import make_scorer
+from .scorer import SCORERS
+
+# Deprecated in 0.16
+from .ranking import auc_score
 
-__all__ = ['accuracy_score',
-           'adjusted_mutual_info_score',
-           'adjusted_rand_score',
-           'auc',
-           'roc_auc_score',
-           'average_precision_score',
-           'classification_report',
-           'cluster',
-           'completeness_score',
-           'confusion_matrix',
-           'euclidean_distances',
-           'pairwise_distances_argmin_min',
-           'explained_variance_score',
-           'f1_score',
-           'fbeta_score',
-           'hamming_loss',
-           'hinge_loss',
-           'homogeneity_completeness_v_measure',
-           'homogeneity_score',
-           'jaccard_similarity_score',
-           'label_ranking_average_precision_score',
-           'log_loss',
-           'matthews_corrcoef',
-           'mean_squared_error',
-           'mean_absolute_error',
-           'mutual_info_score',
-           'normalized_mutual_info_score',
-           'pairwise_distances',
-           'pairwise_distances_argmin',
-           'pairwise_distances_argmin_min',
-           'pairwise_kernels',
-           'precision_recall_curve',
-           'precision_recall_fscore_support',
-           'precision_score',
-           'r2_score',
-           'recall_score',
-           'roc_curve',
-           'silhouette_score',
-           'silhouette_samples',
-           'v_measure_score',
-           'consensus_score',
-           'zero_one_loss',
-           'make_scorer',
-           'SCORERS']
+__all__ = [
+    'accuracy_score',
+    'adjusted_mutual_info_score',
+    'adjusted_rand_score',
+    'auc',
+    'average_precision_score',
+    'classification_report',
+    'cluster',
+    'completeness_score',
+    'confusion_matrix',
+    'consensus_score',
+    'euclidean_distances',
+    'explained_variance_score',
+    'f1_score',
+    'fbeta_score',
+    'hamming_loss',
+    'hinge_loss',
+    'homogeneity_completeness_v_measure',
+    'homogeneity_score',
+    'jaccard_similarity_score',
+    'label_ranking_average_precision_score',
+    'log_loss',
+    'make_scorer',
+    'matthews_corrcoef',
+    'mean_absolute_error',
+    'mean_squared_error',
+    'mutual_info_score',
+    'normalized_mutual_info_score',
+    'pairwise_distances',
+    'pairwise_distances_argmin',
+    'pairwise_distances_argmin_min',
+    'pairwise_distances_argmin_min',
+    'pairwise_kernels',
+    'precision_recall_curve',
+    'precision_recall_fscore_support',
+    'precision_score',
+    'r2_score',
+    'recall_score',
+    'roc_auc_score',
+    'roc_curve',
+    'SCORERS',
+    'silhouette_samples',
+    'silhouette_score',
+    'v_measure_score',
+    'zero_one_loss',
+]
@@ -0,0 +1,123 @@
+"""
+Common code for all metrics
+
+"""
+# Authors: Alexandre Gramfort <alexandre.gramfort@inria.fr>
+#          Mathieu Blondel <mathieu@mblondel.org>
+#          Olivier Grisel <olivier.grisel@ensta.org>
+#          Arnaud Joly <a.joly@ulg.ac.be>
+#          Jochen Wersdorfer <jochen@wersdoerfer.de>
+#          Lars Buitinck <L.J.Buitinck@uva.nl>
+#          Joel Nothman <joel.nothman@gmail.com>
+#          Noel Dawe <noel@dawe.me>
+# License: BSD 3 clause
+
+from __future__ import division
+
+import numpy as np
+
+from ..utils import check_arrays
+from ..utils.multiclass import type_of_target
+
+
+class UndefinedMetricWarning(UserWarning):
+    pass
+
+
+def _average_binary_score(binary_metric, y_true, y_score, average,
+                          sample_weight=None):
+    """Average a binary metric for multilabel classification
+
+    Parameters
+    ----------
+    y_true : array, shape = [n_samples] or [n_samples, n_classes]
+        True binary labels in binary label indicators.
+
+    y_score : array, shape = [n_samples] or [n_samples, n_classes]
+        Target scores, can either be probability estimates of the positive
+        class, confidence values, or binary decisions.
+
+    average : string, [None, 'micro', 'macro' (default), 'samples', 'weighted']
+        If ``None``, the scores for each class are returned. Otherwise,
+        this determines the type of averaging performed on the data:
+
+        ``'micro'``:
+            Calculate metrics globally by considering each element of the label
+            indicator matrix as a label.
+        ``'macro'``:
+            Calculate metrics for each label, and find their unweighted
+            mean.  This does not take label imbalance into account.
+        ``'weighted'``:
+            Calculate metrics for each label, and find their average, weighted
+            by support (the number of true instances for each label).
+        ``'samples'``:
+            Calculate metrics for each instance, and find their average.
+
+    sample_weight : array-like of shape = [n_samples], optional
+        Sample weights.
+
+    Return
+    ------
+    score : float or array of shape [n_classes]
+        If not ``None``, average the score, else return the score for each
+        classes.
+
+    """
+    average_options = (None, 'micro', 'macro', 'weighted', 'samples')
+    if average not in average_options:
+        raise ValueError('average has to be one of {0}'
+                         ''.format(average_options))
+
+    y_type = type_of_target(y_true)
+    if y_type not in ("binary", "multilabel-indicator"):
+        raise ValueError("{0} format is not supported".format(y_type))
+
+    if y_type == "binary":
+        return binary_metric(y_true, y_score, sample_weight=sample_weight)
+
+    y_true, y_score = check_arrays(y_true, y_score)
+
+    not_average_axis = 1
+    score_weight = sample_weight
+    average_weight = None
+
+    if average == "micro":
+        if score_weight is not None:
+            score_weight = np.repeat(score_weight, y_true.shape[1])
+        y_true = y_true.ravel()
+        y_score = y_score.ravel()
+
+    elif average == 'weighted':
+        if score_weight is not None:
+            average_weight = np.sum(np.multiply(
+                y_true, np.reshape(score_weight, (-1, 1))), axis=0)
+        else:
+            average_weight = np.sum(y_true, axis=0)
+        if average_weight.sum() == 0:
+            return 0
+
+    elif average == 'samples':
+        # swap average_weight <-> score_weight
+        average_weight = score_weight
+        score_weight = None
+        not_average_axis = 0
+
+    if y_true.ndim == 1:
+        y_true = y_true.reshape((-1, 1))
+
+    if y_score.ndim == 1:
+        y_score = y_score.reshape((-1, 1))
+
+    n_classes = y_score.shape[not_average_axis]
+    score = np.zeros((n_classes,))
+    for c in range(n_classes):
+        y_true_c = y_true.take([c], axis=not_average_axis).ravel()
+        y_score_c = y_score.take([c], axis=not_average_axis).ravel()
+        score[c] = binary_metric(y_true_c, y_score_c,
+                                 sample_weight=score_weight)
+
+    # Average the results
+    if average is not None:
+        return np.average(score, weights=average_weight)
+    else:
+        return score