ENH avoid division by zero in LDA, also avoid reusing variable names.

amueller · amueller · commit f0026be214a7 · 2012-06-26T14:16:04.000+02:00
diff --git a/sklearn/lda.py b/sklearn/lda.py
@@ -146,19 +146,21 @@ def fit(self, X, y, store_covariance=False, tol=1.0e-4):
 
         # ----------------------------
         # 1) within (univariate) scaling by with classes std-dev
-        scaling = 1. / Xc.std(0)
+        std = Xc.std(axis=0)
+        # avoid division by zero in normalization
+        std[std == 0] = 1.
         fac = float(1) / (n_samples - n_classes)
         # ----------------------------
         # 2) Within variance scaling
-        X = np.sqrt(fac) * (Xc * scaling)
+        X = np.sqrt(fac) * (Xc / std)
         # SVD of centered (within)scaled data
         U, S, V = linalg.svd(X, full_matrices=0)
 
         rank = np.sum(S > tol)
         if rank < n_features:
             warnings.warn("Variables are collinear")
         # Scaling of within covariance is: V' 1/S
-        scaling = (scaling * V[:rank]).T / S[:rank]
+        scaling = (V[:rank] / std).T / S[:rank]
 
         ## ----------------------------
         ## 3) Between variance scaling