scikit-learn
diff --git a/‎doc/modules/feature_extraction.rst
Lines changed: 2 additions & 2 deletions b/‎doc/modules/feature_extraction.rst
Lines changed: 2 additions & 2 deletions
diff --git a/‎sklearn/feature_extraction/text.py
Lines changed: 22 additions & 4 deletions b/‎sklearn/feature_extraction/text.py
Lines changed: 22 additions & 4 deletions
@@ -409,8 +409,8 @@ class::
   >>> from sklearn.feature_extraction.text import TfidfTransformer
   >>> transformer = TfidfTransformer()
   >>> transformer   # doctest: +NORMALIZE_WHITESPACE +ELLIPSIS
-  TfidfTransformer(norm=...'l2', smooth_idf=True, sublinear_tf=False,
-                   use_idf=True)
+  TfidfTransformer(additional_idf=1, norm=...'l2', smooth_idf=True,
+           sublinear_tf=False, use_idf=True)
 
 Again please see the :ref:`reference documentation
 <text_feature_extraction_ref>` for the details on all the parameters.
 
@@ -952,6 +952,10 @@ class TfidfTransformer(BaseEstimator, TransformerMixin):
     sublinear_tf : boolean, default=False
         Apply sublinear tf scaling, i.e. replace tf with 1 + log(tf).
 
+    additional_idf : int, default=1
+        If you want to use the canonical formula tf-idf = tf * idf, set this
+        flag to 0. Otherwise, the real value of tf-idf is tf * (idf + 1)
+
     References
     ----------
 
@@ -964,11 +968,12 @@ class TfidfTransformer(BaseEstimator, TransformerMixin):
     """
 
     def __init__(self, norm='l2', use_idf=True, smooth_idf=True,
-                 sublinear_tf=False):
+                 sublinear_tf=False, additional_idf=1):
         self.norm = norm
         self.use_idf = use_idf
         self.smooth_idf = smooth_idf
         self.sublinear_tf = sublinear_tf
+        self.additional_idf = additional_idf
 
     def fit(self, X, y=None):
         """Learn the idf vector (global term weights)
@@ -990,7 +995,7 @@ def fit(self, X, y=None):
 
             # log+1 instead of log makes sure terms with zero idf don't get
             # suppressed entirely.
-            idf = np.log(float(n_samples) / df) + 1.0
+            idf = np.log(float(n_samples) / df) + self.additional_idf
             self._idf_diag = sp.spdiags(idf,
                                         diags=0, m=n_features, n=n_features)
 
@@ -1177,6 +1182,10 @@ class TfidfVectorizer(CountVectorizer):
     sublinear_tf : boolean, default=False
         Apply sublinear tf scaling, i.e. replace tf with 1 + log(tf).
 
+    additional_idf : int, default=1
+        If you want to use the canonical formula tf-idf = tf * idf, set this
+        flag to 0. Otherwise, the real value of tf-idf is tf * (idf + 1)
+
     Attributes
     ----------
     idf_ : array, shape = [n_features], or None
@@ -1216,7 +1225,7 @@ def __init__(self, input='content', encoding='utf-8',
                  ngram_range=(1, 1), max_df=1.0, min_df=1,
                  max_features=None, vocabulary=None, binary=False,
                  dtype=np.int64, norm='l2', use_idf=True, smooth_idf=True,
-                 sublinear_tf=False):
+                 sublinear_tf=False, additional_idf=1):
 
         super(TfidfVectorizer, self).__init__(
             input=input, encoding=encoding, decode_error=decode_error,
@@ -1229,7 +1238,8 @@ def __init__(self, input='content', encoding='utf-8',
 
         self._tfidf = TfidfTransformer(norm=norm, use_idf=use_idf,
                                        smooth_idf=smooth_idf,
-                                       sublinear_tf=sublinear_tf)
+                                       sublinear_tf=sublinear_tf,
+                                       additional_idf=additional_idf)
 
     # Broadcast the TF-IDF parameters to the underlying transformer instance
     # for easy grid search and repr
@@ -1266,6 +1276,14 @@ def sublinear_tf(self):
     def sublinear_tf(self, value):
         self._tfidf.sublinear_tf = value
 
+    @property
+    def additional_idf(self):
+        return self._tfidf.additional_idf
+
+    @sublinear_tf.setter
+    def additional_idf(self, value):
+        self._tfidf.additional_idf = value
+
     @property
     def idf_(self):
         return self._tfidf.idf_