wukan1986
diff --git a/‎ml_cs/config.py‎
Lines changed: 20 additions & 23 deletions b/‎ml_cs/config.py‎
Lines changed: 20 additions & 23 deletions
diff --git a/‎ml_cs/pred.py‎
Lines changed: 15 additions & 7 deletions b/‎ml_cs/pred.py‎
Lines changed: 15 additions & 7 deletions
diff --git a/‎ml_cs/train_lasso.py‎
Lines changed: 1 addition & 1 deletion b/‎ml_cs/train_lasso.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎ml_cs/train_lgb.py‎
Lines changed: 24 additions & 15 deletions b/‎ml_cs/train_lgb.py‎
Lines changed: 24 additions & 15 deletions
diff --git a/‎ml_cs/utils.py‎
Lines changed: 5 additions & 4 deletions b/‎ml_cs/utils.py‎
Lines changed: 5 additions & 4 deletions
@@ -5,36 +5,30 @@
 """
 import polars as pl  # noqa
 import polars.selectors as cs  # noqa
-from polars_ta.prefix.wq import cs_zscore
 
 # %%
 DATE = "date"
 ASSET = "asset"
 LABEL = 'LABEL'  # 训练用的标签
-FWD_RET = 'FWD_RET'  # 计算净值必需提供1日收益率
+FWD_RET = 'FWD_RET'  # 计算净值必需提供日化收益率
 DATA_END = '2025-03'
 DATA_START = '2025-04'
 
-INPUT1_PATH = r'M:\preprocessing\out1.parquet'  # 添加了特征的数据
+INPUT1_PATH = r'M:\preprocessing\data5.parquet'  # 添加了特征的数据
 
 # %%
 MODEL_FILENAME = r'D:\GitHub\alpha_examples\ml_cs\models.pkl'  # 训练后保存的模型名
 PRED_PATH = 'pred.parquet'  # 预测结果
 PRED_EXCEL = 'pred.xlsx'  # 预测结果导出Excel
 
 # %%
-# TODO 丢弃的字段。保留的字段远远多余丢弃的字段，用丢弃法
-# 1. 对机器学习无意义的字段
-# 2. 留下日期、资产、多个特征、一标签、一未来收益
-drop_columns = [
-    'paused', 'factor',
-    'high_limit', 'low_limit',
-    'sw_l1', 'sw_l3', 'sw_l2', 'zjw',
-    '上海主板', '深圳主板', '科创板', '创业板', '北交所',
-    'NEXT_DOJI4',
-    'SSE50', 'CSI300', 'CSI500', 'CSI1000',
-    'pe_ratio', 'pb_ratio', 'ps_ratio', 'pcf_ratio', 'pe_ratio_lyr',
-    "ONE", "MC_LOG", "MC_NORM", 'market_cap', 'circulating_market_cap',
+# TODO 特征
+feature_columns = [
+    "MC_NEUT", "EP", "BP", "SP", "CFP",
+
+    "DOJI4",
+
+    "A_0001", "A_0002", "A_0003",
 ]
 
 # TODO 分类特征。布尔型号和少量的整数型，只在LightGBM中使用
@@ -45,21 +39,24 @@
     # '当前价格是否高于10日均线',
 ]
 
-exclude_columns = [
-]
-
 
 # %%
 def load_process():
     """加载数据，然后进行预处理"""
-    df = pl.read_parquet(INPUT1_PATH)
+    df: pl.DataFrame = pl.read_parquet(INPUT1_PATH)
     print(df.columns)
 
-    # 删除不需要的字段。留下日期、资产、多个特征、一标签、一未来收益
-    df = df.drop(drop_columns)
+    # 留下日期、资产、多个特征、一标签、一未来收益
+    df = df.select(DATE, ASSET, LABEL, FWD_RET, *feature_columns)
+
+    # 预处理，需要提前在其他地方处理好，这里不再处理
+    # df = df.with_columns(
+    #     cs_zscore(cs.float() & cs.exclude(DATE, ASSET, LABEL, FWD_RET, *exclude_columns)).over(DATE)
+    # )
 
-    # 预处理
+    # TODO 回归问题转换成分类问题
     df = df.with_columns(
-        cs_zscore(cs.float() & cs.exclude(DATE, ASSET, LABEL, FWD_RET, *exclude_columns)).over(DATE)
+        (pl.col(LABEL) > 0.00).cast(pl.UInt8)
     )
+    print(df[LABEL].value_counts())
     return df
@@ -1,9 +1,11 @@
 import joblib
+import numpy as np
 import polars as pl
 from alphainspect.reports import create_3x2_sheet
 from alphainspect.utils import with_factor_quantile
 from loguru import logger
 from matplotlib import pyplot as plt
+from sklearn.metrics import roc_auc_score, classification_report
 
 from ml_cs.config import DATE, ASSET, LABEL, MODEL_FILENAME, INPUT1_PATH, DATA_START, FWD_RET, load_process
 from ml_cs.utils import load_dates, get_XyOther, walk_forward
@@ -19,24 +21,30 @@
 logger.info('加载模型...')
 models = joblib.load(MODEL_FILENAME)
 
+# TODO 试验阶段is_test=True
+
is_test = Trueis_test = True
+
 
 # %% 预测
 def predict():
     trading_dates = load_dates(INPUT1_PATH, DATE)[DATA_START:]
 
     others = []
     for i, train_dt, test_dt in walk_forward(trading_dates,
-                                             n_splits=3, max_train_size=None, test_size=None, gap=0):
+                                             n_splits=1, max_train_size=None, test_size=None, gap=0):
         start, end = train_dt[0], test_dt[-1]
-        X, y, other = get_XyOther(df, start, end, DATE, ASSET, LABEL, FWD_RET, is_fit=False)
+
+        X_test, y_test, other = get_XyOther(df, start, end, DATE, ASSET, LABEL, FWD_RET, is_test=is_test)
 
         y_preds = {}
         for i, model in enumerate(models):
-            # print(f'{i}: {model.__class__.__name__}')
-            if hasattr(model, 'best_iteration'):
-                y_preds[f'y_pred_{i}'] = model.predict(X, num_iteration=model.best_iteration)
-            else:
-                y_preds[f'y_pred_{i}'] = model.predict(X)
+            num_iteration = model.best_iteration if hasattr(model, 'best_iteration') else None
+            pred_proba = model.predict(X_test, num_iteration=num_iteration)
+            print("预测概率范围:", pred_proba.min(), "~", pred_proba.max())
+            if is_test:
+                print("AUC分数:", roc_auc_score(y_test, pred_proba))
+                print(classification_report(y_test, (pred_proba > 0.5).astype(int), zero_division=np.nan))
+            y_preds[f'y_pred_{i}'] = pred_proba
         # TODO 预测值等权,可以按需进行权重分配
         result = other.with_columns(y_pred=pl.from_dict(y_preds).mean_horizontal())
         others.append(result)
 
@@ -24,7 +24,7 @@ def fit():
     for i, train_dt, test_dt in walk_forward(trading_dates,
                                              n_splits=5, max_train_size=None, test_size=30, gap=3):
         for start, end in (train_dt, test_dt):
-            X, y, other = get_XyOther(df, start, end, DATE, ASSET, LABEL, FWD_RET, is_fit=True)
+            X, y, other = get_XyOther(df, start, end, DATE, ASSET, LABEL, FWD_RET, is_test=True)
             break
 
         model = Lasso(
 
@@ -14,24 +14,33 @@
 
 # %%
 params = {
-    'boosting_type': 'gbdt',
-    'objective': 'mse',  # 损失函数
-    # 'metric': 'None',  # 评估函数，这里用feval来替代
+    # TODO 分类不平衡
+    'is_unbalance': True,  # 自动平衡正负样本
+    # 或者使用以下方式手动设置权重
+    # 'scale_pos_weight': 3,  # 假设正样本是少数类，放大10倍权重
+    # 或者更精确的类别权重
+    # 'class_weight': {0: 1, 1: 3},  # 为类别1设置更高权重
 
-    'max_depth': 8,
+    # TODO 分类
+    'objective': 'binary',
+    'metric': {'binary_logloss'},  # 评价函数选择
+
+    # # TODO 回归
+    # 'objective': 'mse',
+    # 'metric': {'l2'},  #评价函数选择
+
+    # 其他参数
+    'max_depth': -1,
     'num_leaves': 63,
-    'learning_rate': 0.05,
-    'min_data_in_leaf': 50,
-    'feature_fraction': 1.0,
-    'bagging_fraction': 1.0,
+    'learning_rate': 0.01,
+    'feature_fraction': 0.8,
+    'bagging_fraction': 0.9,
     'bagging_freq': 5,
     'lambda_l1': 0.0,
     'lambda_l2': 0.0,
-    'max_bin': 127,
     'verbose': -1,  # 不显示
     'device_type': 'cpu',
     'seed': 42,
-    'force_col_wise': True,
 }
 # %%
 df = load_process()
@@ -45,17 +54,17 @@ def fit():
 
     models = []
     for i, train_dt, test_dt in walk_forward(trading_dates,
-                                             n_splits=3, max_train_size=None, test_size=60, gap=3):
+                                             n_splits=1, max_train_size=None, test_size=60, gap=3):
         ds = []
         for start, end in (train_dt, test_dt):
-            X, y, other = get_XyOther(df, start, end, DATE, ASSET, LABEL, FWD_RET, is_fit=True)
+            X, y, other = get_XyOther(df, start, end, DATE, ASSET, LABEL, FWD_RET, is_test=True)
             ds.append(lgb.Dataset(X, label=y, categorical_feature=categorical_feature))
 
         evals_result = {}  # to record eval results for plotting
         model = lgb.train(
             params,
-            ds[0],
-            num_boost_round=500,
+            train_set=ds[0],
+            num_boost_round=300,
             valid_sets=ds,
             valid_names=['train', 'valid'],
             feval=None,  # 与早停相配合
@@ -74,7 +83,7 @@ def fit():
 # %% 模型评估
 def evaluate(models):
     _, ax = plt.subplots(1, 1, figsize=(10, 5))
-    plot_metric_errorbar(models, metric='l2', ax=ax)
+    plot_metric_errorbar(models, metric=list(params['metric'])[0], ax=ax)
     _, ax = plt.subplots(1, 1, figsize=(10, 5))
     plot_importance_box(models, ax=ax)
     plt.show()
 
@@ -100,7 +100,7 @@ def load_dates(path: str, date: str) -> pd.Series:
 
 
 def get_XyOther(df: pl.DataFrame, start: pd.Timestamp, end: pd.Timestamp,
-                date: str, asset: str, label: str, *fwd_ret: str, is_fit: bool) -> Tuple[pl.DataFrame, pl.DataFrame, pl.DataFrame]:
+                date: str, asset: str, label: str, *fwd_ret: str, is_test: bool) -> Tuple[pl.DataFrame, pl.DataFrame, pl.DataFrame]:
     """获取X y other
 
     Parameters
@@ -112,10 +112,11 @@ def get_XyOther(df: pl.DataFrame, start: pd.Timestamp, end: pd.Timestamp,
     asset
     label
     fwd_ret
-    is_fit:bool
+    is_test:bool
         是否用于训练。
         fit时，X和y都不能出现null
         predict时，X不能出现null,y无限制
+        但要验证predict效果时，y不能为hull
 
     Returns
     -------
@@ -128,7 +129,7 @@ def get_XyOther(df: pl.DataFrame, start: pd.Timestamp, end: pd.Timestamp,
     """
 
     df = df.filter(pl.col(date).is_between(start, end))
-    if is_fit:
+    if is_test:
         df = df.drop_nulls(subset=pl.exclude(*fwd_ret))
     else:
         df = df.drop_nulls(subset=pl.exclude(*fwd_ret, label))
@@ -137,7 +138,7 @@ def get_XyOther(df: pl.DataFrame, start: pd.Timestamp, end: pd.Timestamp,
     _y = df.select(date, asset, label)
     _other = df.select(date, asset, label, *fwd_ret)
 
-    # 转换成复合索引，还成正常输入到sklearn
+    # 转换成复合索引，可正常输入到sklearn
     _X = _X.to_pandas().set_index([date, asset])
     _y = _y.to_pandas().set_index([date, asset])