AI量化策略構建流程
類比挑瓜過程,我們可以對AI量化策略流程進行分解:
第壹步:確定數據(如股票池),劃分訓練集、測試集
首先我們應明確我們構建何種AI量化策略,如A股、港股還是期貨等,確定數據後,接著我們把歷史數據按時間順序切分為兩部分,類比於分瓜任務中的兩堆瓜。
訓練集: 第壹部分的數據用來訓練模型,類比第壹堆瓜;
驗證集: 第二部分的數據用來驗證模型效果,類比第二堆瓜;
第二步:定目標:數據標註
其次我們要明確我們模型的訓練目標,是預測股票收益率高低還是波動率高低,就好比是預測西瓜好壞還是年份;
在樣例模板中,我們用5日收益率高低來定義股票的走勢好壞等級,並將每只對應等級標記在每只股票上,類比於上述切瓜後記錄每個瓜的好壞。
AI量化策略的目標(Label):人為定義的模型預測目標,例如未來N日收益率、未來N日波動率、未來N日的收益率排序等統計量,平臺AI量化策略默認使用股票收益率作為目標。
AI量化策略的標註: 我們計算訓練集數據所在時間階段的每日目標值,比如按每日的未來N日收益率高低來定義股票的走勢好壞等級,計算出每只股票未來N日收益率的好壞等級並標記在每只股票上。
第三步:找因子
選擇構建可能影響目標的特征(量化策略中可稱為因子),如模板策略中的return_5(5日收益)、return_10(10日收益)等,類比於瓜的產地、大小等特征。
AI量化策略的特征(features): 反映事物在某方面的表現或性質的事項,在AI量化策略中,特征可以是換手率、市盈率、KDJ技術指標等等
第四步:數據連接+缺失數據處理
將上述每只股票的標註數據與特征數據註意鏈接,以便下壹步模型的學習與使用,類比於上述將每個西瓜特征與好壞壹壹對應;
第五步:模型訓練+股票預測
我們通過“好壞等級”對股票進行標註,貼上標簽,連同其所對應的特征值壹起來構建訓練模型,類比於上述我們獲取每個瓜的特征與其對應的好壞結果,通過歸納總結找到瓜的好壞與瓜的屬性之間的關聯,總結出瓜的分類經驗;
用驗證集數據來檢驗訓練前面構建好的模型,即檢驗模型根據驗證集的特征數據預測出的目標值(股票走勢好壞等級)是否準確。這步類比於鑒瓜任務中根據第壹堆瓜總結的鑒瓜經驗用第二堆西瓜的大小、顏色等特征數據來判斷預測瓜的好壞。
第六步:回測
將驗證集的預測結果放入歷史真實數據中檢測,類比於鑒瓜過程中根據第二堆瓜預測出瓜的好壞最後進行切瓜驗證。