為何資料整理是投資分析的起點#
資料一直都是證券分析與投資管理的關鍵投入。隨著大數據(big data)與機器學習(machine learning)興起,投資業者進入一個資料量大、速度快、種類多的時代,可運用的資訊空前豐富。
然而,把資料變成有用的資訊並不容易。坊間常說:「分析師花 80% 的時間在尋找、整理、清洗與分析資料,只有 20% 的時間用於建模。」
資料品質決定模型品質:garbage in, garbage out。任何投資策略的成功,都建立在資料被妥善整理、清洗與分析的前提之上。
本章介紹的工具與方法,是把原始資料轉化為投資分析輸入的第一步:分類資料、組織資料、視覺化資料、計算描述性統計量。
資料的分類方式#
依不同視角,可將資料分為三組對照:
- 數值型 vs 類別型
- 橫斷面 vs 時間序列 vs 縱橫資料
- 結構化 vs 非結構化
數值資料與類別資料#
**數值資料(numerical data,又稱 quantitative data)**為以數字表示的量測或計數結果,可細分:
- 連續資料(continuous data):在指定範圍內可取任意數值,例如股票報酬率、未來值
- 離散資料(discrete data):由計數產生,僅能取有限多個值,例如年付息次數 $m$
**類別資料(categorical data,又稱 qualitative data)**為描述觀察值性質或特徵的標籤,通常取值有限且互斥:
- 名目資料(nominal data):無法邏輯排序,例如 GICS 11 個產業類別
- 順序資料(ordinal data):可邏輯排序,例如晨星基金的星級評等、債券信用評等
區分依據:可進行有意義算術運算者為數值資料;以數字編碼的類別資料(如 GICS 代碼)仍屬類別資料。
橫斷面、時間序列、縱橫資料#
依資料蒐集方式分類:
- 時間序列(time series):同一觀察單位、同一變數,在離散且通常等距時點上的觀察序列
- 橫斷面(cross-sectional):同一時點對多個觀察單位的同一變數觀察值
- 縱橫資料(panel data):時間序列與橫斷面的混合,對多個觀察單位、跨時點、追蹤一或多個變數
結構化與非結構化#
- 結構化資料(structured data):以預先定義的格式高度組織,通常呈現可重複的模式
- 非結構化資料(unstructured data):缺乏傳統組織形式,常來自非傳統來源,屬於另類資料(alternative data)
組織資料#
陣列與資料表#
原始資料常被組織為一維陣列或二維矩陣(稱為資料表,data table)以利量化分析。
頻率分布#
**頻率分布(frequency distribution)**是以表格方式呈現資料如何在不同類別或數值區間中分布的工具:
- 絕對頻率:落在某區間(bin)的觀察數
- 相對頻率(relative frequency):絕對頻率除以總觀察數
- 累積相對頻率(cumulative relative frequency):由第一個區間累加到目前區間的相對頻率,呈現「小於上界」觀察值所占比例
列聯表#
**列聯表(contingency table)**同時呈現兩個或多個類別變數的頻率分布。常見應用:
- 評估分類模型表現的混淆矩陣(confusion matrix)
- 透過**卡方獨立性檢定(chi-square test of independence)**檢驗兩類別變數是否獨立
視覺化資料#
視覺化是以圖形呈現資料,目的是增進理解與洞察。本章涵蓋以下圖形類型:
- 直方圖(histogram):頻率分布的長條圖,展示數值資料分布
- 頻率多邊形(frequency polygon):連接各長條中點的折線圖
- 長條圖(bar chart):呈現類別資料的頻率,每個長條代表一類別;分組長條圖與堆疊長條圖可同時顯示多個類別變數
- 樹狀圖(tree-map):以彩色矩形面積反映類別的數值大小,巢狀矩形可呈現額外維度
- 詞雲(word cloud):以詞彙大小反映其在文字資料中出現的頻率
- 折線圖(line chart):呈現有序觀察值,尤其是時間序列;氣泡折線圖可加入第三維度
- 散布圖(scatter plot):呈現兩個數值變數的聯合變動;**散布圖矩陣(scatter plot matrix)**將多變數的兩兩散布圖整合
- 熱圖(heat map):以顏色光譜呈現表格資料,常用於頻率分布或相關係數矩陣
選擇圖型的關鍵在於目的:是為了探索/呈現分布、揭示變數關係,還是進行比較。
集中趨勢的衡量#
**母體(population)**是某一群體的所有成員;**樣本(sample)**是母體的子集。**參數(parameter)**用以描述母體,**樣本統計量(sample statistic)**則由樣本計算得出。
集中趨勢量度告訴我們資料「中心」位置:
平均數#
- 算術平均數(arithmetic mean):觀察值總和除以觀察數,是最常用的集中趨勢量度
- 中位數(median):排序後的中間值;不受極端值影響,特別適合偏態分布
- 眾數(mode):出現頻率最高的值;唯一能用於名目資料的集中趨勢量度,可能無、單、雙或多眾數
加權平均、幾何平均與調和平均#
- 加權平均(weighted mean):例如投資組合報酬率,以資產權重對個別報酬加權
- 幾何平均(geometric mean):給定 $X_1, X_2, \dots, X_n$(皆 $\geq 0$),定義為
$$ \bar{X}G = \left(\prod{i=1}^{n} X_i\right)^{1/n} $$
特別適合計算時間序列資料的複合成長率;只要觀察值存在變異,幾何平均總小於算術平均
- 調和平均(harmonic mean):以觀察值倒數加權,特別適用於價格平均(如美元成本平均策略)
分位數與分散程度#
分位數#
**分位數(quantiles)**將分布分割成等比例的位置量數:
- 中位數:對半分
- 四分位數(quartiles):四等分
- 十分位數(deciles):十等分
- 百分位數(percentiles):百等分
箱形圖(box and whiskers plot)以箱身顯示四分位距(interquartile range, IQR),以鬚線顯示更廣的分散範圍。
分散程度量度#
分散程度量度描述觀察值圍繞算術平均的變異程度:
- 全距(range):最大值減最小值,僅用兩筆觀察值資訊,用途有限
- 平均絕對偏差(mean absolute deviation, MAD):觀察值與平均的絕對差之平均
- 變異數(variance):平方偏差的平均;樣本變異數 $s^2$ 採用 $n-1$ 為除數
- 標準差(standard deviation):變異數的正平方根
- 目標下方偏差(target downside deviation):僅納入低於目標 $B$ 的觀察值的平方偏差,衡量低於目標的風險
- 變異係數(coefficient of variation, CV):標準差除以平均,去單位後可在不同尺度資料集間直接比較
分布的形狀#
偏態#
**偏態(skewness)**衡量分布相對於平均的不對稱程度:
- 正偏(positive skewness):相對常態分布有許多小幅損失與少數極端收益,右尾較長
- 負偏(negative skewness):相對常態分布有許多小幅收益與少數極端損失,左尾較長
- 零偏:對稱分布
峰態#
**峰態(kurtosis)**衡量分布尾部相對整體的權重:
- 厚尾/高峰態(fat-tailed / leptokurtic):尾部比常態分布厚
- 薄尾/低峰態(thin-tailed / platykurtic):尾部比常態分布薄
- 超額峰態(excess kurtosis):峰態減 3(常態分布的峰態為 3)
投資報酬常呈現負偏與厚尾,意即極端虧損發生的機率高於常態分布所暗示者。忽略此事實可能嚴重低估下方風險。
兩變數的相關性#
**相關係數(correlation coefficient)**衡量兩變數之間的線性關聯強度,定義為共變異數除以兩變數標準差之積:
$$ r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} $$
- 正相關係數:兩變數傾向同向變動
- 負相關係數:兩變數傾向反向變動
- 範圍在 $[-1, 1]$
相關不等於因果(correlation does not imply causation)。評估相關性時須留意離群值(outliers)與**虛假相關(spurious correlation)**的可能性。
本章重點回顧#
- 資料可從三個視角分類:數值 vs 類別、橫斷面 vs 時間序列 vs 縱橫、結構化 vs 非結構化
- 頻率分布與列聯表是組織資料的基礎工具;列聯表可延伸至混淆矩陣與卡方檢定
- 視覺化工具的選擇取決於目的(呈現分布、揭示關係或進行比較)
- 集中趨勢量度包括平均(算術、加權、幾何、調和)、中位數、眾數
- 分散程度量度包括全距、MAD、變異數、標準差、目標下方偏差、變異係數
- 偏態與峰態描述分布形狀;投資報酬常呈現負偏與厚尾
- 相關係數量化兩變數的線性關聯,但相關不等於因果