為何資料整理是投資分析的起點#

資料一直都是證券分析與投資管理的關鍵投入。隨著大數據(big data)與機器學習(machine learning)興起,投資業者進入一個資料量大、速度快、種類多的時代,可運用的資訊空前豐富。

然而,把資料變成有用的資訊並不容易。坊間常說:「分析師花 80% 的時間在尋找、整理、清洗與分析資料,只有 20% 的時間用於建模。」

資料品質決定模型品質:garbage in, garbage out。任何投資策略的成功,都建立在資料被妥善整理、清洗與分析的前提之上。

本章介紹的工具與方法,是把原始資料轉化為投資分析輸入的第一步:分類資料、組織資料、視覺化資料、計算描述性統計量。

資料的分類方式#

依不同視角,可將資料分為三組對照:

  • 數值型 vs 類別型
  • 橫斷面 vs 時間序列 vs 縱橫資料
  • 結構化 vs 非結構化

數值資料與類別資料#

**數值資料(numerical data,又稱 quantitative data)**為以數字表示的量測或計數結果,可細分:

  • 連續資料(continuous data):在指定範圍內可取任意數值,例如股票報酬率、未來值
  • 離散資料(discrete data):由計數產生,僅能取有限多個值,例如年付息次數 $m$

**類別資料(categorical data,又稱 qualitative data)**為描述觀察值性質或特徵的標籤,通常取值有限且互斥:

  • 名目資料(nominal data):無法邏輯排序,例如 GICS 11 個產業類別
  • 順序資料(ordinal data):可邏輯排序,例如晨星基金的星級評等、債券信用評等

區分依據:可進行有意義算術運算者為數值資料;以數字編碼的類別資料(如 GICS 代碼)仍屬類別資料。

橫斷面、時間序列、縱橫資料#

依資料蒐集方式分類:

  • 時間序列(time series):同一觀察單位、同一變數,在離散且通常等距時點上的觀察序列
  • 橫斷面(cross-sectional):同一時點對多個觀察單位的同一變數觀察值
  • 縱橫資料(panel data):時間序列與橫斷面的混合,對多個觀察單位、跨時點、追蹤一或多個變數

結構化與非結構化#

  • 結構化資料(structured data):以預先定義的格式高度組織,通常呈現可重複的模式
  • 非結構化資料(unstructured data):缺乏傳統組織形式,常來自非傳統來源,屬於另類資料(alternative data)

組織資料#

陣列與資料表#

原始資料常被組織為一維陣列二維矩陣(稱為資料表,data table)以利量化分析。

頻率分布#

**頻率分布(frequency distribution)**是以表格方式呈現資料如何在不同類別或數值區間中分布的工具:

  • 絕對頻率:落在某區間(bin)的觀察數
  • 相對頻率(relative frequency):絕對頻率除以總觀察數
  • 累積相對頻率(cumulative relative frequency):由第一個區間累加到目前區間的相對頻率,呈現「小於上界」觀察值所占比例

列聯表#

**列聯表(contingency table)**同時呈現兩個或多個類別變數的頻率分布。常見應用:

  • 評估分類模型表現的混淆矩陣(confusion matrix)
  • 透過**卡方獨立性檢定(chi-square test of independence)**檢驗兩類別變數是否獨立

視覺化資料#

視覺化是以圖形呈現資料,目的是增進理解與洞察。本章涵蓋以下圖形類型:

  • 直方圖(histogram):頻率分布的長條圖,展示數值資料分布
  • 頻率多邊形(frequency polygon):連接各長條中點的折線圖
  • 長條圖(bar chart):呈現類別資料的頻率,每個長條代表一類別;分組長條圖與堆疊長條圖可同時顯示多個類別變數
  • 樹狀圖(tree-map):以彩色矩形面積反映類別的數值大小,巢狀矩形可呈現額外維度
  • 詞雲(word cloud):以詞彙大小反映其在文字資料中出現的頻率
  • 折線圖(line chart):呈現有序觀察值,尤其是時間序列;氣泡折線圖可加入第三維度
  • 散布圖(scatter plot):呈現兩個數值變數的聯合變動;**散布圖矩陣(scatter plot matrix)**將多變數的兩兩散布圖整合
  • 熱圖(heat map):以顏色光譜呈現表格資料,常用於頻率分布或相關係數矩陣

選擇圖型的關鍵在於目的:是為了探索/呈現分布、揭示變數關係,還是進行比較。

集中趨勢的衡量#

**母體(population)**是某一群體的所有成員;**樣本(sample)**是母體的子集。**參數(parameter)**用以描述母體,**樣本統計量(sample statistic)**則由樣本計算得出。

集中趨勢量度告訴我們資料「中心」位置:

平均數#

  • 算術平均數(arithmetic mean):觀察值總和除以觀察數,是最常用的集中趨勢量度
  • 中位數(median):排序後的中間值;不受極端值影響,特別適合偏態分布
  • 眾數(mode):出現頻率最高的值;唯一能用於名目資料的集中趨勢量度,可能無、單、雙或多眾數

加權平均、幾何平均與調和平均#

  • 加權平均(weighted mean):例如投資組合報酬率,以資產權重對個別報酬加權
  • 幾何平均(geometric mean):給定 $X_1, X_2, \dots, X_n$(皆 $\geq 0$),定義為

$$ \bar{X}G = \left(\prod{i=1}^{n} X_i\right)^{1/n} $$

特別適合計算時間序列資料的複合成長率;只要觀察值存在變異,幾何平均總小於算術平均

  • 調和平均(harmonic mean):以觀察值倒數加權,特別適用於價格平均(如美元成本平均策略)

分位數與分散程度#

分位數#

**分位數(quantiles)**將分布分割成等比例的位置量數:

  • 中位數:對半分
  • 四分位數(quartiles):四等分
  • 十分位數(deciles):十等分
  • 百分位數(percentiles):百等分

箱形圖(box and whiskers plot)以箱身顯示四分位距(interquartile range, IQR),以鬚線顯示更廣的分散範圍。

分散程度量度#

分散程度量度描述觀察值圍繞算術平均的變異程度:

  • 全距(range):最大值減最小值,僅用兩筆觀察值資訊,用途有限
  • 平均絕對偏差(mean absolute deviation, MAD):觀察值與平均的絕對差之平均
  • 變異數(variance):平方偏差的平均;樣本變異數 $s^2$ 採用 $n-1$ 為除數
  • 標準差(standard deviation):變異數的正平方根
  • 目標下方偏差(target downside deviation):僅納入低於目標 $B$ 的觀察值的平方偏差,衡量低於目標的風險
  • 變異係數(coefficient of variation, CV):標準差除以平均,去單位後可在不同尺度資料集間直接比較

分布的形狀#

偏態#

**偏態(skewness)**衡量分布相對於平均的不對稱程度:

  • 正偏(positive skewness):相對常態分布有許多小幅損失與少數極端收益,右尾較長
  • 負偏(negative skewness):相對常態分布有許多小幅收益與少數極端損失,左尾較長
  • 零偏:對稱分布

峰態#

**峰態(kurtosis)**衡量分布尾部相對整體的權重:

  • 厚尾/高峰態(fat-tailed / leptokurtic):尾部比常態分布厚
  • 薄尾/低峰態(thin-tailed / platykurtic):尾部比常態分布薄
  • 超額峰態(excess kurtosis):峰態減 3(常態分布的峰態為 3)

投資報酬常呈現負偏與厚尾,意即極端虧損發生的機率高於常態分布所暗示者。忽略此事實可能嚴重低估下方風險。

兩變數的相關性#

**相關係數(correlation coefficient)**衡量兩變數之間的線性關聯強度,定義為共變異數除以兩變數標準差之積:

$$ r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} $$

  • 正相關係數:兩變數傾向同向變動
  • 負相關係數:兩變數傾向反向變動
  • 範圍在 $[-1, 1]$

相關不等於因果(correlation does not imply causation)。評估相關性時須留意離群值(outliers)與**虛假相關(spurious correlation)**的可能性。

本章重點回顧#

  • 資料可從三個視角分類:數值 vs 類別、橫斷面 vs 時間序列 vs 縱橫、結構化 vs 非結構化
  • 頻率分布與列聯表是組織資料的基礎工具;列聯表可延伸至混淆矩陣與卡方檢定
  • 視覺化工具的選擇取決於目的(呈現分布、揭示關係或進行比較)
  • 集中趨勢量度包括平均(算術、加權、幾何、調和)、中位數、眾數
  • 分散程度量度包括全距、MAD、變異數、標準差、目標下方偏差、變異係數
  • 偏態與峰態描述分布形狀;投資報酬常呈現負偏與厚尾
  • 相關係數量化兩變數的線性關聯,但相關不等於因果