Organizing, Visualizing, and Describing Data • 量化投資分析（CFA Institute）

為何資料整理是投資分析的起點#

資料一直都是證券分析與投資管理的關鍵投入。隨著大數據（big data）與機器學習（machine learning）興起，投資業者進入一個資料量大、速度快、種類多的時代，可運用的資訊空前豐富。

然而，把資料變成有用的資訊並不容易。坊間常說：「分析師花 80% 的時間在尋找、整理、清洗與分析資料，只有 20% 的時間用於建模。」

資料品質決定模型品質：garbage in, garbage out。任何投資策略的成功，都建立在資料被妥善整理、清洗與分析的前提之上。

本章介紹的工具與方法，是把原始資料轉化為投資分析輸入的第一步：分類資料、組織資料、視覺化資料、計算描述性統計量。

資料的分類方式#

依不同視角，可將資料分為三組對照：

數值型 vs 類別型
橫斷面 vs 時間序列 vs 縱橫資料
結構化 vs 非結構化

數值資料與類別資料#

**數值資料（numerical data，又稱 quantitative data）**為以數字表示的量測或計數結果，可細分：

連續資料（continuous data）：在指定範圍內可取任意數值，例如股票報酬率、未來值
離散資料（discrete data）：由計數產生，僅能取有限多個值，例如年付息次數 $m$

**類別資料（categorical data，又稱 qualitative data）**為描述觀察值性質或特徵的標籤，通常取值有限且互斥：

名目資料（nominal data）：無法邏輯排序，例如 GICS 11 個產業類別
順序資料（ordinal data）：可邏輯排序，例如晨星基金的星級評等、債券信用評等

區分依據：可進行有意義算術運算者為數值資料；以數字編碼的類別資料（如 GICS 代碼）仍屬類別資料。

橫斷面、時間序列、縱橫資料#

依資料蒐集方式分類：

時間序列（time series）：同一觀察單位、同一變數，在離散且通常等距時點上的觀察序列
橫斷面（cross-sectional）：同一時點對多個觀察單位的同一變數觀察值
縱橫資料（panel data）：時間序列與橫斷面的混合，對多個觀察單位、跨時點、追蹤一或多個變數

結構化與非結構化#

結構化資料（structured data）：以預先定義的格式高度組織，通常呈現可重複的模式
非結構化資料（unstructured data）：缺乏傳統組織形式，常來自非傳統來源，屬於另類資料（alternative data）

組織資料#

陣列與資料表#

原始資料常被組織為一維陣列或二維矩陣（稱為資料表，data table）以利量化分析。

頻率分布#

**頻率分布（frequency distribution）**是以表格方式呈現資料如何在不同類別或數值區間中分布的工具：

絕對頻率：落在某區間（bin）的觀察數
相對頻率（relative frequency）：絕對頻率除以總觀察數
累積相對頻率（cumulative relative frequency）：由第一個區間累加到目前區間的相對頻率，呈現「小於上界」觀察值所占比例

列聯表#

**列聯表（contingency table）**同時呈現兩個或多個類別變數的頻率分布。常見應用：

評估分類模型表現的混淆矩陣（confusion matrix）
透過**卡方獨立性檢定（chi-square test of independence）**檢驗兩類別變數是否獨立

視覺化資料#

視覺化是以圖形呈現資料，目的是增進理解與洞察。本章涵蓋以下圖形類型：

直方圖（histogram）：頻率分布的長條圖，展示數值資料分布
頻率多邊形（frequency polygon）：連接各長條中點的折線圖
長條圖（bar chart）：呈現類別資料的頻率，每個長條代表一類別；分組長條圖與堆疊長條圖可同時顯示多個類別變數
樹狀圖（tree-map）：以彩色矩形面積反映類別的數值大小，巢狀矩形可呈現額外維度
詞雲（word cloud）：以詞彙大小反映其在文字資料中出現的頻率
折線圖（line chart）：呈現有序觀察值，尤其是時間序列；氣泡折線圖可加入第三維度
散布圖（scatter plot）：呈現兩個數值變數的聯合變動；**散布圖矩陣（scatter plot matrix）**將多變數的兩兩散布圖整合
熱圖（heat map）：以顏色光譜呈現表格資料，常用於頻率分布或相關係數矩陣

選擇圖型的關鍵在於目的：是為了探索/呈現分布、揭示變數關係，還是進行比較。

集中趨勢的衡量#

**母體（population）**是某一群體的所有成員；**樣本（sample）**是母體的子集。**參數（parameter）**用以描述母體，**樣本統計量（sample statistic）**則由樣本計算得出。

集中趨勢量度告訴我們資料「中心」位置：

平均數#

算術平均數（arithmetic mean）：觀察值總和除以觀察數，是最常用的集中趨勢量度
中位數（median）：排序後的中間值；不受極端值影響，特別適合偏態分布
眾數（mode）：出現頻率最高的值；唯一能用於名目資料的集中趨勢量度，可能無、單、雙或多眾數

加權平均、幾何平均與調和平均#

加權平均（weighted mean）：例如投資組合報酬率，以資產權重對個別報酬加權
幾何平均（geometric mean）：給定 $X_1, X_2, \dots, X_n$（皆 $\geq 0$），定義為

$$ \bar{X}G = \left(\prod{i=1}^{n} X_i\right)^{1/n} $$

特別適合計算時間序列資料的複合成長率；只要觀察值存在變異，幾何平均總小於算術平均

調和平均（harmonic mean）：以觀察值倒數加權，特別適用於價格平均（如美元成本平均策略）

分位數與分散程度#

分位數#

**分位數（quantiles）**將分布分割成等比例的位置量數：

中位數：對半分
四分位數（quartiles）：四等分
十分位數（deciles）：十等分
百分位數（percentiles）：百等分

箱形圖（box and whiskers plot）以箱身顯示四分位距（interquartile range, IQR），以鬚線顯示更廣的分散範圍。

分散程度量度#

分散程度量度描述觀察值圍繞算術平均的變異程度：

全距（range）：最大值減最小值，僅用兩筆觀察值資訊，用途有限
平均絕對偏差（mean absolute deviation, MAD）：觀察值與平均的絕對差之平均
變異數（variance）：平方偏差的平均；樣本變異數 $s^2$ 採用 $n-1$ 為除數
標準差（standard deviation）：變異數的正平方根
目標下方偏差（target downside deviation）：僅納入低於目標 $B$ 的觀察值的平方偏差，衡量低於目標的風險
變異係數（coefficient of variation, CV）：標準差除以平均，去單位後可在不同尺度資料集間直接比較

分布的形狀#

偏態#

**偏態（skewness）**衡量分布相對於平均的不對稱程度：

正偏（positive skewness）：相對常態分布有許多小幅損失與少數極端收益，右尾較長
負偏（negative skewness）：相對常態分布有許多小幅收益與少數極端損失，左尾較長
零偏：對稱分布

峰態#

**峰態（kurtosis）**衡量分布尾部相對整體的權重：

厚尾／高峰態（fat-tailed / leptokurtic）：尾部比常態分布厚
薄尾／低峰態（thin-tailed / platykurtic）：尾部比常態分布薄
超額峰態（excess kurtosis）：峰態減 3（常態分布的峰態為 3）

投資報酬常呈現負偏與厚尾，意即極端虧損發生的機率高於常態分布所暗示者。忽略此事實可能嚴重低估下方風險。

兩變數的相關性#

**相關係數（correlation coefficient）**衡量兩變數之間的線性關聯強度，定義為共變異數除以兩變數標準差之積：

$$ r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} $$

正相關係數：兩變數傾向同向變動
負相關係數：兩變數傾向反向變動
範圍在 $[-1, 1]$

相關不等於因果（correlation does not imply causation）。評估相關性時須留意離群值（outliers）與**虛假相關（spurious correlation）**的可能性。

本章重點回顧#

資料可從三個視角分類：數值 vs 類別、橫斷面 vs 時間序列 vs 縱橫、結構化 vs 非結構化
頻率分布與列聯表是組織資料的基礎工具；列聯表可延伸至混淆矩陣與卡方檢定
視覺化工具的選擇取決於目的（呈現分布、揭示關係或進行比較）
集中趨勢量度包括平均（算術、加權、幾何、調和）、中位數、眾數
分散程度量度包括全距、MAD、變異數、標準差、目標下方偏差、變異係數
偏態與峰態描述分布形狀；投資報酬常呈現負偏與厚尾
相關係數量化兩變數的線性關聯，但相關不等於因果