附錄：資料科學家——21 世紀最性感的工作 • 哈佛商業評論：管理者資料分析基礎指南

Thomas H. Davenport 與 D.J. Patil 經典文章。Patil 後來成為美國第一位首席資料科學家，並在 LinkedIn、eBay、PayPal 領導產品開發。

開場故事：LinkedIn 的「People You May Know」#

2006 年 6 月，Jonathan Goldman（Stanford 物理博士）剛加入 LinkedIn。那時公司還像新創——不到 800 萬個帳號，但成長飛快。問題是：

使用者並沒有像高層預期那樣積極與既有會員建立連結。

一位主管比喻：「就像走進一個會議酒會，發現一個都不認識，所以只好在角落啜飲一口酒——可能還很早就離開。」

Goldman 的洞察被忽視——直到 CEO 介入#

Goldman 開始探索使用者連結資料、形成假設，找出可預測「某個 profile 會落在誰的人脈圈」的模式。但工程團隊正忙於擴容，對他的點子興趣缺缺——「我們網站早就有通訊錄匯入了，使用者為什麼還需要我們替他們找人脈？」

幸好當時的 CEO Reid Hoffman（PayPal 出身、深信分析力量）給 Goldman 高度自主權，並讓他用「廣告版位」的形式繞開傳統產品發布流程，把小模組直接發布到熱門頁面。

一支廣告改變 LinkedIn 的成長軌跡#

Goldman 設計了一個自訂廣告：根據使用者個人檔案，展示三個最佳的潛在認識對象（同校、同公司）。

點擊率刷新歷史紀錄
進一步引入「三角閉合（triangle closing）」——你認識 Larry 與 Sue，那麼 Larry 與 Sue 很可能也彼此認識
把回應動作精簡到「一次點擊」即可完成

LinkedIn 高層立刻認可，把它升級成標準功能。「People You May Know」廣告的點擊率比其他造訪鼓勵高 30%，每月帶來數百萬次新頁面瀏覽。僅僅靠這一項功能，LinkedIn 的成長軌跡顯著上揚。

一個全新的物種#

「資料科學家（data scientist）」這個頭銜由 D.J. Patil 與 Jeff Hammerbacher（時任 LinkedIn 與 Facebook 的資料／分析主管）在 2008 年共同提出。

什麼樣的公司有「大數據機會」？#

儲存多 PB（petabytes）等級的資料
最關鍵的資訊不是行列數字格式
最大的問題需要多項分析「混搭（mashup）」

工具熱潮 vs. 人才缺口#

大數據熱潮讓 Hadoop（最廣泛使用的分散式檔案系統處理框架）、雲端、視覺化工具受到關注，但真正稀缺的是會用這些工具的人。Greylock Partners（曾投資 Facebook、LinkedIn、Palo Alto Networks、Workday）為了應對人才荒，自建專門的招募團隊。

Dan Portillo：「一旦公司有了資料，他們真正需要的，是能管理它、從中找出洞察的人。」

這些人是誰？#

沒有大學給他們學位#

至今還沒有大學設立資料科學學位
對於「他們在組織中的位置、貢獻與績效衡量方式」也沒有共識

他們真正在做什麼#

在資料中發現新事物——這是他們認識世界的方式
對混亂、龐大的資料，能賦予結構讓分析得以進行
串接多個資料來源（甚至不完整的來源）並清理
把組織的決策從「ad hoc 分析」轉變為「和資料持續對話」
不被技術限制困住，找出新解法
發現後懂得溝通：用視覺、敘事讓模式清楚有說服力
建議主管與產品經理：這對產品、流程、決策代表什麼？

他們經常自己造工具#

由於行業還很年輕，許多基礎工具是資料科學家自己打造的：

Yahoo 推動了 Hadoop 的早期發展
Facebook 的資料團隊建立了 Hive 語言
Google、Amazon、Microsoft、Walmart、eBay、LinkedIn、Twitter 也持續擴充工具集

一個完美資料科學家是什麼樣？#

把他們想成：資料駭客、分析師、溝通者、可信顧問的混合體。這個組合極為強大，也極為稀有。

共通技能#

寫程式：5 年後（隨頭銜更普及）這點重要性可能下降
更持久的核心：用每個利害關係人都聽得懂的語言溝通；用資料說故事——文字、視覺、最理想是兩者兼具

主要特質：強烈的好奇心#

他們渴望鑽到問題表面之下，找出核心問題並蒸餾成可以測試的明確假設。

舉例：一位資料科學家研究詐欺問題時，意識到它類似一種 DNA 序列分析問題。把這兩個世界橋接起來，他和團隊大幅減少了詐欺損失。

他們從哪裡來？#

最佳資料科學家常擁有生態學、系統生物學等冷僻領域的博士學位
Intuit 矽谷資料科學主管 George Roumeliotis 的博士領域是天體物理學
也有電腦科學、數學、經濟背景

「資料」這個詞容易把找人方向帶偏：
量化分析師擅長分析資料，但未必會處理大量非結構化資料
資料管理專家擅長產生與組織結構化資料，未必會把非結構化轉成結構化、也未必會分析
沒有強社交能力的人在傳統資料職可以混得不錯，但資料科學家絕對需要這項能力

Roumeliotis 怎麼面試#

不從統計或分析能力切入
先問「能不能用 Java 等主流程式語言寫雛形？」
再尋找心智習慣：對業務議題有感、對顧客有同理心
加上紮實的數學、統計、機率、計算機科學基礎
其餘的：用 OJT 與技術課程在職培養

補上人才缺口的努力#

多所大學正規劃資料科學學程
現有分析學程（如 NCSU 分析理學碩士）開始加入大數據練習
EMC 收購 Greenplum 後，自家 Education Services推出資料科學與大數據分析訓練與認證
Insight Data Science Fellows Program（由高能物理學家 Jake Klamka 創立的博士後研究員制度）：6 週時間 + Facebook、Twitter、Google、LinkedIn 等公司資料專家指導；原計畫招 10 人，最後從 200+ 申請者中錄取 30 人

怎麼找到你需要的資料科學家？#

招募 10 條建議：
鎖定「常見」名校：Stanford、MIT、Berkeley、Harvard、Carnegie Mellon；以及 NCSU、UC Santa Cruz、Maryland、Washington、UT Austin
翻找資料科學工具的使用者群——R User Groups、Python Interest Groups（PIGgies）
在 LinkedIn 上搜尋——他們幾乎全在那裡
出席 Strata、Structure:Data、Hadoop World 大會，或灣區、Boston、NYC、DC、London、Singapore、Sydney 的 meetup
跟在地創投打好關係，他們手上多半有近期的大數據提案
在 Kaggle 或 TopCoder 辦競賽，跟進最有創意的參賽者
不會寫程式的人，直接 pass——不需世界級，但要夠用，並能快速學習新技術
確認候選人能從資料中找出故事、講出連貫敘事——測試其數字溝通（口語與視覺）
警惕與商業世界脫節的候選人——問他「這項工作在你的管理問題中怎麼用？」若答不出來，是警訊
問他最愛的分析或洞察、如何持續精進技能——是否在 Stanford 的 ML 線上課程拿到證書、貢獻過開源專案、有 GitHub 公開作品庫

為什麼資料科學家想來你這裡？#

比起薪水更重要的是「站在艦橋上」#

「如果我們想處理結構化資料，我們會去華爾街。」

資料科學家的核心動機，是希望置身於正在演進的局勢中——能即時了解可能的選項。Davenport 與 Patil 把這稱為「站在艦橋（on the bridge）上」——出自 1960 年代影集《Star Trek》：艦長 Kirk 高度仰賴 Spock 的資料。

薪資仍是因素#

好的人才會收到很多 offer，薪資被推升
新創資料科學家拿到大量股票選擇權的不在少數
即使因為其他理由接受職位，薪資傳達了組織對這個角色的尊重與期待

為什麼顧問模式行不通？#

一些大型顧問公司（Accenture、Deloitte、IBM Global Services）正起步學帶大數據專案
但資料科學家想做東西、不想只給建議——一位形容當顧問是「死亡地帶——你只能告訴別人分析該怎麼用，做不了東西」

「養」資料科學家：怎麼做？#

資料科學家不適合短皮帶。

給他們自由，也給他們對的關係#

需要實驗與探索的空間
同時需要與業務緊密連結——尤其是與「產品與服務主管」，而不是「業務功能主管」
最大的價值不是給高層做報告，而是與面對客戶的產品與流程協作創新——回到 Goldman 的故事

多家公司的做法#

Intuit：資料科學家為小型企業客戶與消費者開發洞察，並向「大數據、社會設計、行銷」資深副總彙報
GE：用資料科學優化工業產品的服務契約與維護週期
Google：精煉核心搜尋與廣告演算法
Zynga：優化遊戲體驗，以提升長期參與度與營收
Netflix：知名的 Netflix Prize 獎勵改進電影推薦系統的團隊
Kaplan（升學考試準備）：找出有效的學習策略

別讓他們孤立——保持與同類交流#

完全把資料科學家撒到各事業單位，會讓他們失去與同類的互動——技能會生鏽、工具會落伍。

讓他們參與內部或外部的實踐社群、新興大會與非正式協會。「港口水位上升，所有船都浮起來」。

期待他們做更多#

當主管只要求簡單報告時，資料科學家就會把時間耗在資料的取用與整理上。主管要明確要求進階分析（預測、最佳化），他們才會投入。

「大數據（big data）不該等於小數學（small math）。」

接下來十年最熱門的工作#

Google 首席經濟學家 Hal Varian：「未來 10 年最性感的工作會是統計學家。大家以為我在開玩笑，但誰猜得到 1990 年代的性感工作會是電腦工程師？」

為什麼是「性感」？#

「性感」意味擁有稀有且高需求的特質。資料科學家：

難請、貴
因激烈競爭難留
同時擁有科學背景 + 計算與分析能力的人非常少

歷史的循環#

1980–1990 年代華爾街「quants」：物理、數學人才湧入投行與避險基金
大學後續推出金融工程碩士學程，培養出第二代、更平易近人的人才
1990 年代末搜尋工程師重複類似的故事

該不該等第二代出現？#

有人會問：「等第二代資料科學家更多、更便宜、更好整合，是不是更明智？」
問題是——大數據浪潮沒有放緩跡象。如果現在因為缺人才而袖手旁觀，競爭者與通路夥伴會建立難以撼動的優勢。

把大數據想成正在崛起、開始拍岸的史詩級巨浪。想要乘上它，你必須有會衝浪的人。