Thomas H. Davenport 與 D.J. Patil 經典文章。Patil 後來成為美國第一位首席資料科學家,並在 LinkedIn、eBay、PayPal 領導產品開發。

開場故事:LinkedIn 的「People You May Know」#

2006 年 6 月,Jonathan Goldman(Stanford 物理博士)剛加入 LinkedIn。那時公司還像新創——不到 800 萬個帳號,但成長飛快。問題是:

使用者並沒有像高層預期那樣積極與既有會員建立連結

一位主管比喻:「就像走進一個會議酒會,發現一個都不認識,所以只好在角落啜飲一口酒——可能還很早就離開。」

Goldman 的洞察被忽視——直到 CEO 介入#

Goldman 開始探索使用者連結資料、形成假設,找出可預測「某個 profile 會落在誰的人脈圈」的模式。但工程團隊正忙於擴容,對他的點子興趣缺缺——「我們網站早就有通訊錄匯入了,使用者為什麼還需要我們替他們找人脈?」

幸好當時的 CEO Reid Hoffman(PayPal 出身、深信分析力量)給 Goldman 高度自主權,並讓他用「廣告版位」的形式繞開傳統產品發布流程,把小模組直接發布到熱門頁面。

一支廣告改變 LinkedIn 的成長軌跡#

Goldman 設計了一個自訂廣告:根據使用者個人檔案,展示三個最佳的潛在認識對象(同校、同公司)。

  • 點擊率刷新歷史紀錄
  • 進一步引入「三角閉合(triangle closing)」——你認識 Larry 與 Sue,那麼 Larry 與 Sue 很可能也彼此認識
  • 把回應動作精簡到「一次點擊」即可完成

LinkedIn 高層立刻認可,把它升級成標準功能。「People You May Know」廣告的點擊率比其他造訪鼓勵高 30%,每月帶來數百萬次新頁面瀏覽。僅僅靠這一項功能,LinkedIn 的成長軌跡顯著上揚

一個全新的物種#

資料科學家(data scientist)」這個頭銜由 D.J. Patil 與 Jeff Hammerbacher(時任 LinkedIn 與 Facebook 的資料/分析主管)在 2008 年共同提出。

什麼樣的公司有「大數據機會」?#

  • 儲存多 PB(petabytes)等級的資料
  • 最關鍵的資訊不是行列數字格式
  • 最大的問題需要多項分析「混搭(mashup)」

工具熱潮 vs. 人才缺口#

大數據熱潮讓 Hadoop(最廣泛使用的分散式檔案系統處理框架)、雲端、視覺化工具受到關注,但真正稀缺的是會用這些工具的人。Greylock Partners(曾投資 Facebook、LinkedIn、Palo Alto Networks、Workday)為了應對人才荒,自建專門的招募團隊

Dan Portillo:「一旦公司有了資料,他們真正需要的,是能管理它、從中找出洞察的人。」

這些人是誰?#

沒有大學給他們學位#

  • 至今還沒有大學設立資料科學學位
  • 對於「他們在組織中的位置、貢獻與績效衡量方式」也沒有共識

他們真正在做什麼#

  • 在資料中發現新事物——這是他們認識世界的方式
  • 對混亂、龐大的資料,能賦予結構讓分析得以進行
  • 串接多個資料來源(甚至不完整的來源)並清理
  • 把組織的決策從「ad hoc 分析」轉變為「和資料持續對話
  • 不被技術限制困住,找出新解法
  • 發現後懂得溝通:用視覺、敘事讓模式清楚有說服力
  • 建議主管與產品經理:這對產品、流程、決策代表什麼?

他們經常自己造工具#

由於行業還很年輕,許多基礎工具是資料科學家自己打造的:

  • Yahoo 推動了 Hadoop 的早期發展
  • Facebook 的資料團隊建立了 Hive 語言
  • Google、Amazon、Microsoft、Walmart、eBay、LinkedIn、Twitter 也持續擴充工具集

一個完美資料科學家是什麼樣?#

把他們想成:資料駭客、分析師、溝通者、可信顧問的混合體。這個組合極為強大,也極為稀有

共通技能#

  • 寫程式:5 年後(隨頭銜更普及)這點重要性可能下降
  • 更持久的核心:用每個利害關係人都聽得懂的語言溝通;用資料說故事——文字、視覺、最理想是兩者兼具

主要特質:強烈的好奇心#

他們渴望鑽到問題表面之下,找出核心問題並蒸餾成可以測試的明確假設

舉例:一位資料科學家研究詐欺問題時,意識到它類似一種 DNA 序列分析問題。把這兩個世界橋接起來,他和團隊大幅減少了詐欺損失。

他們從哪裡來?#

  • 最佳資料科學家常擁有生態學、系統生物學等冷僻領域的博士學位
  • Intuit 矽谷資料科學主管 George Roumeliotis 的博士領域是天體物理學
  • 也有電腦科學、數學、經濟背景

資料」這個詞容易把找人方向帶偏:

  • 量化分析師擅長分析資料,但未必會處理大量非結構化資料
  • 資料管理專家擅長產生與組織結構化資料,未必會把非結構化轉成結構化、也未必會分析
  • 沒有強社交能力的人在傳統資料職可以混得不錯,但資料科學家絕對需要這項能力

Roumeliotis 怎麼面試#

  • 不從統計或分析能力切入
  • 先問「能不能用 Java 等主流程式語言寫雛形?」
  • 再尋找心智習慣:對業務議題有感、對顧客有同理心
  • 加上紮實的數學、統計、機率、計算機科學基礎
  • 其餘的:用 OJT 與技術課程在職培養

補上人才缺口的努力#

  • 多所大學正規劃資料科學學程
  • 現有分析學程(如 NCSU 分析理學碩士)開始加入大數據練習
  • EMC 收購 Greenplum 後,自家 Education Services推出資料科學與大數據分析訓練與認證
  • Insight Data Science Fellows Program(由高能物理學家 Jake Klamka 創立的博士後研究員制度):6 週時間 + Facebook、Twitter、Google、LinkedIn 等公司資料專家指導;原計畫招 10 人,最後從 200+ 申請者中錄取 30 人

怎麼找到你需要的資料科學家?#

招募 10 條建議:

  1. 鎖定「常見」名校:Stanford、MIT、Berkeley、Harvard、Carnegie Mellon;以及 NCSU、UC Santa Cruz、Maryland、Washington、UT Austin
  2. 翻找資料科學工具的使用者群——R User GroupsPython Interest Groups(PIGgies)
  3. 在 LinkedIn 上搜尋——他們幾乎全在那裡
  4. 出席 Strata、Structure:Data、Hadoop World 大會,或灣區、Boston、NYC、DC、London、Singapore、Sydney 的 meetup
  5. 跟在地創投打好關係,他們手上多半有近期的大數據提案
  6. 在 Kaggle 或 TopCoder 辦競賽,跟進最有創意的參賽者
  7. 不會寫程式的人,直接 pass——不需世界級,但要夠用,並能快速學習新技術
  8. 確認候選人能從資料中找出故事、講出連貫敘事——測試其數字溝通(口語與視覺)
  9. 警惕與商業世界脫節的候選人——問他「這項工作在你的管理問題中怎麼用?」若答不出來,是警訊
  10. 問他最愛的分析或洞察、如何持續精進技能——是否在 Stanford 的 ML 線上課程拿到證書、貢獻過開源專案、有 GitHub 公開作品庫

為什麼資料科學家想來你這裡?#

比起薪水更重要的是「站在艦橋上#

「如果我們想處理結構化資料,我們會去華爾街。」

資料科學家的核心動機,是希望置身於正在演進的局勢中——能即時了解可能的選項。Davenport 與 Patil 把這稱為「站在艦橋(on the bridge)上」——出自 1960 年代影集《Star Trek》:艦長 Kirk 高度仰賴 Spock 的資料。

薪資仍是因素#

  • 好的人才會收到很多 offer,薪資被推升
  • 新創資料科學家拿到大量股票選擇權的不在少數
  • 即使因為其他理由接受職位,薪資傳達了組織對這個角色的尊重與期待

為什麼顧問模式行不通?#

  • 一些大型顧問公司(Accenture、Deloitte、IBM Global Services)正起步學帶大數據專案
  • 但資料科學家想做東西、不想只給建議——一位形容當顧問是「死亡地帶——你只能告訴別人分析該怎麼用,做不了東西

「養」資料科學家:怎麼做?#

資料科學家不適合短皮帶

給他們自由,也給他們對的關係#

  • 需要實驗與探索的空間
  • 同時需要與業務緊密連結——尤其是與「產品與服務主管」,而不是「業務功能主管」
  • 最大的價值不是給高層做報告,而是與面對客戶的產品與流程協作創新——回到 Goldman 的故事

多家公司的做法#

  • Intuit:資料科學家為小型企業客戶與消費者開發洞察,並向「大數據、社會設計、行銷」資深副總彙報
  • GE:用資料科學優化工業產品的服務契約與維護週期
  • Google:精煉核心搜尋與廣告演算法
  • Zynga:優化遊戲體驗,以提升長期參與度與營收
  • Netflix:知名的 Netflix Prize 獎勵改進電影推薦系統的團隊
  • Kaplan(升學考試準備):找出有效的學習策略

別讓他們孤立——保持與同類交流#

完全把資料科學家撒到各事業單位,會讓他們失去與同類的互動——技能會生鏽、工具會落伍。

讓他們參與內部或外部的實踐社群、新興大會與非正式協會。「港口水位上升,所有船都浮起來」。

期待他們做更多#

當主管只要求簡單報告時,資料科學家就會把時間耗在資料的取用與整理上。主管要明確要求進階分析(預測、最佳化),他們才會投入。

大數據(big data)不該等於小數學(small math)。

接下來十年最熱門的工作#

Google 首席經濟學家 Hal Varian:「未來 10 年最性感的工作會是統計學家。大家以為我在開玩笑,但誰猜得到 1990 年代的性感工作會是電腦工程師?」

為什麼是「性感」?#

「性感」意味擁有稀有且高需求的特質。資料科學家:

  • 難請、貴
  • 因激烈競爭難留
  • 同時擁有科學背景 + 計算與分析能力的人非常少

歷史的循環#

  • 1980–1990 年代華爾街「quants」:物理、數學人才湧入投行與避險基金
  • 大學後續推出金融工程碩士學程,培養出第二代、更平易近人的人才
  • 1990 年代末搜尋工程師重複類似的故事

該不該等第二代出現?#

有人會問:「等第二代資料科學家更多、更便宜、更好整合,是不是更明智?」

問題是——大數據浪潮沒有放緩跡象。如果現在因為缺人才而袖手旁觀,競爭者與通路夥伴會建立難以撼動的優勢

把大數據想成正在崛起、開始拍岸的史詩級巨浪。想要乘上它,你必須有會衝浪的人