這支團隊在2008年奧巴馬競選時就已存在并發(fā)揮作用。而這次,他們更動用了五倍于上屆的人員規(guī)模,且進行了更大規(guī)模與深入的數(shù)據(jù)挖掘。它幫助奧巴馬在獲取有效選民、投放廣告、募集資金方面起到一定作用。事實證明,奧巴馬募集到的資金盡管與對手羅姆尼募集的資金規(guī)模不相上下,但前者從普通民眾直接募集到的資金是后者的近兩倍。
在奧巴馬獲勝幾小時后,《時代》雜志刊發(fā)報道,揭示了這支團隊的部分運作情況。該報道發(fā)出后,多家不同類型媒體轉載,也引發(fā)了硅谷科技人士的熱議。
以下是虎嗅編譯內容:
大數(shù)據(jù)時代的總統(tǒng)選舉
文/MichaelScherer
在春季晚些時候,在幕后支持巴拉克•奧巴馬獲取勝利的數(shù)據(jù)處理團隊注意到,喬治·克魯尼在西岸對40-49歲的女性粉絲有莫大吸引力,這個群體無疑是為了在好萊塢與克魯尼——以及奧巴馬共進晚餐而最愿意掏錢的一支人群。(譯注:5月10日,喬治·克魯尼為奧巴馬舉辦籌資聚會,當晚籌得競選連任資金1500萬美元。)
所以,就像他們對待所有其他收集、存儲、分析的數(shù)據(jù)一樣(這些數(shù)據(jù)是他們?yōu)榱藠W巴馬的再次競選而在過去兩年收集的),奧巴馬競選連任的最高班底決定試試以上這個觀察是否正確。他們從東岸的名人里選擇到了一個對這個群體有相似吸引力的人,以圖復制“克魯尼競標”中產生的千萬美金效應。“我們有豐常多的選擇,但我們選擇了女星莎拉·杰西卡·帕克。”一名高級競選顧問解釋說。所以接下來與奧巴馬晚餐的競標誕生了:一個與他在帕克的紐約西村私宅吃上一頓的機會。(譯注:席位的公開售價是每位8萬美元。)
對公眾而言,他們不可能知道,“帕克競標”的想法來自于競選團隊對支持者的數(shù)據(jù)挖掘:他們喜歡競賽、小型宴會和名人。
首席科學家
從一開始,競選活動經理JimMessina已經打算要搞一次完全不同的、以度量驅動的競選活動,該競選的目的是政治,但是政治直覺可能并不是手段,數(shù)據(jù)是。“我們要用數(shù)據(jù)去衡量這場競選活動中的每一件事情。”他說,在接受這份工作后,他雇用了一個五倍規(guī)模于2008年競選時的分析部門,芝加哥競選總部還任命RayidGhani為“首席科學家”。此人是埃森哲技術實驗室的分析性研究帶頭人,他是知識發(fā)現(xiàn)和數(shù)據(jù)發(fā)掘這一應用科學領域的領軍人物,其技術常用于公司處理海量數(shù)據(jù)發(fā)掘客戶所好,比如將超市促銷的效率最大化。
2011年,Ghani在一次談話中透露,在政治活動中運用數(shù)據(jù)分析這一工具。他說難點在于如何充分利用在競選中可獲得的選民行動、行為、支持偏向方面的大量數(shù)據(jù)?,F(xiàn)在選民名冊與在公開市場上可得的用戶資料緊密相連,選民的姓名和住址則與很多資料可以相互參照,從雜志訂閱、房屋所有權證明,到狩獵執(zhí)照、信用積分(都有姓名和住址登記)。
除了這些資料,還有拉票活動、電話銀行的來電所提供的信息,以及其他任何與競選活動相聯(lián)系并自主提供的私人信息。加尼和他的團隊將試圖挖掘這一連串數(shù)據(jù)并預計出選民的選舉模式,這將使奧巴馬競選團隊的花費更加精確和有效率。
秘密進行
不過,這個幾十人數(shù)據(jù)分析團隊具體做了些什么,被嚴格保密。“他們是我們的核編碼。”當被問及都做了哪些工作時,競選發(fā)言人BenLaBolt如此說道。
在辦公室里,該團隊會給各個數(shù)據(jù)挖掘實驗進行神秘代碼命名,比如獨角鯨、追夢人。該團隊甚至在遠離其他競選工作人員的地方工作,在總部巨大辦公室的北邊盡頭,專設了一個沒有窗戶的房間。“科學家”們會為在白宮羅斯福廳的總統(tǒng)及他的高級幕僚發(fā)送常規(guī)工作報告,而更多的公開細節(jié)是不會透露的,競選團隊保護著他們自認為相對于羅姆尼團隊有制度優(yōu)勢的地方:即數(shù)據(jù)。
11月4日,一個高級競選顧問同意匿名向《時代》雜志講講他們的前沿工作,也同時要讓我們保證,除非競選結束,否則不能披露信息。他們披露了他們如何利用海量數(shù)據(jù)分析挖掘,幫助奧巴馬籌集到10億美金,如何重新制訂了電視廣告投放,如何做出“搖擺州”選民的詳細模型(該模型可用于提升利用電話、上門投遞郵件、社會化媒體等手段的效率)
如何籌集10億美金
奧巴馬團隊在2008年對高科技的運用贏得了無數(shù)贊美,但其成功也表明了一個巨大缺陷:數(shù)據(jù)庫太多了。那時,通過奧巴馬網(wǎng)站打電話的志愿者用的名單是一份賦閑在家者名單,這名單與在競選辦公室打電話人所用的名單是不一樣的。而動員投票名單也永遠不會與資金籌集名單重合。就像911之前的FBI和CIA:這兩支團隊絕不會共享數(shù)據(jù)。“我們早期意識到,民主黨的問題就在于數(shù)據(jù)庫太多了,”一個工作人員說,“數(shù)據(jù)庫之間不彼此碰頭。”所以在頭18個月里,競選團隊就創(chuàng)建了一個單一的巨大系統(tǒng),可以將從民調專家、籌款人、選戰(zhàn)一線員工、消費者數(shù)據(jù)庫、以及“搖擺州”民主黨主要選民檔案的社會化媒體聯(lián)系人與手機聯(lián)系人那里得到的所有數(shù)據(jù)都聚合到一塊。
這個組合起來的巨大數(shù)據(jù)并不僅僅讓競選團隊能夠發(fā)現(xiàn)選民并獲取他們的注意,還能讓數(shù)據(jù)處理團隊去做一些測試,看哪些類型的人有可能被某種特定的事情所打動或說服。比如,在辦公室里的電話名單上,不只是列出對方的名字與號碼,還用他們可能被說服的內容、以及競選團隊最重要的優(yōu)先訴求來排序。決定排序的因素中有四分之三是基本信息,比如年齡、姓別、種族、鄰居以及投票記錄。選民的消費者數(shù)據(jù)幫助完成這個圖譜。“我們可以預測哪些人會在網(wǎng)上捐錢,也可做出模型來看哪些人會用郵件捐。我們可以為志愿者建模。”一個用數(shù)據(jù)來創(chuàng)建預測文檔的高級顧問說,“最后,建模對我們來說變得是一種更重要的方式,相較于2008年而言,它讓我們工作得更有效率。”
比如在早期,競選團隊就發(fā)現(xiàn),在個人注意力最容易被重新吸納回來的人群里,2008年曾經退訂了競選郵件的那部分人是首要目標。策略師為特定地域的人群制作相應的測試??匆粋€本地志愿者撥打的電話效果,如何優(yōu)于一個從非搖擺州(比如加州)志愿者打來的電話。就像JimMessina說的,在整個競選活里,沒有數(shù)字做支撐的假設絕少存在。
新的大數(shù)據(jù)庫能讓競選團隊籌集到比他們曾預料到的更多的資金。到8月份,奧巴馬陣營里的每個人都認為他們達不到10億美金的籌集目標。“我們曾經有過很大爭議,我們甚至不能接受9億的目標。”一個對該過程接觸密切的高級官員說。但是,另一個人說,“結果到了夏天的時候,互聯(lián)網(wǎng)效應爆炸了。”
網(wǎng)上籌集到的資金極大一部分通過一個復雜的、以度量驅動的電郵營銷活動而來。在此時,數(shù)據(jù)收集與分析變得異常重要。很多給支持者的郵件只是測試,它們采用了不同的標題、發(fā)送者與訊息內容。在春天時,米歇爾·奧巴馬的郵件表現(xiàn)得最好,有時,競選總指揮Messina表現(xiàn)得比副總統(tǒng)拜登好。在很多時候,募集資金最多的人能比欠佳者多募十倍。
芝加哥總部發(fā)現(xiàn),注冊了“快速捐獻”計劃(該計劃允許在網(wǎng)上或者通過短信重復捐錢,而無須重新輸入信用卡信息)的人,捐出的資金是其他的捐獻者四倍。所以該計劃被拓展開來,然后以物質刺激加以激勵。在10月底時,該計劃是競選團隊對支持者傳遞信息的重要組成部分,第一次捐助者可以得到一個免費的保險桿貼紙。
預測產出
隨后,那些意在打開錢包的戲法接著又用于去拉動選票。分析團隊用了四組民調數(shù)據(jù),建立了一個關鍵州的詳細圖譜。據(jù)說,在過去的一個月內,分析團隊做了俄亥俄州29000人的民調,這是一個巨大的樣本,占了該州全部選民的0.5%,這可以讓團隊深入分析特定人口、地區(qū)組織在任何給定時刻里的趨勢。這是一個巨大的優(yōu)勢:當?shù)谝淮无q論后民意開始滑落的時候,他們可以去看哪些選民改換了立場,而哪些沒有。
正是這個數(shù)據(jù)庫,幫助競選團隊在10月份激流涌動的時候明確意識到:大部分俄亥俄州人不是奧巴馬的支持者,更像是羅姆尼因為9月份的失誤而丟掉的支持者。“我們比其他人鎮(zhèn)定多了。”一個官員說。民調數(shù)據(jù)與選民聯(lián)系人數(shù)據(jù)每晚都在所有可能想象的場景下被電腦處理、再處理。“我們每天晚上都在運行66000次選舉。”一個高級官員說,他描述了計算機如何模擬競選,以推算出奧巴馬在每個“搖擺州”的勝算。“每天早上,我們都會得出數(shù)據(jù)處理結果,告訴我們贏得這些州的機會在哪,從而我們去進行資源分配。”
線上,動員投票的工作首次嘗試大規(guī)模使用Facebook,以達到上門訪問者的效果。在競選的最后幾周里,下載了App的人們,會受到一些帶有他們在搖擺州朋友的圖片的信息。該訊息告訴他們,只要點擊一個按鈕,程序則會自動向目標選民發(fā)出鼓勵,推動他們采取恰當?shù)男袆?,比如登記參選、早點參選或奔赴投票站。競選團隊發(fā)現(xiàn),通過Facebook上朋友接受到如此信息的人有五分之一會響應,很大程度上這個訊息是來自他們認識的人。
數(shù)據(jù)也幫助了競選廣告的購買。與其依賴于外部媒體顧問來決定廣告應該在哪里出現(xiàn),Messina覺得不如將他的購買決策建立在內部大數(shù)據(jù)庫上。“我們可以通過一些真的很復雜的模型,精準定位選民。比如說,邁阿密戴德35歲以下的女性選民,如何定位?”一個官員說。結果是,競選團隊買了一些非傳統(tǒng)類劇集(如《混亂之子》、《行尸走肉》、《23號公寓的壞女孩》)之間的廣告時間,而回避了跟地方新聞挨著的廣告時間。奧巴馬團隊2012年的廣告購買比2008年高了多少呢?芝加哥方面有一個數(shù)字:“電視廣告效率提高了14%……這確保我們是通過廣告在與我們可勸服的選民對話。”那位官員說。
數(shù)據(jù)同樣讓團隊把總統(tǒng)送往通常在競選階段晚期不會送往的地方。8月份時,奧巴馬決定到社會化新聞網(wǎng)站Reddit去回答問題。許多總統(tǒng)的高級助手們甚至不知道這個網(wǎng)站是干嘛的。“為什么我們要把巴拉克·奧巴馬放在Reddit上?”一個官員問道,“因為一大堆我們的動員目標在Reddit上。”
數(shù)據(jù)驅動的決策對奧巴馬——這位第44位總統(tǒng)的續(xù)任起到了巨大作用,也是研究2012選舉中的一個關鍵元素。它也是一個信號——表明華盛頓那些基于直覺與經驗決策的競選人士的優(yōu)勢在急劇下降,取而代之的是數(shù)量分析專家與電腦程序員的工作,他們可以在大數(shù)據(jù)中獲取洞察。正如一位官員所說,“人們坐在一間密室里抽著雪茄,說:‘我們總是買《60分鐘》’的時代已結束。在政治領域,大數(shù)據(jù)的時代已經到來。”