第三章 分析我們的資料(節錄)
【溯及既往的監控】
當你把資料探勘科技應用在大眾監控的資料上時,還可以做一件新的事情,那就是時間回溯。傳統的監控只能知道現在和未來:「跟蹤他,看他接下來要去哪兒。」但你如果有一個資料庫,裡面有所有人過去的監控資訊,你就可以做點不一樣的事:「查一下這個人的位置資訊,找出他曾去過哪裡。」或是:「聽一下他上週的電話內容。」
上述的某些事以前就辦得到了。長期以來,政府已經蒐集了各種有關過去的資料。例如,在麥卡錫時代(McCarthy era),政府會利用政黨登記、雜誌訂閱,還有朋友、鄰居、家人和同事的證詞,來蒐集一個人的資料。如今的差異在於,現在的監控能力比較像是時光機,資料不僅更完整,也能以較低價取得,而科技也已經演化到可以做複雜歷史分析的程度。
舉例而言,瑞士信貸集團(Credit Suisse)、渣打銀行(Standard Chartered Bank)和法國巴黎銀行(BNP Paribas)在近幾年來已經坦承,自己曾違反法律禁令,把錢轉入被制裁的組織戶頭。它們刻意改變交易以便規避演算法的監控,避免被美國財政部(Department of the Treasury)的外國資產控制辦公室(Office of Foreign Assets Control)的過濾機制盯上。要破解這類的不法情事,靠的就是對銀行交易和員工通訊進行大量的歷史分析。
同樣地,人們也可以將新的分析工具應用在過去的資料上,例如基因資料。現在,我們透過一個人的基因資料所能得知的事還很有限,但是十年之後,誰知道呢?我們可以在環法自由車賽禁藥醜聞中看到類似的情形:選手幾年前的血液在當今新科技的測試下,普遍使用禁藥的情形也就東窗事發了。
國安局儲存了豐富的歷史資料,這在第五章會進一步討論。我們知道在二○○八年,有一個名為XKEYSCORE 的資料庫會固定保留語音和電子郵件內容三天,但後設資料則保留一個月。還有一個MARINA資料庫會保留人們長達一年的網站瀏覽紀錄。另一個國安局的MYSTIC 資料庫,則可以記錄所有打到百慕達的電話通話內容。國安局會把電話的後設資料保留長達五年。
這些儲存期限與所有被蒐集資料的原始價值有直接關係。一位國安局的分析師如果碰過資料庫的某筆資料,國安局就會把它保留更久。這些資料庫查詢的結果,如果顯示的是你的資料,你的資料就會被永久保存。你如果使用資料加密,你的資料會被永久保存。你如果使用特定的關鍵字,你的資料也會被無期限地保存。
國安局保存資料的期限比較是一個儲存容量的問題,而非對隱私的尊重。我們知道國安局必須增加儲存容量來保留它蒐集的所有手機位置資料。隨著資料儲存變得愈來愈便宜,想當然爾,就會有愈多資料被儲存得更久。而這就是國安局猶他資料中心設立的目的。
聯邦調查局也會儲存我們的資料。二○一三年,該局在一段合法調查的期間內,取得一個名為Freedom Hosting 網站上所有資料的副本,包括被存檔的電子郵件。幾乎所有的資料都與該調查行動無關,但是聯邦調查局仍保留了整個網站的資料副本,而且從那之後,其他不相干的調查行動也會取用這些資料。紐約州政府會保留車牌掃描資料至少五年,甚至可能是無期限地保留。
任何的資料──無論是臉書紀錄、推特發文、車牌掃描資料──基本上都會被永久保存,或者直到公司或政府機關決定要刪除該紀錄為止。在二○一○年,各家手機服務供應商保留文字簡訊的時間從九十天到十八個月不等,而AT&T拔得頭籌,它資料留存長達七年之久。
【描繪人際關係圖】
我們可以透過大眾監控的資料描繪出人際關係圖。二○一三年,當我們首次知道國安局蒐集所有美國人的電話後設資料時,大家對於所謂「跳躍搜尋」(hop search)及什麼是「跳躍搜尋」有許多無謂的爭論。這是一種新的搜尋形式,理論上在電腦出現以前就做得到了,但只有在大眾監控的世界才真的能夠付諸實行。想像一下,倘若國安局對艾莉絲很感興趣,它會先蒐集她的資料,然後是每一位與她聯絡者的資料,再來就是與這些人聯絡者的資料。這等於從艾莉絲算起跳了三級,也是國安局能做到的最大程度。
跳躍搜尋的目的是要描繪人際關係圖並找出陰謀。想從這些資料中找到蛛絲馬跡,必須先剔除這搜索網中為數龐大的無辜人們,和閒雜人等一般使用的電話號碼,像是語音信箱服務、披薩店和計程車公司等等。
國安局的文件顯示,二○一三年的某一天,該局有十一萬七千六百七十五個「正在監控的目標」。即使是用保守方式來估計每個人往來的人數,同時計算其中重疊的人數,被國安局系統監視的總人數還是很容易就超過兩千萬名,這就是經典的「六度分隔理論」(six degrees of separation)──我們大部分的人都只跟其他人相隔幾級之遙而已。二○一四年,美國總統歐巴馬規定國安局在執行一個特定的計畫時,只能根據蒐集到的電話後設資料,進行兩級跳躍分析,但是他沒有限制國安局針對其他蒐集到手的資料,能進行多少級的跳躍分析。
對於描繪人際關係圖這件事而言,各種來源的後設資料實在太棒了。我們大部分的人都會利用網路進行社交活動,而我們的人際關係在那裡一覽無遺。這就是國安局和臉書在做的事,這就是為何後者能令人不安地準確猜出你可能認識某人,即使對方還不是你臉書上的朋友。臉書最成功的行銷計畫之一,就是不只針對某個特定網頁或產品按「讚」的人打廣告,還會對他們的朋友、他們朋友的朋友打廣告。
【根據我們的行為找到我們】
一旦你將所有人的資料蒐集到手,你就能根據個人的行為來找人。也許你想要找到所有常去某間同性戀酒吧的人,或是所有閱讀某個特定主題的人,或是擁有某種政治理念的人。企業組織經常做這件事,它們會利用大眾監控的資料找出具有某些特質的潛在客戶;或是搜尋曾經針對某個主題發表過作品的人,藉此找到下一個雇用的人才。
除了名字,我們還可以搜尋其他能辨識個人身分的東西,像是身分證號碼和電話號碼等等。
舉例來說,Google會為了行銷目的搜尋你所有的電子郵件,利用搜尋到的關鍵字更親密地認識你。國安局也在做類似的事:就是所謂的「與……有關」之搜尋。基本上,它們會在所有人的通訊內容中,搜尋特定的名字或詞彙(或是片語)。所以除了檢視艾莉絲的資料,還有從她延伸出去二至三級的人的資料,國安局還可以搜尋其他所有人,也就是從整個通訊資料庫中,找出任何有提到她名字的資料。或是,國安局掌握的資訊不是名字,而是一個特定地名或計畫名稱,或是某人曾經用過的代號,它就可以用那個資訊來做搜尋。舉例而言,國安局會鎖定那些搜尋熱門網路隱私及匿名工具的人。
有關國安局怎麼做的細節,我們並不知道,但是它可以根據任何相關性(不僅只於電話的聯絡)把所有的級點串連起來。所謂相關性可能包含與鎖定目標位於同樣的地點、擁有相同的撥打電話模式等等。國安局必須取得所有人的資料,才可能進行這種搜尋。你可以利用大眾監控來找人。如果你知道某人在某個夜晚曾在某間餐廳、三天後的下午出現在火車站、隔天早上去了水力發電廠,你只要搜尋一個擁有所有人手機位置的資料庫,就會跳出所有符合這些特徵的人。
你也可以搜尋一些異常的行為。以下四個例子示範國安局如何利用手機資料。
1.國安局會利用手機位置資訊來追蹤那些行動有交集的人們。例如,假設國安局對艾莉絲有興趣。如果在某個晚上,鮑伯與艾莉絲出現在同一間餐廳,一週以後,兩人又在同一間咖啡店,再過了一個月,兩個人又出現在同一座機場,系統就會把鮑伯標示為艾莉絲可能認識的對象,即使兩個人從未使用電子裝置通訊過。
2.國安局會追蹤美國海外間諜所使用的手機位置,然後判斷是否有其他任何手機跟著探員們的手機移動。基本上,國安局會檢查是否有任何人在跟蹤那些探員。
3.國安局有一種程式會查閱手機後設資料,找出那些只開機使用一會兒,然後就被關機,再也沒被使用過的手機。國安局會根據這些手機使用的模式,將它們串連起來。這個方法的目的在於,找出那些想逃避追蹤的人所使用的預付手機。
4.國安局會蒐集一些把手機關機的人的資料,觀察他們會關機多久,然後蒐集這些人關機時的位置資料,看看周遭有誰也在大概同一段時間內把手機關機。換句話說,國安局在搜尋是否有祕密集會。
我已經討論過,烏克蘭政府會使用手機位置資料,找出所有參加反政府示威的人;而密西根政府則會利用這種資料,找出在一場預定工會抗議地點附近的所有人。聯邦調查局會使用這種資料,找出曾被某監控目標使用過的手機(這些手機與被監視人的相關性,只有手機位置資料能證明,別無他法)。
企業組織也會做這種事。行銷人員會使用一種「地理圍柵」(geofencing)的方法,辨識有哪些人正在某個商家附近,再把廣告寄給這些人。單單定位投射(Placecast)這間地理圍柵公司,就根據手機位置,替星巴克、凱馬特(Kmart)和賽百味(Subway)這些連鎖業者,把廣告發送給美國與英國境內的一千萬支手機。微軟也是一樣,它與九.十進公司(NinthDecimal)合作,把廣告寄給在它門市方圓十英里內的人。先斯公司則利用位置資料製造個人的檔案。
【比對不同的資料集找出相關性】
警覺方案公司是運用攝影機蒐集車牌資料的眾多公司之一。它想要擴增這個系統,結合其他汽車辨識演算法、臉部辨識系統和來自其他資料庫的資訊。這將造就一個更加強大的監控平臺,任何單一車牌掃描資料庫──不管它涵蓋的資料有多廣泛──都無法與之匹敵。
與大眾監控有關的新聞報導,往往侷限在資料蒐集的範疇,卻忽略了探討「資料相關性比對」(data correlation)的議題,所謂「資料相關性比對」,就是連結不同資料集(data set)中的個人身分,再從結合的資料中做出推斷。這不只代表,具有高效能攝影機的廉價無人機將變得愈來愈普遍,而是指它還會裝有臉部辨識軟體,可以讓系統自動辨識面孔,外加標記照片的資料庫(這些照片來自駕照、臉書、報紙或高中年度紀念冊)可以提供該軟體參考用的照片;它還能與其他許多資料庫的辨識結果進行比對、找出相關性,並且將所有資料永久保存下來。當多重的大眾監控串流結合在一起,就會形成無所不在的監控。
我在倫敦時,會用一張牡蠣卡(Oyster Card)來支付大眾運輸費用。我一直不厭其煩地只用現金儲值,讓卡片保持匿名。儘管如此,你如果把這張卡的使用紀錄,與拜訪倫敦的訪客名單以及日期(無論這份名單是來自航空公司、信用卡公司或手機服務供應商)進行相關性比對,我敢跟你保證,我是唯一能讓這些資料百分之百吻合的人。所以,我在倫敦地鐵的「匿名」移動,也就變得完全不是那麼一回事了。
史諾登曾經揭發加拿大通訊安全局(Communication Security Establishment Canada,相當於美國國安局)一項有趣的研究計畫,該計畫證明了比對不同監視資訊流的相關性,有助於找出刻意躲避偵查的人。
加拿大通訊安全局的一位研究人員(工作職稱聽起來很酷,叫做「間諜技術研發人員」(tradecraft developer)),會先從兩週份量的網路辨識資料(基本上就是登入各種不同網站的使用者代號名單)著手。他還有另一個資料庫,裡面是不同無線網路IP位址的地理位置。他如果結合兩個資料庫,就能把從不同無線網路登入的使用者代號,與這些網路的實體位置串在一起。這麼做的用意是要找人,你如果知道某些監控目標的使用者代號,你就可以設定提醒,當這些目標在使用機場或飯店的無線網路時,你就會知道他們何時在移動。如果你知道某人數次造訪某個地點的時間和地點,你也有辦法指認出那個人是誰。例如,假設你想要找到使用三支不同的公共電話撥打未顯示號碼電話給你的人,你也知道這些來電的日期與時間,還有這些公共電話的位置。如果那個人的口袋裡恰好有一支智慧型手機,它會自動登入無線網路,那麼你就可以將擁有登入紀錄的資料庫,和你想要找的日期和時間,以及那些網路位置做相關性比對。很可能只會得到一筆吻合的結果。
卡內基美隆大學(Carnegie Mellon University)的研究人員也做過類似的事。他們在公共場所安裝一部攝影機捕捉路人的影像,使用臉部辨識軟體和臉書公開照片(標記人像)資料庫辨認出這些人,然後與其他資料庫的名字進行相關性比對。結果他們能夠在一個人經過攝影機時,即時顯示出這個人的個人資訊。任何人只要使用智慧型手機攝影機或是Google 眼鏡,很容易就能取得這種技術。
有時候,把不同資料集當中的個人身分連結在一起,是非常容易的。你的手機會連到你的名字,你的信用卡也會連到你的名字。有時則會比較困難,你的電子郵件地址未必與你的名字有關,除非人們在電子郵件中提到你的名字。創始系統(Initiate Systems)這類公司所販售的軟體,可以讓好幾個資料集的資料進行相關性比對,這些軟體會賣給政府和企業組織。有些公司也會針對你的網路行為與你離線時的行為做相關性比對。舉例來說,臉書就與安客誠(Acxiom)及艾司隆(Epsilon)兩家資料仲介商合作,配對你網路上的個人檔案與實體購物紀錄。
你一旦能比對這些不同資料集的相關性,你能做的事情就多了。想像一下,你完全不必看某人的病歷,就能建立他的健康圖表;你可以從信用卡紀錄和超市聯名卡,知道他買了什麼食物與酒、吃飯的餐廳、是否為健身房會員,還有他在藥局買了哪些免處方箋的藥物。他的電話紀錄透露了他多久上一次健身房,而他的運動追蹤裝置透露了他在健身房的活動程度。網站的資料則告訴我們他搜尋過哪些醫學詞彙。精確數據(ExactData)之類的公司販售大把名單(例如哪些人在線上約會、哪些人在賭博,或是誰有焦慮、大小便失禁或陽痿問題),那些名單就是這樣來的。