序言
我們生活在大數據時代。高性能電腦和全球網路的強大組合正得到人們的讚美,甚至推崇。專家不斷告訴我們,他們發現了一種新的能力,可以篩選巨量資料並發現真相,這將為政府、商業、金融、醫療、法律以及我們的日常生活帶來革命。我們可以做出更明智的決策,因為強大的電腦可以分析資料,發現重要的結論。
也許事實的確如此,也許未必。有時,這些無所不在的資料和偉大、光明正確的電腦會得出一些非常怪異的結論。例如,有人一本正經地宣稱:
‧凌亂的房間會強化人們的種族主義傾向。
‧還未出生的小雞胚胎會影響電腦的隨機事件生成器。
‧當政府負債相對國內生產總值的比率超過百分之九十時,國家幾乎一定會陷入衰退。
‧在過去二十年美國犯罪率下降的原因中,合法墮胎的比例高達百分之五十。
‧如果每天飲用兩杯咖啡,將大為提高罹患胰腺癌的風險。
‧最成功的公司傾向於變得不那麼成功,最不成功的公司傾向於變得更加成功,因此過不久,所有公司都會淪為普通的公司。
‧出現在雜誌《運動畫刊》(Sports Illustrated)和電玩《勁爆美式足球》(Madden NFL)封面上的運動員會受到詛咒,他們可能會陷入平庸,或者受到運動傷害。
‧生活在高壓電線桿附近的兒童具有更大的罹癌風險。
‧人類有能力將死亡推遲到重大儀式過後。
‧亞裔美國人更容易在每月四號突發心臟病。
‧如果一個人的姓名首字母縮寫擁有積極的含義(比如ACE),那麼他可以多活三到五年。
‧平均來說,教名(第一個名字)以字母D開頭的棒球運動員的壽命比教名以字母E到Z開頭的運動員短兩年。
‧臨終病人可以被幾千英里以外傳送過來的積極心理能量治癒。
‧當NFC冠軍球隊贏得超級盃(美國超級盃總決賽在國家聯合會〔National Football Conference〕和美國聯合會〔American Football Conference,AFL〕分別比賽產生的冠軍之間舉行)時,股市幾乎一定會上漲。如果你購買股息率最高、每股價格第二低的道瓊工業平均指數,你就可以跑贏大盤。
這些說法顯然是錯誤的。不過,許多與此類似的說法每天都會出現在報紙和雜誌上。在如今的資訊時代,我們用沒完沒了而又毫無意義的資料指導我們的思想和行動。不難看出為什麼我們會反覆得出錯誤的推論,制定糟糕的決策。即使能夠得到比較充足的資訊,我們也不會永遠注意到數據的偏差性和無關性,或者科學研究的缺陷和誤導性。我們傾向於相信電腦從不犯錯,認為不管我們把什麼樣的垃圾扔進去,電腦都會吐出絕對真理。這種想法不僅存在於外行人的日常生活中,也存在於專業人員嚴肅認真的研究工作中。舉凡在流行刊物、電視、網路、競選活動、學術期刊、商業會議、法庭,政府聽證會,此類現象屢見不鮮。
幾十年前,資料非常稀少、電腦還沒有出現時,研究人員需要努力蒐集優質資料並進行審慎的思考,然後花費幾個小時甚至幾天的時間,從事艱苦的計算工作。現在,面對豐富的資料,研究人員通常不會花費太多的時間區分優質資料和垃圾,或者區分合理分析和垃圾科學。更糟糕的是,我們常常不假思索地認為,我們對大量資料的處理永遠不會出錯。我們匆匆忙忙地根據這些機器發出的夢囈制定決策——比如在經濟衰退期間提高稅賦,將我們一生的積蓄交給一些說得天花亂墜的財務分析師,根據最新的管理理念制定商業決策,用醫療騙術危害我們的健康——更糟糕的是,我們還會放棄心愛的咖啡。
英國經濟學家羅納德.寇斯(Ronald Coase)曾經嘲諷道:「如果你拷打資料足夠長的時間,它一定會招供。」《統計的假象》考察了幾十個扭曲的結論。只需片刻的思考,你就會發現這些結論的問題。有時,無恥之徒故意用這些說法來誤導我們。有時,天真快樂的研究人員並沒有意識到他們所製造的惡作劇。
我寫這本書的目的是幫助我們遠離錯誤──包括外部錯誤和自己造成的錯誤。你將學到一些簡單的指導準則,用於測試其他人或者你自己說出的不可靠的觀點。人們用數據欺騙我們,我們也經常用數據欺騙自己。