天才的哽咽
2016年3月15日, 美國谷歌公司的圍棋對弈程式Alpha Go以五局四勝的成績戰勝世界圍棋冠軍韓國選手李世石。一時間這個消息轟動世界,全世界有28億人在關注這場比賽,在中國更是引起極大的轟動。人們感覺AlphaGo就像從石頭縫裡蹦出來的孫悟空一樣,完全無法理解一台機器如何能夠打敗世界圍棋冠軍。圍棋歷來被認為是人類最複雜的遊戲之一。圍棋每一步的可能的走法大約有250種,下完一盤棋平均要走150步,這樣可能的走法有250150=10360種,而宇宙從誕生到現在才1017秒,即使是現在世界上最快的超級電腦,要想把所有走法走一遍,計算時間也要比宇宙年齡都長。即使排除了大部分不可能的走法也是大到無法計算。機器是怎樣學會這麼複雜的棋藝的?
這場比賽後,世界排名第一的棋手柯潔在網上說:「AlphaGo勝得了李世石,勝不了我」。而2017年5月28日,棋手柯潔以0:3完敗AlphaGo,徹底擊碎了人類在這種複雜遊戲中的尊嚴。賽後,這位天才少年一度哽咽,在接受採訪時柯潔感歎,AlphaGo太完美,看不到任何勝利的希望。他流著眼淚說:「我們人類下了2000年圍棋,連門都沒入」。中國棋聖聶衛平更是把AlphaGo尊稱為「阿老師」,他說:「AlphaGo的著數讓我看得如醉如癡,圍棋是何等的深奧和神秘。AlphaGo 走的順序、時機掌握得非常好。它這個水準完全超越了人類,跟它挑戰下棋,只能是找死。我們應該讓阿老師來教我們下棋」。他還說:「阿老師至少是20段,簡直是圍棋上帝」。
當人們以為這是對弈類程式的高峰時,AlphaGo的研發團隊Deep Mind(谷歌收購的人工智慧企業,位於倫敦) 團隊再度打破了人類的認知。2017年12月,Deep Mind團隊發佈了AlphaGo Zero。AlphaGo Zero使用了一種叫作「強化學習」的機器學習技術,它只使用了圍棋的基本規則,沒有使用人類的任何棋譜經驗,從零開始通過自我對弈,不斷地迭代升級,僅僅自我對弈3天後,AlphaGo Zero就以100:0完勝了此前擊敗世界冠軍李世石的AlphaGo Lee版本。自我對弈40天後,AlphaGo Zero變得更為強大,超過了此前擊敗當今圍棋第一人柯潔的AlphaGo Master(大師版),這台機器和訓練程式可以橫掃其他棋類。經過4個小時的訓練,打敗了最強國際象棋AI Stockfish,2個小時打敗了最強將棋(又稱為日本象棋)AI Elmo。
AlphaGo Zero證明了即使在最具有挑戰性的某些領域,沒有人類以往的經驗或指導,不提供基本規則以外的任何領域的知識,僅使用強化學習,僅花費很少的訓練時間機器就能夠遠遠超越人類的水準。
既不可感受也不能表達的「暗知識」
為了理解暗知識的本質,我們必須先搞清楚「知識」與我們今天常用的「資訊」和「資料」有什麼不同。稍加研究就能發現關於資訊、資料和知識的定義有很多並且非常混亂。筆者在下面給出一組符合資訊理論和腦神經科學研究結果的簡單而自洽的定義。資訊是事物可觀察的表徵, 或者說資訊是事物的外在表現,即那些可觀察到的表現。在我們沒有望遠鏡時,談論肉眼以外星空裡的資訊毫無意義。
資料是已經描述出來的部分資訊。任何一個物體的訊息量都非常大,要想精確地完全描述一塊石頭,就要把這塊石頭裡所有基本粒子的狀態以及它們之間的關係都描述出來,還要把這塊石頭與周圍環境和物體的關係都描述出來。而關於這塊石頭的資料通常則少得多,例如它的形狀、重量、顏色和種類。
知識則是資料在時空中的關係。知識可以是資料與時間的關係,資料與空間的關係。如果把時間和空間看作資料的一部分屬性,那麼所有的知識就都是資料之間的關係。這些關係表現為某種模式(或者說模式就是一組關係)。對模式的識別就是認知,識別出來的模式就是知識,用模式去預測就是知識的應用。開普勒的行星運動定律就是那些觀測到的資料中呈現的時空關係。牛頓定律的最大貢獻可能不在於解釋現有行星的運動,而在於發現了海王星。這些資料在時空中的關係只有在極少數的情況下才可以用簡潔美妙的數學方程式表達出來。在絕大多數情形下,知識表現為資料間的相關性的集合。這些相關性中只有極少數可以被感覺、被理解,絕大多數都在我們的感覺和理解能力之外。
人類的理解能力由感受能力和表達能力組成。人類的感受能力有限,局限性來自兩個方面。一是只能感受部分外界資訊,例如人眼無法看到除可見光之外的大部分電磁波頻譜,更無法感受大量的物理、化學、生物和環境資訊。二是人類的感官經驗只局限在三維的物理空間和一維的時間。對高維的時空人類只能「降維」想像,用三維空間類比。對於資料間的關係,人類憑感覺只能把握一階的或線性的關係,因為地球的自轉是線性的,所以「時間」是線性的。例如當我們看到水管的水流進水桶裡時,水面的上升和時間的關係是線性的,我們憑感覺可以預測大概多長時間水桶會滿。人類感官對於二階以上的非線性關係就很難把握。例如當水桶的直徑增加1倍時,水桶能盛的水會增加4倍, 這點就和「直覺」不相符。
人類的表達能力只限於那些清晰而簡單的關係,例如少數幾個變數之間的關係,或者是在數學上可以解析表達的關係(「解析表達」的意思就是變數之間的關係可以用一組方程式表達出來)。當資料中的變數增大時,或當資料間的關係是高階非線性時,絕大多數情況下這些關係無法用一組方程式描述。所以當資料無法被感受,它們之間的關係又無法用方程解析表達時,這些資料間的關係就掉入了人類感官和數學理解能力之外的暗知識大海。
我們現在可以回答「一個人類無法理解的暗知識的表現形式是什麼樣的」,暗知識在今天的主要表現形式類似AlphaGo Zero裡面的「神經網路」的全部參數。在第三章詳細介紹神經網路之前,我們暫時把這個神經網路看成一個有許多旋鈕的黑盒子。這個黑盒子可以接收資訊,可以輸出結果。黑盒子可以表達為一個一般的數學函數:Y=fw(X)。這裡Y是輸出結果,fw(X)是黑盒子本身,X是輸入資訊,w是參數集,就是那些旋鈕,也就是暗知識。
AI與互聯網的三個區別
這次AI創新浪潮堪比互聯網,但是AI浪潮和互聯網浪潮有三個區別。
第一個區別是AI從一開始就要顛覆傳統行業。互聯網1994年起步時從經濟的邊緣開始,和傳統產業似乎一點關係都沒有,沒有人懂一個網站能幹什麼。互聯網20多年來逐步從邊緣蠶食中心,直至今日影響每個行業。但即使是今天,互聯網對製造業、農業、建築業、交通運輸等搬運原子的行業的影響也局限在媒體和行銷方面,沒有進入製造業的核心。而AI的特點是從第一天起就從傳統產業中心爆炸,自動駕駛對汽車行業的顛覆就是一個典型的例子。
第二個區別是技術驅動。互聯網除了搜索以外基本沒有太多技術,主要是應用和商業模式。互聯網創業者完全可以是不懂技術的人。目前為止AI創業者以技術大拿居多。當然隨著AI技術的普及,許多有商業頭腦的人只要看明白AI在一個行業的價值也可以拉起一家公司,但目前最稀缺的是AI的高級技術人才。
第三個區別是可能不會出現平臺性公司或贏家「通吃」的局面。互聯網的一個特點是連接供需雙方,一旦用戶超過一個門限,後來者就很難趕上,所以很容易形成贏家「通吃」的局面。但在AI 產業裡目前還沒有看到這樣的機會,不論是自動駕駛還是人臉識別都是一個一個山頭去攻,無法在短期內形成壟斷。造成融資泡沫的一個重要原因就是有些投資人還以為AI和互聯網一樣贏家「通吃」:只要投中第一名,多貴都值。
簡單用一句話說就是互聯網是to C(對用戶)的生意, AI是to B(對企業)的生意。AI中to C的生意都會被現有互聯網巨頭吸納,創業者的機會在於to B。
自動駕駛顛覆移動──10萬億美元的產業
人工智慧未來十年最大的市場之一,就是通過自動駕駛徹底顛覆汽車的製造、銷售、本地出行和物流行業。
如果讓機器開車,機器就要和人一樣能做四件事:第一,感知:離車100米處是一輛大卡車還是行人天橋。第二,判斷:馬路邊站的人是要搶在我的車前衝過去還是在等我的車先開過去。第三,規劃:什麼時機擠進邊上的車流中去。第四,控制:為了實現規劃,如何控制方向盤的角度和車速。以上四點除了控制是成熟技術以外,其他三點都還在反曲點上。
第一個重要的感測器就是監控攝影機。監控攝影機由於受到像素的限制,只能看清前面幾十米,但也能分辨不同的物體。監控攝影機還能夠做到其他所有感測器都做不到的:識別交通標誌。監控攝影機是目前最成熟的感測器, 也是最便宜的感測器。但是從監控攝影機裡識別物體和標誌並不容易。監控攝影機的弱點是看不遠,尤其是遇到雨、雪、霧霾天氣時,監控攝影機就不行了。能夠彌補監控攝影機弱點的另一個傳感器是毫米波雷達。毫米波雷達可以看清200~300米甚至更遠的距離,不受日光和天氣影響,還能精確測量物體的距離和速度。
但現有的毫米波雷達的空間解析度很低,也就是雖然知道200米處有一個物體在以每小時50公里的速度移動,但弄不清是摩托車還是汽車。如果結合雷達和監控攝影機的資料,就可以更準確地檢測和跟蹤目標。當一個物體在距離200米處時,該物體在監控攝影機裡還是一個黑點, 但是可以根據相應的雷達資料獲得該物體的距離和移動速度。等物體稍微近點,監控攝影機就可以看清這個時速為50公里米的物體是一輛摩托車。監控攝影機+毫米波雷達是半自動和自動駕駛車輛最基本的配置(少了任何一個都不行),也是目前(2018年)特斯拉所有車型的標準配置。
傳統毫米波雷達的主要問題是空間解析度太低。解決這個問題有兩種辦法。一種辦法是將單一天線變成一組天線(4個、8個、16個等),天線越多,多個天線合成的空間解析度就越高,但是天線多體積也隨之變大,不容易安裝。另外一種辦法是利用汽車移動或信號變化做出「適應型陣列天線」。後者對技術要求很高,必須建立在對雷達成像的深度理解之上,並且需要許多年的設計經驗。美國的Oculii公司已經研發出77GHz的高解析度點雲成像雷達。圖5.2 就是這個雷達產生的點雲資料,已經和市面上的中低精度光學雷達可比。如果毫米波雷達能夠達到高解析度, 一輛自動駕駛汽車只要監控攝影機和毫米波雷達就足夠了。
醫療與健康世界上最有經驗的醫生
醫療健康是AI最熱門的應用領域之一,醫療行業有太多的方面可以借助AI得到質的提升。據追蹤風險投資動態的資料公司CB Insights的資料顯示,從2012年至2017年7月,醫療行業有270筆投資交易。語音辨識、影像視別技術、深度學習技術已經和醫療行業快速融合,在輔助診療、醫學影像、藥品研發、數字健康、疾病預測、虛擬護士等領域應用,提升藥品的研發速度、醫生的診斷醫治效率、患者的健康管理等。醫療資料目前較為分散,這給不少創業公司提供了從垂直領域切入的機遇。
AI在醫療健康領域的第一個重要的應用是醫學影像診斷。2016年11月,美國FDA(食品藥品監督管理局)頒發了第一個醫療AI軟體平臺的許可。這個軟體平臺是史丹佛大學校友創辦的Arterys心臟核磁共振成像診斷平臺。這個平臺用1000 個已知圖像對模型進行了訓練。心臟可以分為17個部分,通過這17個部分的影像可以判斷心臟是否有問題。要通過FDA批准,這個平臺的判斷至少要和專業醫生一樣準確, 這個平臺可以在15秒內做出判斷,而有經驗的醫生通常需要半小時到一小時,比醫生快了200倍左右。
我們知道癌症早期發現的治癒率遠遠高於中晚期。如果發現得早,那麼五年存活率可以達到97%,但如果在最晚期發現,那麼五年存活率只有14%。如何讓那些不方便看皮膚科醫生的人能夠最早發現病情就成為關鍵。美國每年有540萬例皮膚癌,2017年初,史丹佛大學AI實驗室的Thrun(特龍)教授的博士生開發出了一個可以診斷皮膚癌的AI演算法。他們用已經認證過的370張含有惡性皮膚癌和惡性黑色素瘤的圖片讓演算法和21位皮膚科醫生的判斷相比較,演算法在各方面都達到了和醫生相同的判斷准確度。
中國是全球肺癌死亡率和發病率最高的國家。僅2015年中國就有429.2萬新生腫瘤病例和281.4萬死亡病例,肺癌是發病率最高的腫瘤,也是癌症死因首。2015 年中國新生47.7萬例食道癌,占全球的50%。新增肺癌病例73.33萬,占全球的35.8%,中晚期占70%。目前最有效的手段就是每年體檢,早期診斷和早期治療能將患者的五年生存率提高到80%以上。
肺癌早期發現的難點主要是:早期肺癌多表現為肺部結節。它們尺寸小,對比度低,非常容易跟其他的組織部位混淆,患者的CT掃描數量通常超過200 層,人工閱片耗時耗力。騰訊公司推出的「騰訊覓影」技術,利用多尺度3D 卷積神經網路實現肺部圖像的3D分割與重建,結合金標準(指目前臨床醫學界公認的診斷疾病的最可靠、最準確、最好的診斷方法)病理診斷資料和大量醫生標註的結節位置資訊,3~10mm肺結節檢測準確率達到95%,肺癌識別率已經達到80%,並且還能通過增強圖像與放大圖像輔助醫生查看。目前,該技術已經與數家三甲醫院(三級甲等醫院簡稱三甲醫院,是中國對醫院按照《醫院分級管理辦法》實行「三級六等」的等級劃分中最高等級的醫院)進行合作。該類技術的逐步商用可望大幅降低癌症患者的發現率和死亡率。
智能時代萬物皆媒,人機協作時代已經來臨
人工智慧正在徹底重塑媒體產業,線索、策劃、採訪、生產、分發、回饋等全新聞鏈路都因為人工智慧的到來而發生變革,媒體也正在走向智媒時代。人工智慧不僅能夠幫助媒體從業者更快地發現線索,輔助或自主生產新聞,並能根據每個受眾的喜好有針對性地發送新聞,同時它能為商家匹配更精準的廣告,讓媒體更好地實現商業化。
目前的自動化寫作已經得到較廣泛的應用,最初多以財經和體育新聞的快訊、短訊及財報為主,因為這些報導一般能夠較好地拿到結構化的資料。隨著技術的發展,自動化寫作機器人的能力開始涵蓋了選題、寫稿、校對等全方位的功能,題材也拓展到災難、犯罪、選舉等領域。而且花費的時間更少,還能夠定製內容。
美聯社是自動化新聞最早的探索者之一。2013年夏天,美聯社的新聞部門負責人提出一個在當時看來略顯激進的想法引入人工智慧進行自動化新聞創作。幾個月後,在Automated Insights(研究新聞自動生成的技術公司,位於美國北卡羅萊納州)的技術支持下,美聯社獲得了通過機器自動生產新聞的能力,從體育新聞簡報起步,在2014年開始使用演算法自動生成財報報導。美聯社當時估計這個做法能釋放記者20%的時間,可以讓這些記者從事更為複雜和關鍵的工作。2015年,美聯社制定了一個五年(2015-2020年)戰略規劃。美聯社戰略及企業發展部高級副總裁Jim Kennedy(吉姆.甘迺迪)希望在2020年之前,美聯社80%的新聞內容生產都能實現自動化。美聯社全球商業編輯Lisa Gibbs(莉莎.吉布斯)說:「經由自動化,美聯社向客戶提供的公司財報發佈報導是以前的12 倍,其中包括許多從未受到什麼過關注的非常小的公司。利用這些釋放出來的時間,美聯社記者可以參與更多使用者產生的內容,製作多媒體報導,追蹤調查報導,並專注於更複雜的新聞」。