?(上圖):橫軸代表數據量,縱軸代表算法精度?
我們看到了幾個趨勢:行業數據的指數級增長,以GPU為代表的專業芯片計算能力的增長,新算法的層出不窮,學術界的前沿研究,投資圈的資金投入,各種工商業場景,這些都推動了神經網絡的快速發展。神經網絡的發展有兩個方向:壹個是以DNN深度連接和CNN卷積神經網絡為代表的垂直發展,即增加層數的垂直叠代,典型應用是CV計算機視覺;二是以RNN遞歸神經網絡為代表的橫向發展,即神經元之間的橫向叠代。典型的應用是以NLP自然語言理解為代表的序列處理。神經網絡技術同時呈現兩種發展形態,並在多個領域得到廣泛應用,說明該技術已經進入成熟階段。下壹步是哪個方向?很有可能將縱向開發和橫向開發結合起來,滲透到更多的應用領域。這似乎是壹個合乎邏輯的結論。事實證明這個判斷是正確的,而圖神經網絡就是兩者的結合。
縱觀技術圈的發展歷史,我們可以總結出壹個事實:壹項理論技術能否在更多領域普及,取決於它能否真實刻畫現實世界的實質性特征和關系。越真實,應用場景就越多。例如,馬爾可夫鏈理論真實地刻畫了現實世界中時間序列對象的特征和依賴性,因此被廣泛應用於語音理解、機器翻譯、國民經濟、事件預測等領域;再比如概率圖論,用圖來表示事件概率的依賴關系,也真實地刻畫了現實世界中的實體關系,因此在反欺詐、圖像理解、事件預測等領域也有廣泛的應用。從方法論的角度來說,為了描述現實世界中的實體,需要在模型中放置代表這個實體的節點,並設計實體之間依賴關系的轉換。但是馬爾可夫鏈和概率圖都弱化了嵌入表示,從而丟失了壹些隱藏的語義信息,是有缺陷的。
圖形神經網絡(GNN)的出現扭轉了局面。在圖形神經網絡中,有兩種網絡。壹類是拓撲網絡,通常描述許多實體及其關系;另壹種是特征變換神經網絡,通常用於節點、邊、圖或子圖的特征變換。前者完成信息橫向傳播,實現圖形信號的拓撲關系傳遞,理論基礎是圖論;後者基於深度學習,完成信息的垂直傳播,實現從原始特征到嵌入式表示的轉化。圖形神經網絡是圖論和深度學習的完美結合,既考慮了實體關系,又考慮了實體特征。與傳統的圖方法和傳統的深度學習相比,圖神經網絡具有明顯的優勢:對源數據的建模更加充分,能夠更好地反映現實世界中實體之間的真實關系。它不僅可以從圖結構表示的非歐空間數據中學習語義表示,而且可以使學習到的語義表示最大限度地符合圖結構的實體關系。
現實世界中80%以上的數據更適合用圖結構來描繪,比如流量數據、社會數據、分子結構數據、行業經濟數據等等。圖形神經網絡可以適應這種數據。在分布式學習架構下,圖形神經網絡可以處理海量數據,非常適合處理上億節點的工業數據。因此,圖神經網絡的應用場景更加廣泛。近三年來,各種國際峰會頻繁發表關於圖神經網絡的論文,許多互聯網科技公司(如阿裏、百度、字節跳動)在這壹領域投入了大量資金,並取得了很大進展,廣泛應用於相關搜索、實時推薦、風險防控、異常檢測、行為預測、模式識別等領域。這些現象無疑表明,圖形神經網絡是未來技術發展的壹個重要領域方向。
綜上所述,在行業數據、算法理論、計算能力支撐、市場需求、資本湧入的背景下,圖神經網絡的快速崛起是大數據時代的必然。