當前位置:菜譜大全網 - 養生課堂 - 知識有什麽用?

知識有什麽用?

“知識地圖的應用涉及很多行業,尤其是知識密集型行業。目前關註度較高的領域有醫療、金融、法律、電商、智能家電等。”基於信息、知識、智能形成的閉環,我們可以從信息中獲取知識,基於知識開發智能應用,智能應用會產生新的信息,然後從新的信息中獲取新的知識。通過不斷叠代,可以不斷產生更豐富的知識圖譜和更智能的應用。

如果說波士頓動力的翻跟頭是在幫助機器人鍛煉筋骨,那麽知識圖譜的“繪制”則是在試圖“創造”壹個工作的機器人大腦。

“目前,機器還不可能理解人類語言。”中科院軟件所研究員、中國中文信息學會副理事長孫樂說。無論是能逗妳開心的Siri、能寫詩的蕭冰,還是能“把脈”的沃森,他們都沒有真正明白自己在做什麽,為什麽要做。

讓機器學會思考,靠的是“譜”。這個“譜”被稱為知識圖譜,意在將人類世界產生的知識構建到機器世界中,進而形成壹個可以支持類腦推理的知識庫。

為了在中國構建壹個全新的知識圖譜產學研合作模式,近日召開了知識圖譜研討會。來自大專院校和工業團隊的研究人員共同努力,建立了全球知識圖譜系統,並建立了世界領先的人工智能基礎設施。

技術原理:將文本轉化為知識

“對於‘姚明是上海人’這樣的句子來說,它只是存儲在機器裏的壹串字符。這串字符‘活’在人腦裏。”孫樂舉例說。比如提到“姚明”,人們會想到他是前美國職業籃球運動員,“小巨人”和中鋒,“上海”則會讓人想到東方明珠和繁華都市。但是對於機器來說,僅僅說“姚明是上海人”並不能像人類壹樣理解背後的含義。機器要理解壹段文字,首先需要了解背景知識。

那麽如何把課文變成知識呢?

“借助信息抽取技術,人們可以從文本中抽取知識,這是知識圖譜構建的核心技術。”孫樂說,目前比較流行的是使用“三重”存儲模式。三元組由兩個點和壹條邊組成。點代表壹個實體或概念,邊代表實體和概念之間的各種語義關系。壹個點可以從多面延伸,形成多種關系。比如姚的點就與出生地上海灘、效力NBA以及2.26米的身高有關。

“如果這些關系足夠完善,機器就有了理解語言的基礎。”孫樂說。那麽如何讓機器有這樣的“悟性”呢?

“20世紀60年代,人工智能先驅麻省理工學院的馬文·明斯基在壹個問答系統項目中使用實體之間的語義關系來表達問題和答案的語義,劍橋語言研究系的Margaret Mastman在1961中使用語義網絡對世界知識進行建模,可以視為知識地圖的前身。”孫樂說。

隨後,國內的Wordnet和Hownet也是手工構建知識庫。

“這包括主觀知識,比如人們在社交網站上是否喜歡或不喜歡某個產品;場景知識,比如在特定場景下做什麽;語言知識,比如各種語言的語法;常識性的知識,比如水、貓狗,教人認的時候可以直接指向,但是計算機很難理解。”孫樂解釋說,從這些初步的分類中,我們可以感受到知識的浩瀚,更不用說高層次的科學知識了。

構建模式:從人工勞動到自動提取

“2010之後,維基百科開始嘗試眾包,每個人都可以貢獻知識。”孫樂說,這大大加快了知識圖譜的積累,百度百科、互動百科也采取了類似的知識收集方式,動員大眾大大縮短了“積沙”環節的時間,大大提高了效率,無數知識從四面八方湧來,迅速聚集,只等“建塔”了。

面對如此大量的數據,或者說“文本”,知識圖譜的構建自然可以不再是手工勞動,“讓機器自動提取結構化的知識,自動生成‘三元組’。”孫樂表示,學術界和產業界已經開發了不同的框架和系統,可以自動或半自動地從文本中生成機器可讀的知識。

在孫樂的演示課件中,有壹個生動的畫面。如果妳吃了壹大堆文件紙,計算機會立即將其轉化為“知識”,但事實遠非如此簡單。不同行業對結構化數據的自動抽取沒有統壹的方案。在“百度知識圖譜”的介紹中是這樣寫的:將提交給知識圖譜的數據轉化為遵循圖式的實體對象,進行數據清洗、對齊、融合、關聯等統壹的知識計算,完成圖譜的構建。“然而,我們發現,基於維基百科,從結構化和半結構化數據中挖掘出的知識圖譜仍然不足,因此目前所有的工作都集中在如何從海量文本中提取知識上。”孫樂說,例如,谷歌的知識庫和美國國家標準與技術研究所主辦的TAC-KBP評估也在推廣從文本中提取知識的技術。

在權威的《知識庫自動構建國際評測》中,從文本中抽取知識被分解為實體發現、關系抽取、事件抽取和情感抽取四個部分。在美國NIST組織的TAC-KBP中文評測中,中科院軟件所-搜狗聯合團隊獲得綜合性能指標第三名,事件抽取單項指標1名。

"在這個領域,中國可以和國際水平競爭."孫樂介紹,中科院軟件所提出了基於共同引導的實體獲取算法和基於多源知識監督的關系抽取算法,大大降低了文本知識抽取工具的建模成本,提高了性能。

最終目標:構建人類所有的知識。

據《舊約》記載,人類合力建造了巴別塔,希望通往天堂。現在,創造AI的人類正在建造這樣壹座巴別塔,幫助人工智能達到人類的智能。

自動練習使知識量開始形成規模,達到可以支撐實際應用的量級。"但是這種轉變還遠遠沒有達到人類知識的水平."孫樂說,再說了,人類的知識壹直在不斷增加、更新、動態變化,理解也要與時俱進地體現在機器的“大腦”中。

“因此,知識圖譜不會是壹個靜止的狀態,而是會形成壹個循環,這也是美國卡內基梅隆大學等地提出的永無止境學習的理念。”孫樂說。

數據顯示,目前谷歌的知識圖譜中記錄了超過35億個事實;Freebase記錄了超過4000萬個實體、數萬個屬性關系和超過24億個事實。百度百科收錄10萬詞條,聯想搜索功能在百度搜索中應用。

“還有醫學領域、人際關系等特定領域的專門知識圖譜。”孫樂介紹,親屬關系描述人物之間的親屬關系,包括104個實體,26個關系,10800個事實;UMLS用135個實體、49個關系和6800個事實描述了醫學領域中醫學概念之間的關系。

"這是壹幅充滿光明前景的宏偉藍圖."孫樂表示,知識圖譜的最終目標是將人類所有的知識形式化、結構化,並利用它來構建基於知識的自然語言理解系統。

雖然令業界滿意的“真正理解語言的系統”還遠未出現,目前的“巴別塔”也僅僅停留在基礎層面,但相關應用已經展現出廣闊的前景。比如在百度百科中輸入“冷凍電鏡”,石會出現在右邊的豎條中,輸入“幣”,王思聰等相關條目會直接出現在搜索詞中。它包含了機器對人類意圖的理解。