“智能”問題是當代計算機和認知科學普遍關注的焦點之一。但當前對人類認知與智能機製方麵的認識障礙,使得現階段的研究出現某種程度的停滯,難以實現理論上的突破。由此,作為實現人與計算機之間用自然語言進行有效通信的核心技術之一,自然語言處理成為研究開發新一代智能計算機的前提和先決條件,主要解決如何在語義層麵上對輸入的內容進行匹配,並同時具備一定的常識知識和推理能力。這一技術同時涉及計算機科學、語言學、心理學、哲學等多門學科,隻有在多學科交叉的領域範圍內才有可能獲得理論上的突破。尤其是在核心的語義分析及智能推理方麵,自然語言處理一直深受相關哲學理論和語言學理論的影響,因此,有必要厘清其發展的關鍵所在,分析其發展趨勢及可能帶來的變革。
1.自然語言處理的發展瓶頸
自然語言處理中,傳統的知識庫隻提供單個詞語的概念意義或基於真值的形式邏輯來描寫語義,這對於實現自然語言處理的智能化遠遠不夠。在經曆了語形處理階段之後,自然語言處理邁向了語義分析階段。從語形到語義的發展,是語形處理無法滿足精確性要求的結果。在語形處理階段,程序根據用戶輸入的自然語言進行關鍵詞比對(keyword match),這是一種局限於字詞變化以及句法結構的語形匹配技術。它對於被輸入的自然語言的概念語義並無確切掌握,處理結果往往精確度不夠,常常會出現大量語義不符的垃圾結果或遺漏很多語義相同而語形不同的有用結果。
有鑒於此,人們希望計算機能夠通過語義分析來處理信息,從而提供更加精確、更能接近人類語義處理模式的服務。為此,必須探索人腦理解語言的機製,從認知的角度描寫語言知識,重視對語言理解的認知加工過程及形式化問題。但是,因為詞匯句法方麵的問題長期沒有得到有效解決,要實現提供人工智能推理所需的知識庫並不現實。由此,自然語言處理領域中,開始傾向於麵向真實語料的大規模語義知識庫的構建工程,這是在經驗主義基礎上汲取了理性主義優點後,所形成的一種基於功能主義的方法。它為自然語言處理提供了一條現實可行的探索道路,是解決智能問題的必然選擇。