
人工智能的演進(jìn)是當(dāng)下最炙手可熱的話題,如何讓AI真正理解人類的語(yǔ)言與智慧,成為名符其實(shí)的“智能”?公認(rèn)的標(biāo)準(zhǔn)“圖靈測(cè)試”如何真正得以實(shí)現(xiàn)?許多專家學(xué)者從不同角度進(jìn)行了研究,提出了不同的見(jiàn)解。
在觀察者網(wǎng)“2026答案秀·思想者春晚”的講臺(tái)上,上海財(cái)經(jīng)大學(xué)人文學(xué)院院長(zhǎng)王獻(xiàn)華教授嘗試回到人類創(chuàng)造文明的起源——文字的發(fā)明——對(duì)人工智能進(jìn)行一項(xiàng)“逆向工程”。他提出了名為“Nigiro Challenge”的測(cè)試方案——看這項(xiàng)“社會(huì)性虛擬造字測(cè)試”中,人工智能能否重新發(fā)明、創(chuàng)新并系統(tǒng)化構(gòu)建一套對(duì)他們來(lái)說(shuō)可外化的文字體系,來(lái)記錄他們的文明。
作為研究古代文明與楔形文字的專家,王獻(xiàn)華老師的“腦洞”或可以從文科的角度為熱門的“理科話題”提供一種可以借鑒的思路。

王獻(xiàn)華:非常榮幸來(lái)到這里,參加這樣一個(gè)活動(dòng)。剛才曾毅老師、范勇鵬老師,分別從各自的專業(yè)角度討論了AI。用勇鵬老師的話講,“作為文科生也來(lái)湊一下這個(gè)話題”——我也是文科生,一個(gè)真正的老文科生,而且做的專業(yè)非常偏。
今天冒昧來(lái)參與這個(gè)話題,我一直在想,對(duì)于一個(gè)文科生來(lái)說(shuō),AI的相關(guān)研究是比較陌生的。但很幸運(yùn)的是,對(duì)于絕大多數(shù)的聽(tīng)眾來(lái)說(shuō),我自己的研究領(lǐng)域可能也是比較陌生的。那么,這雙重的陌生是不是反而就顯得“熟悉”一些了?
再加上我們最近的感受——這個(gè)世界好像還是那樣一個(gè)世界,但是時(shí)代好像不再是那個(gè)熟悉的時(shí)代了,所以我今天就冒昧地、站在這“雙重陌生”的“文化自信”的角度,從楔形文字起源研究的方向,提出一種針對(duì)通用人工智能的“終極”測(cè)試方案,我稱之為“Nigiro Challenge”。
我們先來(lái)一點(diǎn)背景知識(shí)。從楔形文字、文字起源的研究中,大家不要覺(jué)得我們好像已經(jīng)知道幾千年前、上萬(wàn)年前進(jìn)程的真相了,我們其實(shí)沒(méi)那么有把握,歷史研究永遠(yuǎn)如此,我們是逆推的。目前就楔形文字的起源來(lái)說(shuō),只能比較明確地講,與三種文字緣起前的現(xiàn)象有關(guān):一個(gè)是所謂的“陶籌”,英文也叫Token;另一個(gè)是印章上的各種象形符號(hào);再次是早期的數(shù)學(xué)系統(tǒng)。我們基本認(rèn)為這三種現(xiàn)象和文字的緣起有關(guān)。

用來(lái)記錄交易的陶籌
先說(shuō)陶籌。在公元前8000年,陶籌就已經(jīng)在西亞、近東這一帶廣泛出現(xiàn),主要功能是計(jì)數(shù),比如羊的數(shù)量、糧食的收成。到公元前4000紀(jì),陶籌變得復(fù)雜起來(lái),有時(shí)會(huì)出現(xiàn)穿孔、刻痕。更有意思的是,人們會(huì)把陶籌放到黏土“信封”中間,有點(diǎn)類似于我們現(xiàn)在把錢或東西放在信封里然后封上蠟印,用來(lái)記錄交易或記錄財(cái)產(chǎn)。
在陶籌之外,印章是一個(gè)相對(duì)并行的技術(shù)系統(tǒng)。早在公元前7000紀(jì),西亞地區(qū)的人們就已經(jīng)開(kāi)始使用印章,把它蓋在容器的封泥上,用來(lái)確認(rèn)物品歸屬或保證交易安全。一開(kāi)始印章圖案比較簡(jiǎn)單,后來(lái)變得復(fù)雜,出現(xiàn)具體的圖像、動(dòng)物、人物。
同樣在公元前4000紀(jì)中期,滾筒印章出現(xiàn)了。這種印章的優(yōu)勢(shì)在于可以覆蓋更大的黏土表面,而且圖案更加精美。根據(jù)我們有依據(jù)的判斷,它們大多由當(dāng)時(shí)的機(jī)構(gòu)人員使用,比如寺廟的管理者,用來(lái)在容器封泥、房門封泥上蓋章。在這個(gè)意義上,它也象征著權(quán)力與信任,就像我們現(xiàn)在的公章,一旦蓋上就代表著某種權(quán)威和認(rèn)可。

滾筒印章可覆蓋更大黏土表面, 多用于容器封泥 、房門封泥等 ,可能由機(jī)構(gòu)人員使用 ,圖案含場(chǎng)景或簡(jiǎn)單設(shè)計(jì)
再就是數(shù)學(xué)。這個(gè)過(guò)程從研究難度上更復(fù)雜,我們只能用后世的眼光來(lái)看。實(shí)際上,到了公元前4000紀(jì)末、公元前3500年到公元前3000年這個(gè)時(shí)期,理論上文字已經(jīng)出現(xiàn),我們?nèi)匀话l(fā)現(xiàn),在最初的文字系統(tǒng)中,多種數(shù)學(xué)計(jì)數(shù)系統(tǒng)是并行的。目前有的學(xué)者認(rèn)為有5種,有的認(rèn)為有6種甚至更多。比如,我們稱之為“S系統(tǒng)”的,用來(lái)記錄牛羊的數(shù)量;另外像?E“谷物系統(tǒng)”,是專門用來(lái)記錄容量的。
大約在公元前3500年到公元前3000多年,一般認(rèn)為在這一時(shí)期,楔形文字在此前提到的陶籌、印章及數(shù)學(xué)系統(tǒng)發(fā)展的基礎(chǔ)上出現(xiàn)了。我們能看到這個(gè)結(jié)果:一開(kāi)始是純數(shù)字的泥板,上面只有數(shù)字符號(hào)。后來(lái)人們會(huì)在數(shù)字旁邊加上一到兩個(gè)表意符號(hào),這就成了“數(shù)字+表意符號(hào)”。比如,一個(gè)數(shù)字“5”旁邊加上一個(gè)代表“羊”的符號(hào),意思就是有五只羊,這有點(diǎn)像我們到超市的購(gòu)物賬單。這個(gè)時(shí)期我們稱之為烏魯克四期。同時(shí),烏魯克四期還出現(xiàn)了“標(biāo)簽”,上面沒(méi)有數(shù)字,但有糧食、布匹等其他一些我們不一定認(rèn)得的符號(hào),我們現(xiàn)在認(rèn)為可能是商品標(biāo)簽,甚至可能是名片。

烏魯克四期的標(biāo)簽
根據(jù)現(xiàn)在的統(tǒng)計(jì),大約在公元前3200-3300年,早期的楔形文字符號(hào)大概有1900個(gè)左右,包括象形符號(hào)和所謂的“矩陣符號(hào)”——矩陣符號(hào)類似于我們漢字中的偏旁,組合成一個(gè)符號(hào)以提供更多語(yǔ)義信息。雖然我們現(xiàn)在對(duì)早期的發(fā)音系統(tǒng)基本上一無(wú)所知,但我們知道這個(gè)時(shí)候的符號(hào)已經(jīng)在使用轉(zhuǎn)喻原則。基本上可以判斷,表示植物的符號(hào)可以用來(lái)表示“花園”。但是否涉及音轉(zhuǎn)等問(wèn)題?有些問(wèn)題我們有明確回答,有些沒(méi)有。
我們大概回顧了這樣一個(gè)過(guò)程,這里面有一個(gè)非常關(guān)鍵的問(wèn)題:學(xué)者們公認(rèn),文字的形成和發(fā)展、文字的起源,其實(shí)和社會(huì)復(fù)雜性的增長(zhǎng)密切相關(guān)。到了公元前4000年紀(jì)的下半葉,南部美索不達(dá)米亞社會(huì)變得復(fù)雜,行政管理和社會(huì)管理的壓力越來(lái)越大。這時(shí)人們首先需要記錄生產(chǎn)、貨物、勞動(dòng)力等各種情況,文字在這個(gè)意義上應(yīng)運(yùn)而生。人類發(fā)明文字的能力并不是到這個(gè)時(shí)期才有,但文字的大規(guī)模出現(xiàn),其實(shí)和這個(gè)時(shí)期人類作為集體的發(fā)展有關(guān)系。從計(jì)數(shù)到表意,從圖畫符號(hào)到與語(yǔ)音系統(tǒng)結(jié)合,在這個(gè)意義上,從今天回望過(guò)去,書寫文字作為人類集體智能的結(jié)晶方式,正式登上了歷史舞臺(tái)。
恰恰也是從這個(gè)角度,我們的腦洞開(kāi)始了。剛才我已經(jīng)提到,當(dāng)我們講“陶籌”時(shí),在我們領(lǐng)域里用英文表達(dá)就是“Token”。而在現(xiàn)代AI的大語(yǔ)言模型中,一個(gè)極為重要的步驟事實(shí)上就是 Tokenization(詞元化/分詞)。正是從這里,作為一種啟發(fā),莊閑和游戲我開(kāi)始考慮這樣一個(gè)腦洞:如果說(shuō)從陶籌到楔形文字、到文字的發(fā)明,人類完成了從具象計(jì)數(shù)到抽象符號(hào)的跨越,那么人工智能似乎正在嘗試通過(guò)對(duì)抽象符號(hào)的處理,回歸那個(gè)復(fù)雜的、難以言說(shuō)的具象生活世界。
人工智能要理解人類語(yǔ)言,某種意義上像一個(gè)逆向工程。它把語(yǔ)言拆分成一個(gè)個(gè)最小的、有意義的單元,這就是他們講的Tokenization。最開(kāi)始的詞元化是“詞級(jí)”的,就是以空格或標(biāo)點(diǎn)來(lái)分割詞語(yǔ),但這種辦法有很多問(wèn)題,比如詞匯表規(guī)模太大,無(wú)法處理生僻詞或未登錄詞。后來(lái)人們發(fā)展出“字符級(jí)”詞元化,以字符為基本處理單元。這樣一來(lái),詞匯表規(guī)模縮小了,但缺點(diǎn)也很明顯:生成的序列長(zhǎng)度太大,機(jī)器很難捕捉語(yǔ)義信息。
現(xiàn)在的主流是在此基礎(chǔ)上發(fā)展的“子詞”詞元化,比如BPE、WordPiece、SentencePiece。它的特征是在詞和字符之間取得平衡:常見(jiàn)詞保留整體,罕見(jiàn)的詞可能分解成子單元。
在詞元化的基礎(chǔ)上,需要一個(gè)強(qiáng)大的模型來(lái)處理這些詞元,這就是所謂的Transformer架構(gòu)。Transformer是一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu),專為任務(wù)設(shè)計(jì)。在Transformer之前,人們常用的是循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)處理詞元,但它有個(gè)缺點(diǎn):處理長(zhǎng)文本時(shí)效率很低,因?yàn)樗枰徊讲教幚砻總€(gè)詞元,無(wú)法并行計(jì)算。Transformer不一樣,它可以并行處理輸入序列,同時(shí)捕捉長(zhǎng)距離詞語(yǔ)之間的相互關(guān)系。這有點(diǎn)像我們閱讀文章時(shí)同時(shí)注意上下文——其實(shí)我們讀書也不是一個(gè)詞一個(gè)詞讀的,是一頁(yè)一頁(yè)、一片一片讀的。所以在這個(gè)意義上,Transformer好像有點(diǎn)“人味”了——它可以同時(shí)處理整個(gè)文本序列,從而更好地理解語(yǔ)義。這也是GPT等大型語(yǔ)言模型能夠生成連貫流暢文本的關(guān)鍵所在。

但事實(shí)上,早在上世紀(jì)90年代,就有哲學(xué)家提出:人工智能搞語(yǔ)言模型,真的能理解語(yǔ)言、擁有智能嗎?雖然今天我們看到人工智能在語(yǔ)言處理方面取得了很大成功,但哲學(xué)家們提出了“符號(hào)接地問(wèn)題”:純粹的符號(hào)系統(tǒng)內(nèi)部操作,真的能賦予符號(hào)指稱和意義嗎?這是個(gè)哲學(xué)問(wèn)題:人工智能是真的理解了語(yǔ)言,還是只是在統(tǒng)計(jì)符號(hào)之間的關(guān)系?
比如說(shuō),當(dāng)人工智能輸出“蘋果”的時(shí)候,它真的是知道蘋果可以吃、有紅色外皮、味道等屬性,還是僅僅因?yàn)椤疤O果”這個(gè)詞經(jīng)常和“水果”、“吃”這些詞一起出現(xiàn)?這是一個(gè)統(tǒng)計(jì)。我想,這是我們對(duì)于大語(yǔ)言模型、人工智能一個(gè)比較根本的質(zhì)疑所在。這也是為什么現(xiàn)在像李飛飛老師他們提出,真正的人工智能應(yīng)該通過(guò)“具身交互”學(xué)習(xí),也就是通過(guò)感知、行動(dòng)與世界互動(dòng),從而解決符號(hào)接地問(wèn)題。好比我們通過(guò)觸摸、品嘗、觀察來(lái)認(rèn)識(shí)蘋果,而不僅僅是通過(guò)書本上的文字。
作為一個(gè)文科生,看到AI的這種“茫然”,讓我有了一種沖動(dòng)去尋找一個(gè)標(biāo)準(zhǔn):什么樣的人工智能是我能夠接受的、我愿意承認(rèn)的?那我就要?jiǎng)佑靡稽c(diǎn)我自己的專業(yè)背景了。我們需要一種測(cè)試方案,不管怎樣,來(lái)判斷人工智能(無(wú)論是基于大語(yǔ)言模型還是具身學(xué)習(xí))是否真的擁有能夠和人類相比的智能水平。
但很遺憾,我查了半天,發(fā)現(xiàn)現(xiàn)在其實(shí)沒(méi)有公認(rèn)的標(biāo)準(zhǔn)來(lái)檢驗(yàn)可能到來(lái)的人工智能。例如,搭載人工智能程序的機(jī)器人,我們到底要不要把它當(dāng)作人類社會(huì)的一員、真正的智能體呢?大家稍微注意一下都知道“圖靈測(cè)試”——1950年艾倫·圖靈提出的著名測(cè)試:在基于文本的自然語(yǔ)言對(duì)話中,如果機(jī)器的行為與人類無(wú)異,以至于測(cè)試者無(wú)法區(qū)分,那么是不是就可以認(rèn)為機(jī)器具有智能?但現(xiàn)在根據(jù)報(bào)道,不少人工智能系統(tǒng)都試圖或聲稱已經(jīng)通過(guò)圖靈測(cè)試,圖靈測(cè)試本身好像有問(wèn)題了。

圖靈
通過(guò)對(duì)圖靈測(cè)試的反思,有學(xué)者提出:圖靈測(cè)試的問(wèn)題在于,它應(yīng)該叫做 “Gnirut”測(cè)試(把“圖靈”反過(guò)來(lái)寫)。因?yàn)槟氵@個(gè)圖靈測(cè)試的游戲,事實(shí)上只不過(guò)是像一面鏡子測(cè)試提問(wèn)者的水平:你漂亮,它照出來(lái)你就漂亮;你丑,它照出來(lái)就丑;你提的問(wèn)題有深度,AI的回答就精彩;你的問(wèn)題比較愚蠢,它出來(lái)的回答就比較愚蠢。
那么,考慮到對(duì)圖靈測(cè)試的這種反思,特別是考慮到我們剛才提到的人工智能的“社會(huì)性”,我隆重推出:有沒(méi)有一種真正具有終極意義的測(cè)試方案呢?這就是Nigiro Challenge。大家可能已經(jīng)看到,Nigiro就是“Origin”(起源)的反寫,象征著對(duì)人類智能的逆向探索。是否有可能找到一種測(cè)試,不僅為測(cè)試AI通用智能提供一種可能方案,同時(shí)也讓我們重新審視人類智能誕生與發(fā)展的歷史?
{jz:field.toptypename/}學(xué)歷史的難免要“自戀”一些:人類的智能是在社會(huì)環(huán)境中逐漸發(fā)展起來(lái)的,文字的發(fā)明就是一個(gè)很好的例子。那么,具身的人工智能體,能不能在模擬的社會(huì)環(huán)境中,重新發(fā)明、創(chuàng)新并系統(tǒng)化構(gòu)建一套對(duì)他們來(lái)說(shuō)可外化的文字體系,來(lái)記錄他們的文明故事呢?
Nigiro Challenge 的內(nèi)容其實(shí)非常簡(jiǎn)單,就是針對(duì)所謂通用人工智能體的“社會(huì)性虛擬造字測(cè)試”。想象一下,人工智能體社會(huì)能否在與其他智能體的社會(huì)互動(dòng)中,一步步發(fā)明出他們自己的文字?如果他們能夠做到這一點(diǎn),那是不是就意味著他們擁有了(類似人類的)智能?從文字的角度,我愿意承認(rèn):如果一群智能機(jī)器人發(fā)明了一個(gè)他們的文字系統(tǒng),我個(gè)人覺(jué)得也許可以承認(rèn)這樣的智能體應(yīng)該被接納為人類社會(huì)的“合格成員”。一個(gè)社會(huì)能夠獨(dú)立發(fā)明文字,雖然未必是人類擁有文明的唯一標(biāo)志,但確實(shí)是人類文明有形的結(jié)晶。
從文字的起源開(kāi)始,我們回顧了陶籌、印章、楔形文字,又探討了自然語(yǔ)言處理中的詞元和Transformer。最后,我們作為一個(gè)腦洞提出了 The Nigiro Challenge。我們已經(jīng)講過(guò),文字的出現(xiàn)體現(xiàn)了人類智能的發(fā)展。而人工智能的發(fā)展,事實(shí)上讓我們重新回過(guò)頭去思考智能本身的本質(zhì)。也許我們?cè)谧闹T位永遠(yuǎn)不知道“人是什么”,但我們也許可以借著這個(gè)契機(jī)去思考一下“智能是什么”。
從我們略知一二的楔形文字起源故事,用逆向工程的方式,我感覺(jué)我自己的專業(yè)好像忽然有了一個(gè)意外的高大上用處。沿著大語(yǔ)言模型的路徑繼續(xù)發(fā)展,還是通過(guò)具身學(xué)習(xí)?這都不是我的專業(yè),都需要繼續(xù)研究。但是,Nigiro Challenge 至少也許會(huì)讓我們?cè)谙蛑斯ぶ悄芸癖嫉耐瑫r(shí),不忘回望一下我們?nèi)祟愔悄艿倪^(guò)往。如果人類文明的歷史只是智能的升級(jí),當(dāng)通用人工智能體社會(huì)用我們不可能認(rèn)得的、他們自己的文字記錄他們文明故事的時(shí)候,那我們這些有肉身的人類,是不是也許就真的可以退場(chǎng)了?
希望今天的分享能夠給大家一點(diǎn)樂(lè)趣。謝謝。

本文系觀察者網(wǎng)獨(dú)家稿件,文章內(nèi)容純屬作者個(gè)人觀點(diǎn),不代表平臺(tái)觀點(diǎn),未經(jīng)授權(quán),不得轉(zhuǎn)載,否則將追究法律責(zé)任。關(guān)注觀察者網(wǎng)微信guanchacn,每日閱讀趣味文章。