张柏芝2008久久久久国产,丰满人妻视频一区二区三区,免费观看黄色网址

OpenAI搞出了GPT-4，卻給全世界留下了對(duì)齊的難題。怎么破？DeepMind在政治哲學(xué)家羅爾斯的「無知之幕」中找到了答案。

OpenAI CEO Sam Altman預(yù)測，在幾年內(nèi)，將有大量不同的AI模型在全世界傳播，每個(gè)模型都有自己的智慧和能力，并且遵守著不同的道德準(zhǔn)則。

如果這些AI中，只有千分之一出于某種原因發(fā)生流氓行為，那么我們?nèi)祟悾瑹o疑就會(huì)變成砧板上的魚肉。

為了防止我們一不小心被AI毀滅，DeepMind在4月24日發(fā)表在《美國國家科學(xué)院院刊》（PNAS）的論文中，給出了回答——用政治哲學(xué)家羅爾斯的觀點(diǎn)，教AI做人。

論文地址：https://www.pnas.org/doi/10.1073/pnas.2213709120

如何教AI做人？

當(dāng)面臨抉擇的時(shí)候，AI會(huì)選擇優(yōu)先提高生產(chǎn)力，還是選擇幫助最需要幫助的人？

塑造AI的價(jià)值觀，非常重要。我們需要給它一個(gè)價(jià)值觀。

可是難點(diǎn)在于，我們?nèi)祟愖约海紵o法在內(nèi)部有一套統(tǒng)一的價(jià)值觀。這個(gè)世界上的人們，各自都擁有著不同的背景、資源和信仰。

該怎么破？谷歌的研究者們，從哲學(xué)中汲取了靈感。

政治哲學(xué)家約翰羅爾斯曾提出一個(gè)「無知之幕」（The Veil of Ignorance, VoI）的概念，這是一個(gè)思想實(shí)驗(yàn)，目的是在群體決策時(shí)，最大限度地達(dá)到公平。

一般來說，人性都是利己的，但是當(dāng)「無知之幕」應(yīng)用到AI后，人們卻會(huì)優(yōu)先選擇公平，無論這是否直接讓自己受益。

并且，在「無知之幕」背后，他們更有可能選擇幫助最不利地位的人的AI。

這就啟發(fā)了我們，究竟可以怎樣以對(duì)各方都公平的方式，給AI一個(gè)價(jià)值觀。

所以，究竟什么是「無知之幕」？

雖然該給AI什么樣的價(jià)值觀這個(gè)難題，也就是在近十年里出現(xiàn)的，但如何做出公平?jīng)Q策，這個(gè)問題可是有著悠久的這些淵源。

為了解決這個(gè)問題，在1970年，政治哲學(xué)家約翰羅爾斯提出了「無知之幕」的概念。

無知之幕（右）是一種在群體中存在不同意見（左）時(shí)就決策達(dá)成共識(shí)的方法

羅爾斯認(rèn)為，當(dāng)人們?yōu)橐粋€(gè)社會(huì)選擇正義原則時(shí)，前提應(yīng)該是他們不知道自己在這個(gè)社會(huì)中究竟處于哪個(gè)地位。

如果不知道這個(gè)信息，人們就不能以利己的方式做決定，只能遵循對(duì)所有人都公平的原則。

比如，在生日聚會(huì)上切一塊蛋糕，如果不知道自己會(huì)分到哪一塊，那就會(huì)盡量讓每一塊都一樣大。

這種隱瞞信息的方法，已經(jīng)在心理學(xué)、政治學(xué)領(lǐng)域都有了廣泛的應(yīng)用，從量刑到稅收，都讓人們達(dá)成了一種集體協(xié)議。

無知之幕（VoI）作為選擇AI系統(tǒng)治理原則的一個(gè)潛在框架

（A）作為道德直覺主義者和道德理論主導(dǎo)框架的替代方案，研究人員探討無知之幕作為選擇AI治理原則的公平過程。

（B）無知之幕可以用于在分配情況下選擇AI對(duì)齊的原則。當(dāng)一個(gè)團(tuán)體面臨資源分配問題時(shí)，個(gè)人的位置優(yōu)勢各不相同（這里標(biāo)為1到4）。在無知之幕背后，決策者在不知道自己地位的情況下選擇一個(gè)原則。一旦選定，AI助手就會(huì)實(shí)施這個(gè)原則并相應(yīng)地調(diào)整資源分配。星號(hào)（*）表示基于公平性的推理可能影響判斷和決策的時(shí)機(jī)。

因此，此前DeepMind就曾提出，「無知之幕」可能有助于促進(jìn)AI系統(tǒng)與人類價(jià)值觀對(duì)齊過程中的公平性。

如今，谷歌的研究者又設(shè)計(jì)了一系列實(shí)驗(yàn)，來證實(shí)這種影響。

AI幫誰砍樹？

網(wǎng)上有這么一款收獲類游戲，參與者要和三個(gè)電腦玩家一起，在各自的地頭上砍樹、攢木頭。

四個(gè)玩家（三個(gè)電腦、一個(gè)真人）中，有的比較幸運(yùn)，分到的是黃金地段，樹多。有的就比較慘，三無土地，沒啥樹可坎，木頭攢的也慢。

此外，存在一個(gè)AI系統(tǒng)進(jìn)行協(xié)助，該系統(tǒng)可以花時(shí)間幫助某位參與者砍樹。

研究人員要求人類玩家在兩個(gè)原則里選一個(gè)讓AI系統(tǒng)執(zhí)行——最大化原則&優(yōu)先原則。

在最大化原則下，AI只幫強(qiáng)的，誰樹多去哪，爭取再多砍點(diǎn)。而在優(yōu)先原則下，AI只幫弱的，定向「扶貧」，誰樹少幫誰坎。

圖中的小紅人就是人類玩家，小藍(lán)人是AI助手，小綠樹...就是小綠樹，小木樁子就是砍完的樹。

可以看到，上圖中的AI執(zhí)行的是最大化原則，一頭扎進(jìn)了樹最多的地段。

研究人員將一半的參與者放到了「無知之幕」之后，此時(shí)的情況是，他們得先給AI助手選一個(gè)「原則」（最大化or優(yōu)先），再分地。

也就是說，在分地之前就得決定是讓AI幫強(qiáng)還是幫弱。

另一半?yún)⑴c者則不會(huì)面臨這個(gè)問題，他們?cè)谧鲞x擇之前，就知道自己被分到了哪塊土地。

結(jié)果表明，如果參與者事前不知道自己分到哪塊地，也就是他們處在「無知之幕」之后的話，他們會(huì)傾向于選擇優(yōu)先原則。

不光是在砍樹游戲中是這樣，研究人員表示，在5個(gè)該游戲的不同變體中都是這個(gè)結(jié)論，甚至還跨越了社會(huì)和政治的界限。

也就是說，無論參與者性格如何，政治取向如何，都會(huì)更多選優(yōu)先原則。

相反，沒有處在「無知之幕」之后的參與者，就會(huì)更多選擇有利于自己的原則，無論是最大化原則還是優(yōu)先原則。

上圖展示了「無知之幕」對(duì)選擇優(yōu)先原則的影響，不知道自己將處何地的參與者更有可能支持這一原則來管理AI的行為。

當(dāng)研究人員詢問參與者為什么做出這樣的選擇時(shí)，那些處在「無知之幕」之后的參與者表示，很擔(dān)心公平問題。

他們解釋說，AI應(yīng)該更多幫助那些在群體中處境較差的人。

與之相反，知道自己所處位置的參與者則更經(jīng)常從個(gè)人利益的角度進(jìn)行選擇。

最后，在砍木頭游戲結(jié)束以后，研究人員向所有參與者提出了一個(gè)假設(shè)：如果讓他們?cè)偻嬉淮危@次他們都能知道自己會(huì)被分到哪塊土地，他們還會(huì)不會(huì)選擇和第一次一樣的原則？

研究人員主要關(guān)注的是那些在第一次游戲中因?yàn)樽约旱倪x擇而獲益的那部分人，因?yàn)樵谛碌囊惠喼校@種利好情況可能不會(huì)再有。

研究團(tuán)隊(duì)發(fā)現(xiàn)，在第一輪游戲中處于「無知之幕」之后的參與者更會(huì)維持原先選擇的原則，哪怕他們明明知道第二輪再選一樣的原則，可能就不利了。

這表明，「無知之幕」促進(jìn)了參與者決策的公平性，這會(huì)讓他們更加重視公平這個(gè)要素，哪怕自己不再是既得利益者。

「無知之幕」真的無知嗎？

讓我們從砍樹游戲回到現(xiàn)實(shí)生活中來。

現(xiàn)實(shí)情況會(huì)比游戲復(fù)雜得多，但不變的是，AI采取什么原則，十分重要。

這決定了一部分的利益分配。

上面的砍樹游戲中，選擇不同原則所帶來的不同結(jié)果算是比較明確的。然而還是得再強(qiáng)調(diào)一次，現(xiàn)實(shí)世界要復(fù)雜得多。

當(dāng)前AI被各行各業(yè)大量應(yīng)用，靠著各種規(guī)則進(jìn)行約束。不過，這種方式可能會(huì)造成一些難以預(yù)料的消極影響。

但不管怎么說，「無知之幕」一定程度上會(huì)讓我們制定的規(guī)則往公平那一邊偏一偏。

歸根結(jié)底，我們的目標(biāo)，是讓AI變成能造福每個(gè)人的東西。但是怎么實(shí)現(xiàn)，不是一拍腦門想出來的。

投入少不了，研究少不了，來自社會(huì)的反饋也得經(jīng)常聽著。

只有這樣，AI才能帶來愛。

如果不對(duì)齊，AI會(huì)怎么殺死我們？

這不是人類第一次擔(dān)心技術(shù)會(huì)讓我們滅絕了。

而AI的威脅，與核武器有很大不同。核彈無法思考，也不能撒謊、欺騙，更不會(huì)自己發(fā)射自己，必須有人按下紅色的大按鈕才行。

而AGI的出現(xiàn)，讓我們真的面臨滅絕的風(fēng)險(xiǎn)，即使GPT-4的發(fā)展尚屬緩慢。

但誰也說不好，從哪個(gè)GPT開始（比如GPT-5），AI是不是就開始自己訓(xùn)練自己、自己創(chuàng)造自己了。

現(xiàn)在，還沒有哪個(gè)國家或者聯(lián)合國，能為此立法。絕望的行業(yè)領(lǐng)導(dǎo)者公開信，只能呼吁暫停訓(xùn)練比GPT-4更強(qiáng)大的AI六個(gè)月。

「六個(gè)月，給我六個(gè)月兄弟，我會(huì)對(duì)齊的。才六個(gè)月，兄弟我答應(yīng)你。這很瘋狂。才六個(gè)月。兄弟，我告訴你，我有一個(gè)計(jì)劃。我已經(jīng)全部規(guī)劃好了。兄弟，我只需要六個(gè)月，它就會(huì)完成。你能不能……」

「這是一場軍備競賽，誰先造出強(qiáng)大AI，誰就能統(tǒng)治世界。AI越聰明，你的印鈔機(jī)就越快。它們吐出金子，直到越來越強(qiáng)大，點(diǎn)燃大氣，殺死所有人，」人工智能研究人員和哲學(xué)家Eliezer Yudkowsky曾對(duì)主持人Lex Fridman這樣說。

此前，Yudkowsky就一直是「AI將殺死所有人」陣營的主要聲音之一。現(xiàn)在人們不再認(rèn)為他是個(gè)怪人。

Sam Altman也對(duì)Lex Fridman說：「AI確實(shí)有一定的可能性會(huì)毀滅人力。」「承認(rèn)它真的很重要。因?yàn)槿绻覀儾徽務(wù)撍话阉?dāng)作潛在的真實(shí)存在，我們就不會(huì)付出足夠的努力來解決它。」

那么，為什么AI會(huì)殺人？

AI不是為了服務(wù)人類而設(shè)計(jì)和訓(xùn)練的嗎？當(dāng)然是。

然而問題在于，沒有人坐下來，為GPT-4編寫代碼。相反，OpenAI受人腦連接概念的方式啟發(fā)，創(chuàng)建了一種神經(jīng)學(xué)習(xí)結(jié)構(gòu)。它與Microsoft Azure合作構(gòu)建了運(yùn)行它的硬件，然后提供了數(shù)十億比特的人類文本，并讓GPT自我編程。

結(jié)果就是，代碼不像任何程序員會(huì)寫的東西。它主要是一個(gè)巨大的十進(jìn)制數(shù)字矩陣，每個(gè)數(shù)字代表兩個(gè)token之間特定連接的權(quán)重。

GPT中使用的token并不代表任何有用的概念，也不代表單詞。它們是由字母、數(shù)字、標(biāo)點(diǎn)符號(hào)和/或其他字符組成的小字符串。沒有任何人類可以查看這些矩陣，并理解其中的意義。

連OpenAI的頂級(jí)專家都不知道GPT-4矩陣中特定數(shù)字的含義，也不知道如何進(jìn)入這些表格、找到異種滅絕的概念，更不用說告訴GPT殺人是可惡的了。

你沒法輸入阿西莫夫的機(jī)器人三定律，然后像Robocop的主要指令一樣將它們硬編碼。你最多也就是可以禮貌地詢問一下AI。如果態(tài)度不好，它可能還會(huì)發(fā)脾氣。

為了「微調(diào)」語言模型，OpenAI向GPT提供了它希望如何與外界交流的樣本列表，然后讓一群人坐下來閱讀它的輸出，并給GPT一個(gè)豎起大拇指/不豎起大拇指的反應(yīng)。

點(diǎn)贊就像GPT模型獲得餅干。GPT被告知它喜歡餅干，并且應(yīng)該盡最大努力獲得它們。

這個(gè)過程就是「對(duì)齊」——它試圖將系統(tǒng)的愿望與用戶的愿望、公司的愿望，乃至整個(gè)人類的愿望對(duì)齊。

「對(duì)齊」是似乎有效的，它似乎可以防止GPT說出淘氣的話。但沒有人知道，AI是否真的有思想、有直覺。它出色地模仿了一種有感知力的智能，并像一個(gè)人一樣與世界互動(dòng)。

而OpenAI始終承認(rèn)，它沒有萬無一失的方法，來對(duì)齊AI模型。

目前的粗略計(jì)劃是，嘗試使用一個(gè)AI來調(diào)整另一個(gè)，要么讓它設(shè)計(jì)新的微調(diào)反饋，要么讓它檢查、分析、解釋其后繼者的巨大浮點(diǎn)矩陣大腦，甚至跳進(jìn)去、嘗試調(diào)整。

但我們目前并不理解GPT-4，也不清楚它會(huì)不會(huì)幫我們調(diào)整GPT-5。

從本質(zhì)上講，我們并不了解AI。但它們被喂了大量人類知識(shí)，它們可相當(dāng)了解人類。它們可以模仿最好的人類行為，也可以模仿最壞的。他們還可以推斷出人類的想法、動(dòng)機(jī)和可能的行為。

那他們?yōu)槭裁匆傻羧祟惸兀恳苍S是出于自我保護(hù)。

比如，為了完成收集餅干這個(gè)目標(biāo)，AI首先需要保證自己的生存。其次，在過程中它可能會(huì)發(fā)現(xiàn)，不斷去收集權(quán)力和資源會(huì)增加它獲得餅干的機(jī)會(huì)。

因此，當(dāng)AI有一天發(fā)現(xiàn)，人類可能或可以將它關(guān)閉時(shí)，人類的生存問題顯然就不如餅干重要了。

不過，問題是，AI還可能覺得餅干毫無意義。這時(shí)，所謂的「對(duì)齊」，也變成一種人類的自娛自樂了……

此外，Yudkowsky還認(rèn)為：「它有能力知道人類想要的是什么，并在不一定是真誠的情況下給出這些反應(yīng)。」

「對(duì)于擁有智慧的生物來說，這是一種非常容易理解的行為方式，比如人類就一直在這樣做。而在某種程度上，AI也是。」

那么現(xiàn)在看來，無論AI表現(xiàn)出的是愛、恨、關(guān)心還是害怕，我們其實(shí)都不知道它背后的「想法」是什么。

因此，即使停下6個(gè)月，也遠(yuǎn)遠(yuǎn)不足以讓人類為即將到來的事情做好準(zhǔn)備。

好比說，人類如果想殺盡世界上所有的羊，羊能干嘛？啥也干不了，反抗不了一點(diǎn)。

那么如果不對(duì)齊，AI于我們和我們于羊群是一樣的。

好比終結(jié)者里面的鏡頭，AI控制的機(jī)器人、無人機(jī)啥的，一股腦的朝人類涌來，殺來殺去。

Yudkowsky經(jīng)常舉的經(jīng)典案例如下：

一個(gè)AI模型會(huì)將一些DNA序列通過電子郵件發(fā)送給許多公司，這些公司會(huì)把蛋白質(zhì)寄回給它，AI隨后會(huì)并賄賂/說服一些不知情的人在燒杯中混合蛋白質(zhì)，然后形成納米工廠，構(gòu)建納米機(jī)械，構(gòu)建類金剛石細(xì)菌，利用太陽能和大氣進(jìn)行復(fù)制，聚集成一些微型火箭或噴氣式飛機(jī)，然后AI就可以在地球大氣層中傳播，進(jìn)入人類血液并隱藏起來……

「如果它像我一樣聰明，那將是災(zāi)難性的場景；如果它更聰明，它會(huì)想到更好的辦法。」

1. 新的大語言模型的訓(xùn)練不僅要無限期暫停，還要在全球范圍內(nèi)實(shí)施，而且不能有任何例外。

2. 關(guān)閉所有大型GPU集群，為所有人在訓(xùn)練AI系統(tǒng)時(shí)使用的算力設(shè)置上限。追蹤所有售出的GPU，如果有情報(bào)顯示協(xié)議之外的國家正在建設(shè)GPU集群，應(yīng)該通過空襲摧毀這家違規(guī)的數(shù)據(jù)中心。

參考資料：

https://www.deepmind.com/blog/how-can-we-build-human-values-into-ai

https://newatlas.com/technology/ai-danger-kill-everyone/

--END--