日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

邁向可信AI:生成式人工智能的治理挑戰及應對

時間:2023-07-14來源:他夫人瀏覽數:726

曹建峰 對外經

邁向可信AI:ChatGPT類生成式人工智能的治理挑戰及應對

摘? 要

2022年以來,隨著以ChatGPT、GPT-4等大型語言模型為標志的生成式人工智能的迅猛發展,人工智能迎來大模型時代。AI大模型被認為是革命性的技術進展,將給經濟社會發展帶來深遠影響。然而,AI大模型的快速發展應用也持續引發各界對其倫理安全風險的擔憂。面對生成式人工智能的倫理安全風險和治理挑戰,有必要在治理上倡導并推動踐行“負責任人工智能”的理念,建立敏捷靈活的AI監管和治理框架,通過多元化的治理舉措支持生成式人工智能創新發展和可靠應用,推動建立負責任的、可信的、以人為本的、合乎倫理道德的生成式人工智能發展生態。

關鍵詞

生成式人工智能;人類反饋的強化學習;人工智能治理路徑;科技倫理治理;人工智能治理社會化服務;安全防護措施

目? 次

一、生成式人工智能發展現狀和趨勢

二、生成式人工智能的主要安全和倫理挑戰

三、生成式人工智能治理的域外經驗

四、生成式人工智能的治理進路

2022年被認為是生成式人工智能(Generative AI)的拐點,人工智能不僅僅像以前那樣做分類或預測,而且開始獨立自主地創造連貫性內容,諸如文本、圖像、視頻、代碼等。盡管任何算法都可以產出特定的輸出,但生成式AI模型卻可以基于其訓練數據,對用戶的輸入(稱為“提示詞”,英文為Prompts)作出回應,產出圖片、文本、音頻、視頻等連貫的、具有意義的、令人信服的內容。

生成式AI模型,包括ChatGPT、GPT-4等大語言模型(Large Language Models,LLM)和Midjourney、Stable Diffusion等圖像生成模型,又被稱為基礎模型(Foundation Models),其作為基于種類豐富的海量數據預訓練的深度學習算法,展現出強大的、更加泛化的語言理解和內容生成能力,一下子將科幻拉入現實,因此獲得了廣泛的關注。生成式AI因此被認為是人工智能領域的一次躍遷(從感知、理解世界到生成、創造世界的躍遷),將成為新的生產力工具和創造力引擎,深刻影響經濟和社會。

尤其是生成式AI在文本生成和圖像生成上的巨大成功,不僅激起了新的AI發展浪潮,而且重燃了人們對可能實現比肩人類智能水平的通用人工智能(Artificial General Intelligence,AGI)的憧憬。在文本生成方面,美國AI研究機構OpenAI于2022年11月30日推出的對話機器人應用ChatGPT可謂是最典型的代表。ChatGPT是基于大語言模型GPT-3.5和GPT-4,經過微調(Fine Tuning)開發的對話機器人應用。ChatGPT讓人驚艷的地方在于它的通用性和多才多藝;ChatGPT所捕獲的知識遠超任何個人所知道的知識,這使得其可以勝任各種形式的文字任務,諸如寫文章、創作詩歌、寫代碼、做翻譯,等等。ChatGPT發布后兩個多月時間就獲得了1億用戶,是有史以來用戶增長最快的消費者應用程序。驅動ChatGPT的大模型GPT-4則在美國通過了法律、醫學等領域的職業資格考試且名列前茅。微軟公司的研究團隊甚至得出結論稱GPT-4正在接近人類水平的智能(AGI),認為GPT-4閃現出了通用人工智能的火花,可以被看作是通用人工智能系統的一個早期版本。深度學習之父Geoffrey Hinton 在接受采訪時表示,在GPT-4出現之前,他認為實現AGI可能需要20—50年,但現在可能在20年內就能實現。在圖像生成方面,人們驚艷于Midjourney、Dalle-2、Stable Diffusion等生成模型的強大理解和創造能力,可以把用戶輸入的任何文字描述轉化為惟妙惟肖的圖像。可以說,在文字、代碼、圖像等多種內容的生成方面,生成式AI已經足以比肩人類。

ChatGPT的成功,在科技行業引發了新一輪AI發展競賽,國內外的主流科技公司紛紛加入生成式AI大模型的競賽中來,競相訓練各自的大型語言模型。在此背景下,生成式AI的應用此起彼伏,其發展變化如此之快,以至于似乎給人們的適應能力提出了真正的挑戰。一場真正的AI革命似乎正在加速到來。比爾·蓋茨坦言,在他的一生中,見過兩個可謂革命性的技術展示,一次是1980年見到的用戶圖形界面(現代操作系統的先導),另一次就是2022年看到的OpenAI公司開發的GPT模型。但與此同時,全球各界對生成式AI的近憂遠慮日益增多,甚至認為人工智能可能給人類和人類社會帶來巨大風險。例如,意大利的數據保護機構出于隱私和個人信息安全擔憂而暫時封禁了ChatGPT,并在OpenAI公司采取了回應措施之后才予以解禁。在美國,非營利性研究機構人工智能與數字政策中心(Center for AI and Digital Policy)向美國聯邦貿易委員會(FTC)作出投訴,要求對OpenAI公司進行調查,并在必要的防護措施建立之前防止發布新的AI模型。面對生成式AI的風險和挑戰,中國、美國、歐盟等已啟動制定新的監管規則。

此外,大模型在隱隱透露出通用人工智能(亦稱“強人工智能”)的曙光的同時,也引發了人們對AGI安全和控制問題的擔憂。例如,2023年3月22日美國非營利性研究機構未來生命研究所(Future of Life Institute)發布公開信,呼吁全世界所有的AI研究機構暫停訓練比GPT-4更加強大的AI系統,為期6個月。公開信認為,GPT-4等現代AI系統開始在一般性任務上有能力與人類同臺競爭。如果任由AI系統不加約束地發展,就有可能給信息信任(虛假信息充斥信息渠道)、人類工作(機器取代人類工作)、人類主體性(機器在智力和數量上超過人類)甚至人類文明(人類失去對文明的控制)帶來災難性風險。因此,只有當人們自信AI系統的影響是積極的,其風險是可控的時候,才可以開發更加強大的AI系統。總之,面對生成式人工智能的迅猛發展,人們需要加強人工智能治理,積極應對生成式人工智能的短期和中長期挑戰以及未來人工智能的潛在安全和社會倫理影響,以更加負責任的方式發展可信的、以人為本的人工智能。

一、生成式人工智能發展現狀和趨勢

現代人工智能的能力大爆發肇始于2010年前后,海量數據和強大算力的結合,讓“深度學習”(Deep Learning)技術如虎添翼,顯著地提升了計算機在識別圖像、處理音頻、玩游戲等方面的能力,但這高度依賴于仔細標注的訓練數據。如今,計算機在很多任務上可以完勝人類。但語言一直被認為是人類智能的專屬領域,人工智能在這方面的進展始終十分有限。然而,2022年以來,以ChatGPT、GPT-4等為代表的LLM的突破性發展,第一次向人們展示了AI生成內容(AI-Generated Contents, AIGC)可以比肩人類水平。以色列歷史學家尤瓦爾·赫拉利甚至認為,通過操縱和生成語言,生成式AI已經侵入了人類文明的操作系統。

大語言模型作為生成式AI的最典型代表,其最近取得的巨大成功(包括生產令人信服的文本內容,以及具有令人吃驚的“涌現能力”),主要得益于三個要素的組合:巨量數據,可以從數據中學習的算法(現在的大語言模型主要依靠Transformer算法),以及支持學習算法的強大算力。以ChatGPT為例,其技術原理主要分為兩個階段:首先是底層的大語言模型(如GPT-3和GPT-4)的預訓練階段,即拿巨量的數據來訓練模型,讓模型進行“自監督”學習,不斷優化模型參數(目前大語言模型的參數規模已經達到了千億、萬億級別)。不同于之前的AI模型,大語言模型不要求事先對數據進行標注,因此可以在更大規模的數據集上進行訓練;實際上,大語言模型可以基于整個互聯網的文本數據進行訓練。GPT-3的訓練數據是文本,主要來自互聯網上的公開信息,但也包括其他來源的數據。GPT-4則在文本數據之外,加入了大量的圖像數據進行訓練,因此可以同時處理文本和圖像的輸入,朝著多模態AI邁進了一大步。大語言模型的核心能力來源于預訓練階段。而且不同于傳統的自然語言處理技術(NLP),借助transformer算法及其“注意力網絡”(Attention Network),現在的大語言模型把各類語言任務和推理任務統一為“生成式”任務,顯著提升了AI模型的通用性和泛化能力。

其次是利用額外的標注數據對模型進行微調,這一過程使用的核心算法稱為人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF),簡單來說就是通過人類專家提供的樣例和反饋,來引導模型輸出更加符合人的需求和價值的內容。對于ChatGPT的巨大成功來說,RLHF算法絕對功不可沒。RLHF算法讓模型更加符合人類的價值觀和目的意圖,從而能夠輸出有用的、可信的、無害的內容。

就其運行而言,大語言模型實際上做的是“預測下一個字”(Predict the Next word)的任務(被戲稱為“文字接龍”游戲):模型先基于“提示詞”產生第一個字,然后把第一個字帶入模型產生第二個字,然后把前兩個字帶入模型產生第三個字,以此方式持續運算直至產生所有的輸出。這一過程被稱為“自回歸”(Autoregression)。因此,大語言模型實際上是以統計的方式而非語法的方式理解語言,在這個意義上,它更像是一個巨大的“文字算盤”,而非像“人類的心靈”。所以現在的大語言模型被認為是大型的統計預測機器。在技術原理上,大語言模型的能力和行為來源于模型的“預訓練”和“微調”這兩個階段,其在回答用戶的提問時,并不是從一個數據庫中或網絡上檢索、訪問既有數據,而是在很大程度上基于語言文字之間相互聯系的概率預測出回答。

大語言模型的最重要特征是它的涌現能力(Emergent Abilities),即當模型規模(就模型參數、權重而言)大到一定程度后出現了超出訓練目的(即預測下一個字)的能力或者小模型不具有的能力,諸如翻譯、常識推理、算術、編寫計算機程序、解決邏輯問題等。按照這一邏輯,只要人們把模型變得更大,模型就能夠做各種各樣的事情,成為更加實用、更加靈活、更加通用的工具。總之,涌現能力是這些極其巨大的“文字算盤”和其他更小的模型的一個關鍵區別,就是說大語言模型可以做小模型做不了的事情。OpenAI公司的研究人員統計出了不同大語言模型的137項“涌現”能力。涌現能力意味著大語言模型具有源源不斷的、未被開發的潛力。雖然如此,大模型的路徑依然存在一些局限性,例如訓練成本高昂(GPT-4的訓練成本估計超過1億美元),訓練成本的增長快于模型性能的提升,最終可能讓模型訓練的成本和效益嚴重倒掛;此外,可用的訓練數據面臨制約,GPT-3和GPT-4可能已經把互聯網公開信息中幾乎所有的高質量文本都拿去訓練了,2022年10月發布的一篇研究文章稱,很有可能到2026年前,高質量的語言數據就會被用盡。OpenAI公司首席執行官Sam Altman在一個場合甚至稱,AI大模型的時代已經結束了,未來人們需要以其他方式讓大語言模型變得更好、更實用。

大語言模型等生成式AI技術帶來了新的AI發展范式,其應用前景十分廣闊。對于大眾而言,生成式AI意味著新的創造力工具,將在更大程度上解放個體的創造力和創意生產。生成式AI介入創意工作和消費性內容的生產可能帶來三種可能性:AI輔助創意的大爆發;AI壟斷創意;人類創造更加優質且高價格的內容。如果未來生成式AI真的壟斷了創意工作,AI生成內容取代了人類創造的內容,那么以人類和人類的創造為中心的版權制度將面臨滅頂之災,斷言“版權法已死或者將死”也許并非妄言。對于經濟社會發展而言,生成式AI意味著新的生產力工具,將帶來生產效率的極大提升。比爾·蓋茨將人工智能的發展和微處理器、個人電腦、互聯網以及智能手機相提并論,認為其將重塑所有的行業。微軟公司首席執行官Satya Nadella認為,ChatGPT是知識工作者的“工業革命”,斷言人工智能將徹底改變所有類型的軟件服務。目前,搜索、辦公、在線會議等諸多軟件服務都已融入了生成式AI的能力。AI大模型的更大的經濟影響在于,其有望像智能手機的操作系統那樣,形成一個產業生態。OpenAI公司首席執行官Sam Altman稱,多模態的AI大模型有望成為繼移動互聯網之后的新的技術平臺。這意味著,開發人員基于預訓練的AI大模型,可以通過模型微調快速開發出垂直領域的模型應用并予以部署使用,人工智能的革命性正在于此。此外,生成式AI的典型代表ChatGPT通過人類語言與用戶交互,帶來了更簡單、更自然的用戶交互界面(User Interface),正在改變人機交互的方式。在這個意義上,ChatGPT類生成式AI應用有望成為比爾·蓋茨口中所謂的每個人的“數字化個人助手”。

總結而言,以ChatGPT為代表的生成式AI技術作為近十年來AI領域最具變革性的技術方向,將給經濟社會發展帶來巨大影響。如果說互聯網是信息(知識)傳播的成本和效率革命(帶來了信息的零成本復制傳播),那么生成式AI則是信息(知識)生產的成本和效率革命(有望帶來信息和知識的零成本生產創造)。現代經濟本質上是知識和信息經濟,因此,長期來看生成式AI的技術海嘯將在各行各業引發巨震。正如之前的“互聯網+”一樣,“AI+”將來有望和各行各業深度結合,在教育、醫療、金融、政務、制造、機器人、元宇宙、廣告營銷、電子商務、市場和戰略咨詢等眾多領域帶來新的應用形式。

二、生成式人工智能的主要安全和倫理挑戰

對于生成式AI的影響,樂觀者認為,其將給經濟社會發展帶來新的巨大機遇;悲觀者認為,人工智能可能在智慧上超過它的設計者,帶來災難性后果。就目前而言,生成式AI的發展應用正在帶來多方面的風險和挑戰。一方面是生成式AI的正常開發和商業應用中的風險,包括知識產權(例如,將受版權保護的內容作為訓練數據的合法地位問題、模型輸出的知識產權保護與侵權問題)、數據隱私(例如,訓練數據和模型的輸入、輸出可能包含個人信息)、責任承擔(例如,當模型輸出知識產權侵權性的、誹謗性的或者危險性的信息時哪個主體應當承擔法律責任)、網絡安全等方面的風險。目前,生成式AI已在知識產權侵權和人格侵權方面引發了一些訴訟。另一方面是生成式AI的惡用和濫用風險,借助生成式AI工具,惡意分子可以更容易、更大規模地進行詐騙、色情、身份假冒、騷擾、仇恨言論、虛假信息(如深度偽造)、網絡攻擊等違法犯罪活動。本文主要探討生成式AI的安全風險和治理挑戰,不觸及知識產權、數據隱私、侵權責任等部門法問題。

第一,大語言模型等生成式AI的可靠性、準確性問題,就是說這類模型可能輸出錯誤的、不準確的、不真實的事實。這一問題被業界稱為人工智能的“幻覺”(Hallucination)或“事實編造”(Confabulation)問題。通俗來講就是,ChatGPT類生成式AI模型會一本正經、非常自信地胡說八道,編造錯誤的、不準確的事實。例如,如果一個生成式AI模型的訓練數據并不包含特斯拉的營收數據,當被問到特斯拉的營收是多少時,它可能基于概率產生一個隨機的數字(例如136億美元)。OpenAI公司首席技術官Mira Murati認為,ChatGPT和底層的大型語言模型的最大挑戰是它們會編造錯誤的或者不存在的事實。有研究表明,大部分語言模型只有在25%的時間是真實可信的。

大語言模型之所以會出現“幻覺”問題,一方面是因為它的“文字接龍”游戲旨在輸出連貫的而非真實的內容,對于語言表達,它做的是基于訓練數據的模仿而非理解。另一方面是因為訓練數據的問題,包括訓練數據中的自相矛盾等。大語言模型基于整個互聯網的公開信息進行訓練,這既決定了它的能力,也決定了其局限性,互聯網內容存在的問題都可能映射在模型中。“幻覺”問題的存在警示人們要避免輕信生成式AI的輸出內容,正如OpenAI公司首席執行官Sam Altman所建議的那樣,在所有重要的事情上現在還不能依賴ChatGPT。生成式AI的“幻覺”問題可能給個人和社會帶來負面影響,在個人層面,目前已經發生了多起大語言模型輸出錯誤的、虛構的事實對個人進行污蔑、誹謗的案例;在社會層面,在“幻覺”問題被基本解決之前,如果人們過度依賴大語言模型來獲取信息和知識,長此以往可能污染人類社會的知識環境,導致錯誤的信息和知識充斥數字信息生態。

第二,AI大模型的價值對齊問題(Value Alignment Problem)。所謂人工智能的價值對齊(AI Alignment),就是讓人工智能系統的行為符合人類的目標、偏好或倫理原則。價值對齊是AI安全研究的一個核心議題。在理論上,如果一個強大的AI系統所追求的目標和人類的真實目的意圖和價值不一致,就有可能給人類帶來災難性后果。英國哲學家Nick Bostrom提出了一個思想實驗,設想有一個AI系統被授意制造盡可能多的回形針,作為一個愚忠的“智者”,這個AI系統為了完成這一開放式的目標,可能采取一切必要的措施把地球變成一座巨大的回形針工場,并導致人類的滅亡。就目前而言,大語言模型的價值對齊問題主要表現為,如何在模型層面讓人工智能理解人類的價值和倫理原則,盡可能地防止模型的有害輸出,從而打造出更加有用同時更加符合人類價值觀的AI模型。在這方面,RLHF是一個有效的方法,通過小量的數據就可能實現比較好的效果。簡言之,RLHF要求人類專家對模型輸出內容的適當性進行評估,并基于人類提供的反饋對模型進行優化。其目標是減少模型在未來生產有害內容的可能性。實際上,RLHF算法不僅是確保AI模型具有正確價值觀的關鍵所在,而且對于生成式AI領域的長期健康可持續發展也十分重要。

另一個思路是利用人工智能監督人工智能,研究人員提出了“憲法性AI”(Constitutional AI)的方法,具體而言就是,一個從屬的AI模型評估主模型的輸出是否遵循了特定的“憲法性”原則(即原則或規則清單),評估結果被用于優化主模型。該方法的優勢在于不需要人類標注員,但誰來確定所謂的“憲法”卻是一個懸而未決的問題。在實踐中,AI大模型公司Anthropic已經將“憲法性AI”的方法用在了其大語言模型Claude上,并取得了一定的效果,在無需人類監督的情況下幫助Claude變得更加安全、實用。總之,人工智能的價值對齊問題之所以重要,是因為它關乎人類未來能否實現對超級強大的智能(如AGI)的安全控制。當然,人們是否有辦法對超級強大的智能進行價值對齊,是一個被激烈爭辯的問題,目前的價值對齊方法可能是無效的。

第三,大語言模型等生成式AI的算法歧視問題。很多既有研究表明,大語言模型會從訓練數據中復制有害的社會偏見和刻板印象。因為大語言模型的核心能力來源于訓練數據,而訓練數據基本都是人類的語言文字表達,且其規模巨大(例如,GPT模型基本上是基于整個互聯網的文本數據進行訓練),因此模型捕獲、習得訓練數據中的偏見和歧視是必然的,例如,學習和復制那些常常被邊緣化的群體所受到的貶低和刻板印象。除了訓練數據,算法在設計選擇、自主學習、用戶交互、應用部署等環節也可能產生歧視。此外,人們需要警惕的是,大語言模型的自主學習和持續迭代可能把訓練數據中的偏見和歧視固化在模型中并進行放大,陷入歧視性的反饋循環(Feedback Loop),而且由于模型的不透明性和不可解釋性,這將使得減少、消除模型中的算法歧視變得更加困難。

當前,大語言模型、圖像生成模型等生成式AI應用已經展現出了性別、年齡、種族、職業、宗教信仰、身體殘疾等方面的歧視,例如,GPT-3顯示出了基于宗教信仰的偏見和性別歧視,大語言模型Gopher存在職業與性別之間的刻板印象聯想,OpenAI公司在對其圖像生成模型Dalle-2進行公平性測試時發現,其模型表現出顯著的性別和種族歧視。對于AI大模型的算法歧視問題,OpenAI公司首席執行官Sam Altman認為,不可能有哪個模型在所有的領域都是無偏見的。因此,核心問題是如何檢測、減少、消除模型的潛在歧視。在技術實踐中存在一些檢測、消除算法歧視的方法。例如:對訓練數據進行記錄以識別是否存在代表性不足或多樣化不足的問題;對訓練數據進行人工或自動化篩選從而幫助訓練更加公平的語言模型;開發檢測識別模型或數據中的算法歧視的技術工具;推進模型的可解釋性和可理解性研究;等等。

第四,大語言模型等生成式AI面臨更大的惡用和濫用風險。ChatGPT等強大的AI模型的一個不容忽視的風險是,惡意分子將可能擁有更大的作惡能力,將其濫用來威脅個人和社會利益。生成式AI降低了生產文本、圖像、音頻、視頻等各類內容的門檻和成本,在促進廣泛商業應用的同時,也給技術濫用大開方便之門,諸如色情、詐騙、虛假信息、網絡攻擊等。在生成式AI模型的濫用方面,目前存在兩個愈發緊迫的問題。

一是AI生成的虛假信息(Disinformation)。目前,各界對生成式AI模型安全問題的一個核心關切就是,生成式AI模型的濫用或惡用可能將生產、傳播假新聞、謠言等虛假信息帶到新的境地,給社會輿論帶來更大負面影響。一方面,AI虛假信息的范圍將是全維度的,覆蓋文字、圖像、視頻等各種形式的內容;另一方面,由于AI大模型的開源化發展,AI虛假信息的生產和傳播將變得越來越高效而低成本,意味著虛假信息可以被批量地、大規模地生產、傳播。此外,隨著生成式AI的持續改進,區別AI生成的內容和人類創造的內容將變得越來越困難,這給識別、打擊虛假信息提出挑戰。總之,在AIGC和來源于人類和現實世界的內容越來越難以區分的時代,人工智能有意或者無意制造的虛假信息將帶來更大的社會影響,所謂的AI時代恐怕會成為人類的后真相時代。

二是AI詐騙等網絡攻擊。近年來,國內外涉及AI換臉、聲音合成的詐騙案件呈多發之勢,如2019年不法分子通過合成歐洲某能源公司CEO的聲音成功詐騙22萬歐元;2021年詐騙團隊利用AI換臉技術偽造埃隆·馬斯克的虛假視頻,半年詐騙價值超過2億人民幣的數字貨幣;2023年4月,詐騙分子通過AI換臉和聲音合成技術偽造實時視頻通話,在成功騙取福州市某科技公司法人代表的信任后,讓該法人代表在10分鐘內轉賬430萬元到其銀行賬戶。這些AI詐騙之所以得逞,在很大程度上是因為生成式AI生成的虛假內容已經達到了足以以假亂真、普通人難以甄別真偽的水平。總之,生成式AI可能將電信詐騙等網絡攻擊提升到新的精細化水平,可以讓網絡攻擊者“工業化”地組織“魚叉式網絡釣魚”等網絡攻擊,進而牟取非法收益。在這個意義上,生成式AI帶來的人工智能新時代,可能也是虛假信息和網絡攻擊的新時代。針對生成式AI建立必要的安全防護措施,防范打擊潛在惡用和濫用行為,將成為生成式AI治理的重中之重。

因此,需要通過建立有效的AI治理機制和規則來妥善應對這些安全風險,打造可信的、負責任的、以人為本的生成式AI應用。但是,生成式AI自身的一些特征給有效的AI治理提出了額外的挑戰。一是大語言模型本身的可解釋性問題。可解釋性意味著對模型如何產生其輸出的深度理解。但是,大語言模型的輸出并不完全是可預測的、可解釋的。可以說,現在的大語言模型越來越成為全知全能但卻不可知的機器,因為這些所謂的機器學習模型是“黑盒”(Black Box)算法。由于機器學習模型是在自主學習和自我編程,所以它們究竟學到了什么以及為何產生特定輸出,常常是人類(包括模型的設計開發人員)所不能知曉和理解的。因此可以說,大語言模型增進了人類知識,而非人類理解。大語言模型的不透明性和不可解釋性,給妥善應對解決大模型相關的事實編造、算法歧視、責任承擔等問題提出挑戰。

二是大語言模型的涌現能力,意味著可能涌現出有風險的行為。對于大語言模型而言,涌現能力的存在意味著它具有更大的潛力。這些越來越大的AI大模型涌現出來的能力甚至超過了其創造者的理解和控制,這意味著各種風險將可能相伴而來。目前技術專家的一個普遍擔憂是,現在的AI大模型和將來的AGI可能形成自己的子目標(Sub-goals),可能導致出現不符合人類利益和價值觀的行為。

三是AI大模型生態中基礎模型提供者和下游開發者之間的信息不對稱問題。大語言模型之所以被稱為基礎模型,是因為它具有一定程度的通用性和泛化能力,可以適應各種各樣的任務。在AI大模型生態中,下游開發者可以基于基礎模型開發、部署垂直領域和場景的模型應用。這意味著生成式AI應用的開發部署是多個組織之間的協作。基礎模型的原始開發者不可能完全清楚其模型在下游具體場景的使用情況,下游開發者因為沒有參與原始模型的開發而可能并不完全清楚原始模型的能力、用途、局限性等情況。這可能增加出現失誤和意外行為的可能性,尤其是考慮到下游開發者可能高估生成式AI模型的能力。因此可以說,就那些重要的、可能影響個人權益的應用場景而言,多個主體協作開發、部署生成式AI應用,可能帶來更高程度的風險。

三、生成式人工智能治理的域外經驗

面對生成式人工智能的迅猛發展及其風險挑戰,各界呼吁加強AI治理,并開始探索新的治理舉措。例如,面對ChatGPT、GPT-4等生成式AI模型帶來的問題和引發的爭議,聯合國教科文組織(UNESCO)呼吁全球各國毫不遲延地執行其《人工智能倫理問題建議書》(Recommendation on the Ethics of Artificial Intelligence),打造合乎倫理道德的人工智能。UNESCO認為,《人工智能倫理問題建議書》作為首個全球性的AI倫理框架,為人工智能發展提供了所有必要的保護措施。本文重點論述國外在監管層面和技術實踐層面的發展狀況。

在監管層面,目前主要存在兩種不同的監管路徑。一種是以英國和美國為代表的輕監管路徑,強調基于具體應用場景和風險大小的行業分散監管,聚焦于監管AI技術的使用而非AI技術本身或整個行業,確保監管的相稱性和適應性。例如,對于AI監管,英國不考慮制定新的監管規則,或成立新的監管機構,而是將既有監管適用于AI系統,旨在促進創新和投資,把英國打造成AI超級大國。2023年3月29日,英國政府發布政策文件《一個促創新的人工智能監管路徑》(A Pro-innovation Approach to AI Negulation),在其中提出了其AI監管和治理框架。英國政府認為,考慮到AI技術進化的速度,需要采取敏捷的、迭代性的路徑。針對企業提出新的僵硬且嚴苛的立法要求,可能抑制AI創新,并限制對未來技術突破進展作出快速響應的能力。提議的AI監管框架的基礎是5項非法定的原則,包括安全(Safety)、安保(Security)和穩健性(Robustness),適當的透明度和可解釋性,公平性,問責和治理,可質疑性(Contestability)和救濟。這些原則并不需要被無差別地執行,而是需要由不同領域的監管機構結合AI應用的具體場景“量體裁衣”,靈活地落實這些原則。總之,英國政府認為,監管并不總是支持創新的最有效方式,需要采取多元化的治理措施,監管之外還包括認證技術(Assurance Techniques)、自愿性的指南、技術標準等。美國采取了和英國類似的路徑,強調行業監管和行業自律相結合的治理路徑,例如,美國白宮科學和技術政策辦公室(White HouseOffice of Science and Technology Policy)發布的《AI權利法案藍圖》(Blueprint for an AI Bill of Rights)在提出5項原則的同時,明確了行業主管部門牽頭、應用場景導向的分散化監管思路;美國國家標準技術研究所(National Institute of Standards and Technology,NIST)發布的《AI風險管理框架》為創新主體建立人工智能風險管理機制提供了明確的指引。此外,隨著生成式AI的快速發展,美國的立法者和執法部門開始探索立法和監管層面的更進一步的應對措施。

另一種是以歐盟為代表的強監管路徑。其思路是像監管藥品那樣監管人工智能,認為需要成立專門的監管機構,人工智能應用需要經過嚴格測試以及上市前的審批等。目前,歐盟正在制定一部統一的人工智能法案(AI Act),以實現對人工智能應用的全面監管。很多專家預測,正像之前的數據隱私立法《一般數據保護條例》(GDPR)對全球科技行業的影響那樣,歐盟人工智能法案將“布魯塞爾效應”延伸到AI領域,而這正是歐盟所希望的,即通過主導監管為全球樹立AI治理標準。AI立法之外,歐洲理事會還在醞釀全球第一個“國際AI公約”,正像之前的網絡犯罪公約和隱私公約那樣,成員國和非成員國都可以加入并批準將來的AI公約。隨著生成式AI的發展,歐盟立法者在制定人工智能法案過程中,積極回應生成式AI模型提出的挑戰,創設了“通用目的人工智能系統”(General Purpose AI System)這一概念來涵蓋像GPT-4這樣的基礎模型(Foundation Models)。歐盟立法者擬對基礎模型提供者提出更嚴格的義務,包括透明度義務、采取足夠的保障措施防止產生違反歐盟法律的內容、記錄并公開披露受版權保護的訓練數據的使用情況等。此外,歐盟立法者此前擬將通用目的AI系統作為高風險AI對待,但后來調整思路,采取了創新友好型的思路,并未將ChatGPT等基礎模型界定為“高風險”,而是設定了透明度、質量等方面的要求。

在技術實踐層面,生成式AI的創新主體積極探索技術上的和管理上的安全控制措施,主動防范應對生成式AI模型的潛在安全風險。這些措施包括對數據的干預(例如,對預訓練數據進行選擇和過濾等,以確保數據質量)、對模型架構的干預、對模型輸出的審查、對用戶使用行為的監測、對生成內容的事后檢測,等等。一般而言,在實踐中將AI工具和人類審查人員結合起來應對有害內容,是非常有效的干預機制。

從目前行業實踐來看,針對生成式AI模型的安全防護和保障措施主要包括兩類。

第一類是模型層面的保障措施或者說內部機制,主要包括價值對齊方法,旨在通過訓練教會模型拒絕涉及有害內容的請求,對敏感請求作出更恰當的回應,從而盡可能地減少輸出有害內容的可能性。例如,OpenAI公司的AI大模型GPT-4在RLHF訓練階段,通過增加額外的安全獎勵信號(Safety Reward Signal)來減少有害的輸出(Harmful Outputs),這一方法產生了很好的效果,顯著提升了誘出惡意行為和有害內容的難度。盡管如此,惡意分子依然有可能繞過模型的防護措施,通過所謂的“越獄”方法讓模型輸出有害內容。總之,RLHF方法通過引入人類專家的參與和評估,不僅幫助提升了模型的性能,而且讓模型變得更加安全可靠。但也必須看到,單純依靠人類反饋來訓練AI系統是非常低效的,所以業界也一直在探索更高效的方法,諸如訓練一個AI系統來輔助人類評估、訓練AI系統來自主進行價值對齊研究等。例如,前文論述的“憲法性AI”的方法就是利用人工智能來監督人工智能,相比于單純的人類評估和反饋,這一方法可以更高效地對模型進行優化改進。

第二類是非模型層面的保障措施或者說外部機制,旨在通過外部的安全措施來彌補模型自身的缺陷和局限性。一是內容過濾工具,例如OpenAI公司專門訓練了一個對有害內容進行過濾的AI模型(即過濾模型),來識別有害的用戶輸入和模型輸出(即違反其使用政策的內容),從而實現對模型的輸入數據和輸出數據的管控。二是對抗測試(Adversarial Testing)或者說紅隊測試(Red Teaming),簡言之就是在模型發布之前邀請專業人員(紅隊測試員)對模型發起各種攻擊,以發現潛在問題并予以解決。例如,在GPT-4發布之前,OpenAI公司聘請了50多位各領域學者和專家對其模型進行測試,這些紅隊測試員的任務是向模型提出試探性的或者危險性的問題以測試模型的反應,OpenAI公司希望通過紅隊測試,幫助發現其模型在不準確信息(幻覺)、有害內容、虛假信息、歧視、語言偏見、涉及傳統和非傳統武器擴散的信息等方面的問題。三是AI生成內容的檢測識別技術,業界通過訓練專門的AI模型來識別生成式AI生產的文本、圖像、音頻、視頻等各類合成內容,以確保內容的來源或真實性。此外,模型權限控制(如通過API接口提供模型)、數字水印、用戶使用監測(如監測用戶的濫用行為)、AI模型的使用政策、第三方評估或審計等諸多技術和管理工具,在應對各種安全風險方面也扮演著重要角色,共同確保以負責任的、安全可信的、合乎倫理道德的方式使用人工智能應用。

這些安全防護措施發生在生成式AI的整個生命周期,不同階段采取與之相適應的措施。以OpenAI公司為例,在預訓練階段,主要是針對數據,重點是減少訓練數據中色情性文本數據的數量。在預訓練之后的階段,主要包括利用RLHF算法改進模型的行為、對模型開展廣泛的測試和評估、邀請外部專家進行紅隊測試等。在模型的部署階段,主要包括API權限控制、對用戶違規行為進行監測和審核、第三方評估、模型漏洞獎勵項目、用戶反饋渠道、內容來源標準(如水印、元數據)等。總之,通過這些措施可以實現將安全和倫理價值嵌入AI系統的目的,打造安全可信的生成式AI模型及應用。在未來的生成式AI治理中,技術層面的安全防護措施將發揮關鍵作用。

四、生成式人工智能的治理進路

近年來,我國積極推進互聯網領域算法監管,強調安全可控、權益保護、公平公正、公開透明、濫用防范等多元目的,在算法應用分類分級基礎上制定監管措施,出臺了《互聯網信息服務算法推薦管理規定》《互聯網信息服務深度合成管理規定》等監管規范。相關監管規范提出了算法備案、安全評估、AI生成/合成內容標識等制度要求。今年以來,面對ChatGPT類生成式AI技術的快速發展創新,2023年4月國家網信辦發布《生成式人工智能服務管理辦法(征求意見稿)》,希望通過制定新的監管規范促進生成式人工智能健康發展和規范應用。

通過梳理既有監管規范可以發現,在AI監管和治理方面,我國已經明確了發展與安全并重、創新與倫理并行的思路,在支持、促進人工智能發展和創新的同時,保障技術應用的安全、可靠、可控。面向未來,對生成式人工智能的有效治理,離不開政府、企業、行業組織、學術團體、用戶和消費者、社會公眾、媒體等多元主體的共同參與,需要更好發揮出多方共治的合力作用,推進踐行“負責任人工智能”(Responsible AI)的理念,打造安全可信的ChatGPT類AI應用。“負責任AI”的理念意味著,人工智能領域的創新主體需要擁抱更加負責任的技術實踐,摒棄互聯網時代的所謂的“快速行動,打破陳規”的理念,即先快速把產品做出來,事后再通過修補的方式解決產品的社會問題。因為技術越是強大,其風險往往也更大,人工智能技術也是如此。這意味著,人工智能不是樂趣實驗,不應該拿整個社會來做實驗,以便檢驗技術創新及其結果。總之,為了避免人工智能時代成為另一個“快速行動,打破陳規”的時代,人們需要構建合理審慎的生成式AI治理框架,更好平衡創新與安全,把生成式AI的風險控制在社會可接受的限度。本文茲從以下三個方面提出生成式AI的治理進路。

首先,在立法和監管方面,當前階段宜對生成式AI技術、平臺和應用采取包容審慎、敏捷靈活的監管思路,對AI技術創新給予更大的包容度和試錯空間。當前,生成式AI已經成為全球各國在人工智能領域競爭的核心陣地,其不僅事關技術主權和數字主權,而且關乎未來產業體系甚至國家綜合實力。歐盟的AI監管思路調整、英國的AI治理框架均希望通過創新友好型的監管和治理措施,打造、提升其在AI領域的競爭力。而且考慮到AI技術進化的速度持續加快,在技術發展早期針對企業提出僵硬且嚴格的立法和監管要求,可能阻礙、抑制人工智能創新,并適得其反地限制社會各界對未來技術突破和進展作出快速響應的能力。因此,在生成式AI治理方面,敏捷靈活的監管思路更為適宜。這意味著:第一,基于應用分類和風險分級,針對不同的生成式AI產品、服務和應用采取不同的監管規則,監管應避免一般性地針對AI技術本身或整個行業;第二,不斷創新監管工具箱,采取多元化的監管舉措,諸如監管指南、監管沙盒、試點、示范應用、安全港、事后追責等更靈活的、易于迭代的監管方式,做好“以監管促創新、促發展”,同時實現安全、權益保障等監管目標。例如,歐盟在AI監管方面的一大創舉就是提出了AI監管沙盒(AI Regulatory Sandbox)。監管沙盒作為支持、促進監管者和創新主體之間溝通協作的有效方式,可以提供一個受控的環境來合規地研發、測試、驗證創新性的AI應用。從監管沙盒中產生的最佳實踐做法和實施指南,將有助于企業尤其是中小微企業和創業公司落實監管規則。

其次,發揮標準認證、科技倫理等軟法治理的優勢,加強生成式AI治理的標準化建設,發展AI治理社會化服務體系。

一是AI標準認證。《國家標準化發展綱要》指出,標準化在推進國家治理體系和治理能力現代化中發揮著基礎性、引領性作用。對于AI領域而言,AI標準不僅是支持、促進人工智能發展進步和廣泛應用的重要手段(如技術標準),而且是推進落實AI治理的有效方式(如治理標準、倫理標準),因為AI治理標準可以起到“承接立法和監管、對接技術實踐”的重要作用。而且AI治理領域的標準相比立法和監管更具敏捷性、靈活性和適應性。進一步而言,AI標準的優勢在于可以通過市場化的方式來落地,即AI治理社會化服務(亦稱AI倫理服務),包括認證、檢測、評估、審計等。英國是以市場化方式推進AI治理的典型代表,英國發布的《建立有效AI認證生態系統的路線圖》希望培育一個世界領先的AI認證行業,通過中立第三方的AI認證服務(包括影響評估、偏見審計和合規審計、認證、合規性評估、性能測試等)來評估、交流AI系統的可信性和合規性。英國希望通過5年時間培育一個世界領先的、數十億英鎊規模的AI認證行業。面對AI大模型的風險,美國政府計劃通過一個評估平臺讓社會大眾對領先AI公司的AI模型進行評估,這將允許技術社區和AI專家對AI模型進行評估,以探索相關模型如何遵循相關AI原則和實踐。對AI模型進行獨立的測試是AI模型的有效評估機制的一個重要組成部分。我國需要加快建立健全人工智能治理社會化服務體系,通過下游的AI治理標準認證和AI倫理服務更好承接、落實上游的立法和監管要求。

二是科技倫理治理。《關于加強科技倫理治理的意見》已經明確了創新主體的科技倫理管理主體責任,包括開展科技倫理風險監測預警、評估、審查等,加強科技倫理培訓,以及堅守科技倫理底線等。生成式AI領域的創新主體不能寄希望于以事后補救的方式來應對AI倫理問題,而是需要在從設計到開發再到部署的整個AI生命周期中,積極主動地履行科技倫理管理主體責任(例如建立科技倫理委員會),以多種方式創新性地推進科技倫理自律,這包括AI風險管理機制、倫理審查評估、倫理嵌入設計(Ethics by Design)、透明度機制(如模型卡片、系統卡片)、AI倫理培訓等做法。在這個方面,微軟、谷歌等國外主流科技公司探索出了較為成熟的經驗,例如,在美國國會的AI監管聽證會上,IBM首席隱私和信任官Christina Montgomery指出,研發、使用人工智能的企業需要建立內部治理程序:(1)委任一名人工智能倫理主管,負責整個組織的負責任、可信人工智能戰略;(2)建立人工智能倫理委員會或類似職能,作為統籌協調機構來落實戰略。他們認為,如果科技企業不愿意發布自己的原則,并建立團隊和程序來落實,那么在市場上將無立足之地。總之,科技企業的AI倫理治理是實現將倫理要求嵌入技術實踐的最重要方式;面向未來,監管部門需要給科技企業落實AI倫理治理提供必要的引導和支持。

三是行業自律。例如,監管部門可以指導行業組織制定生成式AI的倫理指南、自律公約等行業規范,同時將領先企業的優秀實踐總結上升為行業層面的最佳實踐做法和技術指南,建立負責任地研發、使用生成式AI技術的標準規范,幫助提升整個行業的生成式AI治理水平。

最后,支持創新主體加強技術治理,加大探索以技術方式解決技術帶來的問題。強大的數字技術不只意味著更大的競爭優勢,也可能意味著更大的倫理和安全風險。而且創新主體有義務和責任確保其AI產品的安全性和可靠性等。因此創新主體需要承擔更大的數字責任(Digital Responsibility),加強技術治理,探索應對生成式AI的倫理和安全風險的技術方案,以技術方式打造更值得信賴的生成式AI應用。實際上,正如前文所述,生成式AI生命周期中的很多安全風險都可以通過模型層面和非模型層面的防護措施來減輕甚至消除,從技術上打造更加安全可信的大語言模型。此外,對于諸如數據隱私、可解釋性、公平性、安全、倫理價值等問題,創新性的技術方案和技術眾包方式(如算法偏見賞金機制、眾包的紅隊測試等)都是十分有效的應對方式(如果不是最優解的話)。例如,除了自身的技術治理探索,OpenAI公司也在通過紅隊測試、AI系統漏洞獎勵項目等眾包方式,發揮社會力量幫助打造更加安全可信、實用可靠的生成式AI模型及應用。未來,政策制定者可以攜手行業,將創新主體在技術防護保障措施方面的優秀實踐,總結上升為可以向全行業推廣的技術指南、最佳實踐做法、標桿案例等行業指引和指南,提升全行業的AI治理水平。

總之,就目前而言,要求暫停研發生成式AI模型,或者對生成式AI施加嚴厲監管,看起來都是過度反應了。實際上,暫停是難以執行的,嚴厲的監管可能限制生成式AI技術給經濟社會發展帶來的巨大機遇和價值。當然,為了更好應對諸如隱私、偏見歧視、算法黑箱、知識產權、安全、責任、倫理道德等迫切的問題,針對生成式AI建立恰當的監管和治理框架是必要的。恰當的AI監管和治理框架需要平衡好對AI負面影響的擔憂和AI技術造福經濟社會發展和民生福祉的能力。這意味著AI監管需要精心設計,精準觸達。因為設計優良的監管,對于推動發展、塑造生機勃勃的數字經濟和社會可以產生強大的效應;但是設計糟糕的或者限制性的監管則會阻礙創新。正確的規則可以幫助人們信任他們所使用的產品服務,這反過來會推動產品服務的普及以及進一步消費、投資和創新。對于人工智能而言也是如此。

前瞻研究AGI等未來人工智能技術的經濟社會和安全影響也變得越來越必要和重要了。畢竟現在的人工智能系統的復雜性可能已經遠超人類的想象,擔憂人工智能的進一步發展可能給人類和人類社會帶來巨大風險和災難性后果可能也并非杞人憂天。OpenAI公司首席執行官Sam Altman、深度學習之父Geoffrey Hinton、以色列歷史學家尤瓦爾·赫拉利等諸多知名專家都對人工智能的未來發展提出了警告。其實早在1960年,控制論先驅維納就曾寫道:“為了有效防止災難性后果,我們對人造機器的理解必須和機器的能力提升同步發展。由于人類行動的異常緩慢,我們對機器的有效控制可能變得徒勞。等到我們能夠對我們的感官傳遞的信息作出反應,并剎停我們正在駕駛的汽車時,汽車可能早已徑直地撞到了墻上。”維納的告誡為現在不斷增多的對AI發展的各種擔憂和害怕提供了振聾發聵的注解。相信人類有意愿,也有能力打造人機和諧共生的技術化未來,讓未來高度技術化的智能社會持續造福于人類發展。當下的和未來的人工智能治理正是這一意愿和能力的“助推器”。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢