日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國(guó)內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國(guó)數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

ChatGPT 的運(yùn)行模式、關(guān)鍵技術(shù)及未來(lái)圖景

時(shí)間:2023-02-27來(lái)源:喂你是我的瀏覽數(shù):1169

美國(guó)人工智能實(shí)驗(yàn)室OpenAI 開發(fā)的人工智能聊天機(jī)器人應(yīng)用ChatGPT 引發(fā)廣泛熱議,被認(rèn)為是繼 互聯(lián)網(wǎng)、智能手機(jī)之后,帶給人類的第三次革命性產(chǎn)品?;ヂ?lián)網(wǎng)開辟了“空間革命”,智能手機(jī)的出現(xiàn)帶來(lái)“時(shí)間革命”,ChatGPT 的橫空出世有望形成“思維革命”,通過(guò)替代人類進(jìn)行創(chuàng)作、創(chuàng)意、解答、咨詢、翻譯和客服等改變?nèi)祟愃伎己吞幚韱?wèn)題的方式方法,由此重塑各行業(yè)生態(tài)乃至整個(gè)世界。

ChatGPT 的強(qiáng)大功能主要源自隱藏其背后的“巨無(wú)霸”模型——LLM。第一,這一 LLM 模型的規(guī)模必然是巨大的,有能力開發(fā)出該模型或改動(dòng)該模型參數(shù)的機(jī)構(gòu)較少。第二, LLM 應(yīng)具備強(qiáng)大的自主學(xué)習(xí)能力。

ChatGPT要取得令人驚艷的效果,其背后強(qiáng)大的推理能力必不可少。推理能力的本質(zhì)是綜合運(yùn)用較多相關(guān)知識(shí)點(diǎn),推導(dǎo)出新知識(shí) 或新結(jié)論。當(dāng)模型規(guī)模足夠大時(shí),LLM 本身就具備相應(yīng)的推理能力。

ChatGPT 背后的關(guān)鍵技術(shù)離不開大模型算法、大數(shù)據(jù)和大算力。

學(xué)術(shù)界普遍認(rèn)為,ChatGPT 的未來(lái)應(yīng)用場(chǎng)景充滿無(wú)限可能。從社交媒體到廣告創(chuàng)意,從游戲到影視娛樂(lè),從編程到深度寫稿,從平面設(shè)計(jì)到?產(chǎn)品工業(yè)設(shè)計(jì),從文字翻譯到外事同聲傳譯等,?每個(gè)原本需要人類創(chuàng)作的行業(yè)都等待被 ChatGPT 顛覆性重塑。

ChatGPT 被濫用的問(wèn)題愈發(fā)明顯,最常見的是作弊問(wèn)題。

政策建議:一是引導(dǎo)企業(yè)融入 ChatGPT 浪潮。二是推動(dòng) ChatGPT 技術(shù)融入元宇宙產(chǎn)業(yè)布局。?三是促進(jìn) ChatGPT 技術(shù)融入數(shù)字人( Digital Human/Meta Human) 功能。四是重視ChatGPT 隱患,將其納入社會(huì)科學(xué)研究課題。

埃龍?·馬斯克稱 ChatGPT將顛覆世界;微軟公司以數(shù)百億美元投資 ChatGPT,并計(jì)劃將其整合到微軟的 Of?ce 辦公軟件和 Bing 搜索引擎之中;部?分高校和學(xué)術(shù)機(jī)構(gòu)開展了關(guān)于用ChatGPT 寫論文?是否合規(guī)的大討論;還有部分咨詢公司開始擔(dān)憂是否會(huì)被其替代。2023 年,ChatGPT 的應(yīng)用熱情被?點(diǎn)燃,應(yīng)用場(chǎng)景不斷快速拓展。

一、ChatGPT?的運(yùn)行模式

2022 年 11 月上線的ChatGPT 是由美國(guó)人工?智能實(shí)驗(yàn)室 OpenAI 開發(fā)的人工智能聊天機(jī)器人應(yīng)用,上線不到一周用戶就突破 100 萬(wàn),兩個(gè)月時(shí)間 吸引活躍用戶過(guò)億,打破了抖音 9 個(gè)月吸引用戶過(guò) 億的記錄,成為歷史上用戶增長(zhǎng)速度最快的應(yīng)用程序。

回顧 ChatGPT 的發(fā)展歷程可知,OpenAI自GPT?1.0 開始,就將大型語(yǔ)言模型( LLM,Large Language?Model)視為通往通用人工智能(AGI,Arti?cial general intelligence)的必由之路。具體而言,在 OpenAI 看來(lái),未來(lái)的 AGI 應(yīng)擁有一個(gè)與任務(wù)無(wú)關(guān)的超大型 LLM,可以從海量的數(shù)據(jù)中學(xué)習(xí)各種知識(shí),LLM 以生成一切的方式解決各種各樣的實(shí)際問(wèn)題。除此之外,AGI 能夠聽懂人類的命令,便于人類使用。

(一)幕后:大型語(yǔ)言模型

ChatGPT 的“無(wú)比強(qiáng)大”的能力主要得益于其依托的大型語(yǔ)言模型。盡管 ChatGPT 加入人工標(biāo)?注數(shù)據(jù),但量級(jí)只有數(shù)萬(wàn),這一規(guī)模的數(shù)據(jù)量和訓(xùn)練與 GPT-3.5 模型使用的幾千億級(jí)別的數(shù)據(jù)量相比 幾乎可以忽略不計(jì),基本不會(huì)對(duì)提升 GPT-3.5 的??基礎(chǔ)能力發(fā)揮作用。因此,ChatGPT 的強(qiáng)大功能主要源自隱藏其背后的“巨無(wú)霸”模型——LLM。

對(duì)于LLM 的發(fā)展理念,可以將其理解為“構(gòu)建一個(gè)任務(wù)無(wú)關(guān)的超大型 LLM,讓它從海量數(shù)據(jù)中學(xué)習(xí)各種知識(shí)”。圖1展示了大型語(yǔ)言模型LLM。第一,這一LLM 模型的規(guī)模必然是巨大的,有能力開發(fā)出該模型或改動(dòng)該模型參數(shù)的機(jī)構(gòu)較少。對(duì)于任務(wù)需求方而言,無(wú)論是無(wú)數(shù)的中小機(jī)構(gòu)還是個(gè)人,即使有能力把大型語(yǔ)言模型開源?出來(lái),也無(wú)力部署這一模型,更遑論用微調(diào)( Fine- tuning)技術(shù)模式修改模型參數(shù)。因此,追求不修正模型參數(shù),即能讓任務(wù)需求方順利完成任務(wù)的方 式,應(yīng)該采取提示詞(Prompt)模式完成任務(wù),而?非微調(diào)模式。模型制作方將 LLM 作為公用基礎(chǔ)設(shè)施服務(wù),以基礎(chǔ)設(shè)施即服務(wù)( IaaS,Infrastructure as a Service)的模式運(yùn)行。與此同時(shí),作為服務(wù)提供方,要考慮千變?nèi)f化的用戶需求,LLM 模型開發(fā)?方追求讓 LLM 完成盡可能多類型的任務(wù),這成為大型語(yǔ)言模型追求走向通用人工智能的現(xiàn)實(shí)因素。

第二, LLM 應(yīng)具備強(qiáng)大的自主學(xué)習(xí)能力。假設(shè)人類向其灌輸世界上所有能夠獲得的文本或圖片 等不同類型的數(shù)據(jù),LLM 應(yīng)自動(dòng)學(xué)習(xí)其中蘊(yùn)含的知識(shí)點(diǎn),學(xué)習(xí)過(guò)程無(wú)需人的介入就能靈活應(yīng)用所學(xué) 知識(shí)解決實(shí)際問(wèn)題。數(shù)據(jù)是海量的,要吸收所有知 識(shí),就需要足夠多的模型參數(shù)存儲(chǔ)知識(shí),因此,這一模型必然會(huì)是“巨無(wú)霸”式的模型。

ChatGPT是否向GPT- 3.5 模型注入新知識(shí)??答案是注入了,這些知識(shí)包含在揭秘 ChatGPT 時(shí)提到的“幾萬(wàn)人工標(biāo)注”的數(shù)據(jù)中,但注入的不是世界知識(shí),而是人類偏好知識(shí)。所謂“人類偏好”,包含兩方面含義。一是人類表達(dá)任務(wù)的習(xí)慣說(shuō)法。例如,人們習(xí)慣性表達(dá):“把下面句子翻譯成日語(yǔ)”,以此表達(dá)機(jī)器翻譯的需求,但 LLM 并?非人類,它如何理解這句話的含義?人類要想辦?法讓LLM 理解這句命令的含義,并正確執(zhí)行。因此, ?ChatGPT 通過(guò)人工標(biāo)注數(shù)據(jù)的方式向 GPT- 3.5 注入這類知識(shí),方便 LLM 理解人的命令,這是其“了解人類意圖”的關(guān)鍵。二是對(duì)于什么是好的回答,什么是不好的回答, ?人類有自己的標(biāo)準(zhǔn)。例如, ?比較詳細(xì)的回答是好的,帶有歧視性內(nèi)容的回 答是不好的,諸如此類。但這是人類自身對(duì)回答質(zhì)?量好壞的偏好。人工標(biāo)注通過(guò)打分模型( Reward Model)?將這類信息反饋至 LLM 數(shù)據(jù)庫(kù)。總體而?言,? ChatGPT 將人類偏好知識(shí)注入 GPT- 3.5,以此?獲得能夠聽得懂人類語(yǔ)言、自身?yè)碛信袛鄻?biāo)準(zhǔn)的 LLM。

就具體過(guò)程而言,首先,創(chuàng)建人類偏好數(shù)據(jù)。?隨機(jī)挑選部分問(wèn)題,并由標(biāo)注人員給出高質(zhì)量回?答,形成“人類表達(dá)-任務(wù)結(jié)果”的標(biāo)注數(shù)據(jù),反饋至模型,讓其學(xué)習(xí)——這批數(shù)據(jù)數(shù)量?jī)H有數(shù)萬(wàn),?并通過(guò)提示詞(Prompt)模式進(jìn)行,即模型參數(shù)不發(fā)生變化。其次,訓(xùn)練一個(gè)反饋模型。隨機(jī)挑選部分問(wèn)題,由原始模型輸出答案,再由標(biāo)注人員基于?“人類偏好標(biāo)準(zhǔn)”(例如,相關(guān)性、信息豐富程度、?答案有害、負(fù)面情感等),對(duì)原始模型的答案進(jìn)行排序。最后,利用標(biāo)注好的“人類偏好”數(shù)據(jù),訓(xùn)練一個(gè)打分模型,這一打分模型會(huì)對(duì)原始模型的?結(jié)果進(jìn)行打分,告訴他什么答案分高,什么答案分低。

以此為基礎(chǔ),整個(gè)過(guò)程通過(guò)循環(huán)式地強(qiáng)化學(xué)習(xí),將反饋模型和原始模型相鏈接,當(dāng)原始模型輸出的結(jié)果在打分模型中獲得較低分值時(shí),它將受到懲罰,同時(shí),被要求重新學(xué)習(xí)。通過(guò)不斷循環(huán),原始模型逐漸迭代升級(jí),直至“脫胎換骨”,徹底掌 握人類偏好,變成人類滿意的模型,即 ChatGPT。

(二)臺(tái)前:新型人機(jī)交互接口

目前,相關(guān)研究已經(jīng)證明大型語(yǔ)言模型 LLM 對(duì)于知識(shí)具有強(qiáng)大的記憶能力。但現(xiàn)實(shí)世界中,一 般不會(huì)將記憶能力的強(qiáng)弱作為判斷人是否聰明的標(biāo)準(zhǔn)。是否具有強(qiáng)大的推理能力,通常是判斷一個(gè)人 是否聰明的重要標(biāo)準(zhǔn)。ChatGPT要取得令人驚艷的效果,其背后強(qiáng)大的推理能力必不可少。推理能力的本質(zhì)是綜合運(yùn)用較多相關(guān)知識(shí)點(diǎn),推導(dǎo)出新知識(shí) 或新結(jié)論。當(dāng)模型規(guī)模足夠大時(shí),LLM 本身就具備相應(yīng)的推理能力。

ChatGPT 的最大貢獻(xiàn)在于較好地實(shí)現(xiàn)了大型語(yǔ)言模型 LLM 的接口層,讓 LLM適配人類習(xí)慣的命令表達(dá)方式,而非讓人類去適配 LLM,絞盡腦?汁地想出一個(gè)想要達(dá)到目的的命令。由此,能夠增加 LLM 的易用性和用戶體驗(yàn)。

這種交互方式的演變,是一種較為理想的新型人機(jī)交互模式。不需要專業(yè)的能力和高端的設(shè)備,只要開口表達(dá)人類訴求,人工智能就能夠理?解并幫助人類進(jìn)行解答。在 2022 年 12 月的媒體通稿中,對(duì) ChatGPT 的評(píng)價(jià)集中于“仿真性”,儼?然通過(guò)圖靈測(cè)試一般。這種仿真性,可以認(rèn)為是 ChatGPT 的“智力”得到進(jìn)一步提升,變得更加聰明。

二、ChatGPT?的關(guān)鍵技術(shù)

有研究發(fā)現(xiàn),ChatGPT 在自然語(yǔ)言處理的系列任務(wù)方面,例如,文本理解與生成、對(duì)話問(wèn)答、機(jī)器翻譯和程序代碼生成等都有較大進(jìn)步。從技術(shù)層面講,得益于近幾年深度神經(jīng)網(wǎng)絡(luò)、大型語(yǔ)言模型研究的不斷發(fā)展,即海量數(shù)據(jù)加之巨大的算力催生這樣一個(gè)大型語(yǔ)言模型的落地應(yīng)用。換言之, ChatGPT 背后的關(guān)鍵技術(shù)離不開大模型算法、大數(shù)據(jù)和大算力。

(一)算? 法

ChatGPT 由 GPT-3.5模 型提供支持,GPT ??( Generative Pre-trained Transformer ,生成式預(yù)訓(xùn)練?轉(zhuǎn)換模型) 是一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓(xùn)練的文本?生成深度學(xué)習(xí)模型。在算法方面,該模型使用“利?用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)”的訓(xùn)練方式,包?括人類提問(wèn)機(jī)器回答、機(jī)器提問(wèn)人類回答,并不斷迭代,讓模型逐漸具有對(duì)生成答案的評(píng)判能力。RLHF的訓(xùn)練過(guò)程可以分解為三個(gè)步驟(見圖2)。

1.?預(yù)訓(xùn)練語(yǔ)言模型

選取經(jīng)典的預(yù)訓(xùn)練語(yǔ)言模型作為初始模型。在預(yù)訓(xùn)練模型出現(xiàn)之前,深度學(xué)習(xí)不夠成功的原因主要在于兩方面:一方面,匹配給某一具體任務(wù)的訓(xùn) 練數(shù)據(jù)總量不夠多。隨著模型容量的增加,對(duì)訓(xùn)練數(shù)據(jù)的需求隨之攀升,否則即使達(dá)到理想深度,也無(wú)法取得預(yù)期任務(wù)效果,進(jìn)而成為自然語(yǔ)言處理領(lǐng)域無(wú)法逾越的難題;另一個(gè)方面,深度學(xué)習(xí)的特征抽取能力不夠強(qiáng)。換言之,即使有再多的數(shù)據(jù)也無(wú)濟(jì)于事, ?因?yàn)槟P筒荒苡行諗?shù)據(jù)中蘊(yùn)含的知識(shí)。這兩方面原因阻礙了深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的突圍。GPT 預(yù)訓(xùn)練模型的出現(xiàn),無(wú)論是從學(xué)術(shù)研究角度審視,還是從場(chǎng)景應(yīng)用角度觀察,都 代表自然語(yǔ)言處理領(lǐng)域的技術(shù)飛躍,并帶來(lái)整個(gè)領(lǐng) 域研究范式的轉(zhuǎn)換。

2. 打分模型的訓(xùn)練

基于初始語(yǔ)言模型產(chǎn)出的數(shù)據(jù)訓(xùn)練打分模型? ( RM,Reward Model)。打分模型的目標(biāo)是評(píng)估?模型的輸出在人類看來(lái)是否表現(xiàn)得不錯(cuò)。即輸入?[ 提示(Prompt),模型生成的文本] ?,輸出一個(gè)評(píng)估文本質(zhì)量的標(biāo)記數(shù)字。用于訓(xùn)練打分模型的提示詞(Prompt)數(shù)據(jù)一般源自預(yù)先富集的數(shù)據(jù)集,? ChatGPT的Prompt 數(shù)據(jù)主要是調(diào)用 GPT API 的用戶。上述提示詞會(huì)被放進(jìn)初始語(yǔ)言模型(第一?階段的模型) 中生成文本??梢詫⒋蚍帜P鸵暈?判別式的語(yǔ)言模型,從預(yù)訓(xùn)練語(yǔ)言模型出發(fā),對(duì)?[x=[prompt,模型回答 ],y= 人類滿意度 ] 構(gòu)成的?標(biāo)注語(yǔ)料進(jìn)行微調(diào);也可以隨機(jī)初始化,在語(yǔ)料基?礎(chǔ)上直接進(jìn)行訓(xùn)練。

3. 基于?RL 進(jìn)行語(yǔ)言模型優(yōu)化

在初始的語(yǔ)言模型上生成文本,通過(guò)打分模型 ( RM) 判斷模型生成的文本是否優(yōu)質(zhì)(迎合人類偏好)的基礎(chǔ)上,可以使用強(qiáng)化學(xué)習(xí)(RL)基于打分模型優(yōu)化初始的語(yǔ)言模型。

將初始語(yǔ)言模型的微調(diào)任務(wù)建模為強(qiáng)化學(xué)習(xí)(RL)問(wèn)題,需要定義策略(Policy)、動(dòng)作空間? (Action Space)和打分函數(shù)(Reward Function)等基本要素。策略指基于該語(yǔ)言模型,接收 Prompt 作為輸入,再輸出一系列文本(或文本的概率分布);動(dòng)作空間是詞表標(biāo)記在所有輸出位置的排列組合;觀察空間是可能的輸入標(biāo)記序列,即 Prompt 為詞表全部標(biāo)記在所有輸入位置的排列組合;打分函數(shù)是基于設(shè)定好的 RM 模型,?配合部分策略層面的合約進(jìn)行的打分計(jì)算?;谶@一打分,可以根據(jù)策略優(yōu)化算法更新模型參數(shù)。

通過(guò)上述過(guò)程,可以迭代式的更新打分模型? (RM)和策略模型(Policy),讓打分模型對(duì)模型輸出質(zhì)量的評(píng)估愈加精確,策略模型的輸出不斷與初始模型拉開差距,使輸出文本越來(lái)越符合人類的需求和認(rèn)知。

(二)算? 力

ChatGPT 能夠成為新一代人工智能里程碑,離不開算力發(fā)展和數(shù)字經(jīng)濟(jì)時(shí)代形成的大數(shù)據(jù)共同支持的大型語(yǔ)言模型訓(xùn)練。在算力方面,ChatGPT 使 用的 GPT-3.5模型在微軟云計(jì)算服務(wù) Azure AI 的超?算基礎(chǔ)設(shè)施(由 V100GPU 組成的高帶寬集群) 上進(jìn)行訓(xùn)練,總算力消耗約 3640 PF-days (即按每秒?一千萬(wàn)億次計(jì)算,運(yùn)行 3640 天)。

由此帶來(lái)兩個(gè)問(wèn)題,即巨大的算力需求與資金消耗。訓(xùn)練和運(yùn)行模型均需要龐大的算力,有研究估測(cè),訓(xùn)練 1750 億參數(shù)大型語(yǔ)言模型的 GPT- 3,需要有上萬(wàn)個(gè) CPU/GPU 24 小時(shí)不間斷地輸入數(shù)?據(jù),所需能耗相當(dāng)于開車往返地球和月球,且一次運(yùn)算要花費(fèi) 450 萬(wàn)美元(見圖3 )。

此前,企業(yè)多通過(guò)自行發(fā)電的方式滿足運(yùn)營(yíng)的電力需要,此舉不僅耗資巨大,而且還需具備某些與企業(yè)業(yè)務(wù)關(guān)聯(lián)不大的相關(guān)專業(yè)能力。電網(wǎng)基礎(chǔ)設(shè) 施的運(yùn)行使供電成為一項(xiàng)公共事業(yè),也使企業(yè)可以通過(guò)購(gòu)買電量代替自行發(fā)電,就其實(shí)質(zhì)而言,企業(yè)是將自行發(fā)電變?yōu)橘?gòu)買發(fā)電服務(wù)。集中發(fā)電可以使 電力的使用更為高效,也意味著更多企業(yè)甚至個(gè)人可以根據(jù)自身需要購(gòu)買電,不用為其他電量支付任何費(fèi)用。電力供應(yīng)的公共化提高了各部門的生產(chǎn)力,改善了社會(huì)生活質(zhì)量,也為新興產(chǎn)業(yè)的發(fā)展創(chuàng)造了機(jī)會(huì)。

信息和通信技術(shù)行業(yè)正經(jīng)歷與此類似的演進(jìn)過(guò)程。幾十年來(lái),公共部門、私人部門、組織和個(gè)人等通過(guò)投資電腦軟件和硬件,像購(gòu)買商品一樣購(gòu)買信息和通信技術(shù)。在過(guò)去的 10 年間,隨著高速寬帶基礎(chǔ)設(shè)施的普及,信息和通信服務(wù)的供給方式快速更新,通過(guò)互聯(lián)網(wǎng)可以將信息和通信技術(shù)作為一項(xiàng)服務(wù)進(jìn)行購(gòu)買。

現(xiàn)階段,算力如同被廣泛使用的電力一般,但與此同時(shí),算力也是一項(xiàng)具有潛在破壞性與變革性的創(chuàng)造。未來(lái),各行各業(yè)的用戶若想在不購(gòu)買、安裝和運(yùn)行昂貴的電腦硬件的基礎(chǔ)上使用服務(wù),就可借助無(wú)處不在的有線或無(wú)線網(wǎng)絡(luò)——即從“云端”?獲取算力,這與使用其他公共基礎(chǔ)設(shè)施服務(wù)沒(méi)有區(qū)別(見圖4)。

(三)數(shù)? 據(jù)

有資料顯示,ChatGPT 擁 有多 達(dá) 1750 億 個(gè)?模型參數(shù),并在 2023年年初完成訓(xùn)練。模型訓(xùn)練的背后離不開大數(shù)據(jù)的支持,OpenAI 主要使用?的公共爬蟲數(shù)據(jù)集擁有超過(guò)萬(wàn)億單詞的人類語(yǔ)言數(shù)據(jù)。正是基于上述海量數(shù)據(jù),ChatGPT 展示了強(qiáng)大的三種能力:一是語(yǔ)言生成能力。遵循提示詞(Rrompt)生成補(bǔ)全提示詞的句子。這是目前人類與語(yǔ)言模型最普遍的交互方式;?二是上下文學(xué)習(xí)(In-context learning) 能力。?遵循給定任務(wù)的幾個(gè)示例,為新的測(cè)試用例生成解決方案。值得一提的是,GPT-3 雖然是語(yǔ)言模型,但上下文學(xué)習(xí)才是ChatGPT 的真正重點(diǎn),而不是“語(yǔ)?言建?!?Language Modeling);三是世界知識(shí)能力。包括事實(shí)性知識(shí)(Factual knowledge)和常識(shí)( Commonsense )。

上述三種能力均來(lái)自大規(guī)模預(yù)訓(xùn)練。在有3000億個(gè)單詞的語(yǔ)料上預(yù)訓(xùn)練擁有 1750 億參數(shù)?的模型( 60% 的訓(xùn)練語(yǔ)料來(lái)自 2016-2019的Common Crawl 語(yǔ)料庫(kù) + 22% 來(lái)自WebText 語(yǔ)料庫(kù)+ 16% 來(lái)自于、書籍和報(bào)刊雜志 + 3%來(lái)自維基百科)。其中, ?Common Crawl 是 2008 年至今在一個(gè) 網(wǎng)站抓取的大型數(shù)據(jù)集,數(shù)據(jù)包含原始網(wǎng)頁(yè)、元數(shù)據(jù)和文本提取,其文本來(lái)自不同語(yǔ)言、不同領(lǐng)域。重點(diǎn)研究實(shí)驗(yàn)室一般會(huì)優(yōu)先選取純英文過(guò)濾版(C4)作為數(shù)據(jù)集。其中,WebText 是一個(gè)大型數(shù)據(jù)集,其數(shù)據(jù)是從社交媒體平臺(tái) Reddit 所有出站?鏈接網(wǎng)絡(luò)中爬取的,每個(gè)鏈接至少有 3 個(gè)贊,代表流行內(nèi)容的風(fēng)向標(biāo),對(duì)輸出優(yōu)質(zhì)鏈接和后續(xù)文本數(shù)據(jù)具有指導(dǎo)作用。

關(guān)于 ChatGPT 上下文學(xué)習(xí)的能力來(lái)源及為什么上下文學(xué)習(xí)可以泛化,現(xiàn)階段尚未有明確的剖析。有人工智能領(lǐng)域?qū)<彝茰y(cè),這種能力可能來(lái)自同一個(gè)任務(wù)的數(shù)據(jù)點(diǎn)在訓(xùn)練時(shí)按順序排列在同一個(gè)批處理中。未來(lái),語(yǔ)言模型預(yù)訓(xùn)練促進(jìn)上下文學(xué)習(xí)的原理以及上下文學(xué)習(xí)行為與微調(diào)(Fine-tuning)??的協(xié)同原理值得進(jìn)一步研究。

現(xiàn)階段的 ChatGPT 是在擁有 3000 億個(gè)單詞?的語(yǔ)料基礎(chǔ)上預(yù)訓(xùn)練擁有1750億參數(shù)的模型, GPT-4 將是一個(gè)擁有超過(guò) 100 萬(wàn)億級(jí)別參數(shù)的大模 型(見圖5)。根據(jù)學(xué)術(shù)界的既有研究可知,深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和模型的參數(shù)規(guī)模呈正相關(guān)。?人類大腦皮層有 140 多億個(gè)神經(jīng)細(xì)胞,每個(gè)神經(jīng)細(xì) 胞有 3 萬(wàn)余個(gè)突觸,因此,大腦皮層的突觸總數(shù)超 過(guò) 100 萬(wàn)億個(gè),神經(jīng)細(xì)胞通過(guò)突觸相互建立聯(lián)系。?一旦 GPT-4 實(shí)現(xiàn) 100 萬(wàn)億參數(shù)規(guī)模,就可以堪比人的大腦,意味著它將達(dá)到與人類大腦神經(jīng)觸點(diǎn)規(guī) 模的同等水平。如果上述假設(shè)成為現(xiàn)實(shí),不僅意味著 GPT-4 系統(tǒng)可以改造人類的思想和創(chuàng)作能力,?形成人工智能超越專業(yè)化能力和大眾化趨勢(shì),而且意味著這一系統(tǒng)開始具備人類思維能力,并有可能在某一方面或其他方面替代人類。

三、ChatGPT?的未來(lái)圖景

相較以往,人工智能進(jìn)化的深度學(xué)習(xí)能力,對(duì)大部分人而言只是一個(gè)高深的概念。ChatGPT 通過(guò)生成式預(yù)訓(xùn)練轉(zhuǎn)換模型 RLHF 基于人類反饋的強(qiáng)化 學(xué)習(xí)這一方式,讓所有人真正接觸到“人工智能 +?深度學(xué)習(xí)”會(huì)帶來(lái)何種變化,對(duì)于人類的生活會(huì)產(chǎn)生哪些影響。因此,ChatGPT 可能會(huì)加速人工智能 和深度學(xué)習(xí)理論在經(jīng)濟(jì)社會(huì)各領(lǐng)域的普及應(yīng)用。

學(xué)術(shù)界普遍認(rèn)為,ChatGPT 的未來(lái)應(yīng)用場(chǎng)景充滿無(wú)限可能。從社交媒體到廣告創(chuàng)意,從游戲到影視娛樂(lè),從編程到深度寫稿,從平面設(shè)計(jì)到?產(chǎn)品工業(yè)設(shè)計(jì),從文字翻譯到外事同聲傳譯等,?每個(gè)原本需要人類創(chuàng)作的行業(yè)都等待被 ChatGPT 顛覆性重塑。ChatGPT 被公認(rèn)為是繼互聯(lián)網(wǎng)、智能手機(jī)之后,帶給人類的第三次革命性產(chǎn)品?;?聯(lián)網(wǎng)開辟了“空間革命”,使人類可以實(shí)時(shí)與全世 界鏈接,不必奔赴現(xiàn)場(chǎng),可以通過(guò)互聯(lián)網(wǎng)進(jìn)行溝通、教學(xué)、視頻會(huì)議,使政治、社會(huì)和商業(yè)等領(lǐng)域發(fā)生連鎖變化;智能手機(jī)的出現(xiàn)帶來(lái)“時(shí)間革命”,通過(guò)可拓展安裝的各種 APP 應(yīng)用軟件,可以實(shí)現(xiàn)最快交易、最速送達(dá),為人類的生活、工作?和消費(fèi)帶來(lái)巨大變化;ChatGPT 的橫空出世,有望形成“思維革命”,替代人類進(jìn)行創(chuàng)作、創(chuàng)意、解答、咨詢、翻譯、客服等,改變?nèi)祟愃伎己吞幚?問(wèn)題的方式方法,并由此重塑各行業(yè)生態(tài),甚至重塑整個(gè)世界(見圖6)。

現(xiàn)階段的 ChatGPT 以高度擬人化的對(duì)話問(wèn)答模式帶來(lái)更好的交互體驗(yàn),短期內(nèi)將促進(jìn)金融、媒體、醫(yī)療等諸多領(lǐng)域自然語(yǔ)言處理的應(yīng)用。例如,在金融領(lǐng)域,ChatGPT 利用其大模型能夠大幅提升 語(yǔ)義搜索能力,面對(duì)復(fù)雜多變的投資理財(cái)咨詢,能夠準(zhǔn)確找到滿足用戶需求的咨詢結(jié)果;又如,招商銀行信用卡已經(jīng)基于 ChatGPT 撰寫宣傳稿件,寫出“生命的舞臺(tái)上,我們都是基因的載體”、“如果說(shuō)基因給我們的生命帶來(lái)了基礎(chǔ),那親情便是對(duì)生命的深刻賦予。它不由基因驅(qū)使,而是一種慷慨的 選擇”等富有詩(shī)意的文案。在投研方面,業(yè)內(nèi)首份采用 ChatGPT 撰寫的行業(yè)研究報(bào)告完成度較高, 但距專業(yè)研究報(bào)告仍存在較大差距。財(cái)通證券團(tuán)隊(duì)介紹,“ChatGPT 在文字表意、標(biāo)題撰寫等方面均具有較高水平”。在媒體領(lǐng)域,大量的稿件均可以通過(guò) ChatGPT 進(jìn)行自動(dòng)化生產(chǎn),其獨(dú)創(chuàng)性和創(chuàng)造?力并不輸于專業(yè)人員。未來(lái),文字工作者應(yīng)積極探 索新技術(shù)幫助其提高生產(chǎn)效率,讓 ChatGPT 起草初稿,人類只需要在其基礎(chǔ)上進(jìn)行修改完善;在醫(yī)療領(lǐng)域,ChatGPT 可以替代專業(yè)人員為患者提供心理咨詢、問(wèn)診和解答服藥建議,等等。

以教育領(lǐng)域?yàn)槔瑥拿襟w報(bào)道中可以整理出 16 種 ChatGPT 教學(xué)應(yīng)用用法(見表1)。

據(jù)媒體報(bào)道,ChatGPT 除在高校占有一席之?地外,其適用范圍已經(jīng)下探至學(xué)齡前兒童和中小學(xué)階段。據(jù)報(bào)道,有一位居住在國(guó)內(nèi)某城市的 4 歲小孩的媽媽向記者明確表示,她每天都會(huì)登錄 ChatGPT,和“它”聊會(huì)兒天,并把“它”推薦給其他媽媽,解答孩子的教育問(wèn)題。部分中小學(xué)教師也在思考將 ChatGPT 融入自己的教學(xué)工作,一名剛?cè)肼毜男W(xué)語(yǔ)文教師解釋說(shuō),小學(xué)生由于年齡小、心智尚未發(fā)育成熟,在上課時(shí)不僅需要教師在知識(shí)的學(xué)習(xí)上提供幫助,而且需要在心理層面進(jìn)行 全方位培養(yǎng),她經(jīng)常詢問(wèn) ChatGPT 諸如“如何矯正小學(xué)生不良行為習(xí)慣”、“教師如何與內(nèi)向的小學(xué)生溝通”等問(wèn)題。

由此可見,ChatGPT 在各行各業(yè)均具有無(wú)限的未來(lái)應(yīng)用場(chǎng)景,ChatGPT 正在快速走進(jìn)人類的工作和生活,成為繼互聯(lián)網(wǎng)、智能手機(jī)之后,人人都離不開的工具。

四、ChatGPT?的影響分析

科技進(jìn)步造福人類經(jīng)濟(jì)社會(huì),讓人類可以提質(zhì)增效、實(shí)現(xiàn)高質(zhì)量發(fā)展。但是,科技是一把“雙刃劍”,使用不當(dāng),會(huì)對(duì)經(jīng)濟(jì)社會(huì)產(chǎn)生負(fù)面效應(yīng)? (見圖7)。

(一)正面效應(yīng):大幅提質(zhì)增效

科技創(chuàng)新可以提高經(jīng)濟(jì)結(jié)構(gòu)的效率和靈活性,提高企業(yè)的競(jìng)爭(zhēng)力,節(jié)約能源、資源和工人成本,?推動(dòng)產(chǎn)業(yè)升級(jí),促進(jìn)供給側(cè)結(jié)構(gòu)的變革,改善質(zhì)量和效率,催生新產(chǎn)品、新技術(shù)和新模式,進(jìn)而促進(jìn)經(jīng)濟(jì)增長(zhǎng)。ChatGPT 作為一種科技創(chuàng)新,通過(guò)分析大規(guī)模數(shù)據(jù),在其中找到諸多規(guī)律,生成新作品,而不僅限于分析已經(jīng)存在的東西,在某些情況下,較人類更具創(chuàng)造力,且創(chuàng)造得更好。未來(lái),ChatGPT 處理的領(lǐng)域包括所有知識(shí)工作和創(chuàng)造性工作,可能涉及數(shù)億的人工勞動(dòng)力,使相關(guān)領(lǐng)域人工勞動(dòng)力的效率和創(chuàng)造力得到大幅提高,不僅較以往更快、更高效,而且更完美、更具創(chuàng)意。

首先,ChatGPT 能夠帶來(lái)更高的生產(chǎn)率。與傳統(tǒng)的文本識(shí)別或語(yǔ)言理解系統(tǒng)相比,聊天機(jī)器人系統(tǒng)更加容易使用,可以更有效地了解輸入的問(wèn)句,提高結(jié)果的準(zhǔn)確性,改變傳統(tǒng)的生產(chǎn)和服務(wù)方式,讓企業(yè)更有效地利用有限的資源生產(chǎn)更多的產(chǎn)品和提供更好的服務(wù),在提升效率的同時(shí),降低成本。其次,ChatGPT 技術(shù)的應(yīng)用可以提升企業(yè)的核心競(jìng)爭(zhēng)力,帶來(lái)增量利潤(rùn),促進(jìn)業(yè)務(wù)增長(zhǎng),不斷改善經(jīng)濟(jì)社會(huì)結(jié)構(gòu),帶動(dòng)產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型和智能化 ?升級(jí)。此外,技術(shù)創(chuàng)新可以滿足更多的消費(fèi)需求,促進(jìn)投資市場(chǎng)的發(fā)展。例如,ChatGPT 可以幫助客 ?服代言人進(jìn)行個(gè)性化會(huì)話,有能力快速了解客戶的需求、分析重點(diǎn),及時(shí)回答客戶的提問(wèn),能夠提高客戶的滿意度和對(duì)公司的信任度。在此基礎(chǔ)上,ChatGPT 新技術(shù)的應(yīng)用可以使企業(yè)擁有更多的消費(fèi)者,拉動(dòng)營(yíng)收和利潤(rùn)的增加的同時(shí),促進(jìn)投資市場(chǎng) 的發(fā)展,最終實(shí)現(xiàn)經(jīng)濟(jì)的可持續(xù)發(fā)展。

(二)負(fù)面效應(yīng):作弊與知識(shí)產(chǎn)權(quán)糾紛

ChatGPT 被濫用的問(wèn)題愈發(fā)明顯,最常見的是作弊問(wèn)題。在美國(guó),北密歇根大學(xué)一名學(xué)生使用 ChatGPT 生成的哲學(xué)課小論文震驚了教授,得到全班最高分。有調(diào)查顯示,89% 的美國(guó)大學(xué)生?承認(rèn)使用 ChatGPT 做家庭作業(yè),53% 的學(xué)生用它寫 論 文,48%?的 學(xué) 生 使 用 ChatGPT 完 成 測(cè) 試(見圖8)。

據(jù)媒體報(bào)道,近期,有多所歐美高校對(duì) ChatGPT 發(fā)出禁令。法國(guó)巴黎政治學(xué)院宣布禁止學(xué)生使用 ChatGPT 和其他人工智能產(chǎn)品完成報(bào)告, 除非教師有特定課程需求,否則學(xué)生使用 ChatGPT 完成報(bào)告,最重將面臨退學(xué)處罰;美國(guó)紐約市公立學(xué)校只有在進(jìn)行人工智能與科技相關(guān)教學(xué)時(shí),才能由教師申請(qǐng)?jiān)谡n堂上使用 ChatGPT;澳大利亞、印度、英國(guó)等多所大學(xué)也限制學(xué)生使用 ChatGPT,尤其是在校園內(nèi)以及考試期間。

ChatGPT 這類人工智能產(chǎn)品雖然能為學(xué)生提供 快速簡(jiǎn)潔的答案,但無(wú)法幫助學(xué)生培養(yǎng)批判思考與 解決問(wèn)題的能力。與此同時(shí),ChatGPT 創(chuàng)作的內(nèi)容 所有權(quán)歸使用者所有,但如果產(chǎn)生的內(nèi)容有侵犯他 人知識(shí)產(chǎn)權(quán)的行為,那么,將淪為知識(shí)產(chǎn)權(quán)糾紛事 件。例如,使用 ChatGPT 在未經(jīng)授權(quán)的具有知識(shí)?產(chǎn)權(quán)的圖片或文字基礎(chǔ)上創(chuàng)作的內(nèi)容,可能出現(xiàn)知 識(shí)產(chǎn)權(quán)糾紛問(wèn)題。對(duì)使用 ChatGPT 生產(chǎn)內(nèi)容而言, 知識(shí)產(chǎn)權(quán)糾紛是不可忽視的,知識(shí)產(chǎn)權(quán)保護(hù)、合法 性檢查、協(xié)調(diào)和解決、技術(shù)防弊以及持續(xù)的監(jiān)管等 措施,將是未來(lái)應(yīng)對(duì) ChatGPT 知識(shí)產(chǎn)權(quán)糾紛可能?性時(shí)采取的重要措施。

五、政策建議

ChatGPT 是新一代人工智能的代表性應(yīng)用,是 未來(lái)的高科技風(fēng)口。唯有把握這波技術(shù)紅利,前瞻性布局,才能引導(dǎo) ChatGPT 更好地服務(wù)經(jīng)濟(jì)社會(huì)發(fā)展,創(chuàng)造更大更多的價(jià)值。

一是引導(dǎo)企業(yè)融入ChatGPT 浪潮。ChatGPT 的重點(diǎn)在于創(chuàng)造,通過(guò)大量的語(yǔ)料訓(xùn)練和強(qiáng)大的糾錯(cuò)能力,對(duì)素材進(jìn)行消化、整理和再輸出,與傳統(tǒng)的 IT 行業(yè)云計(jì)算模式完全不同。以阿里云為例,?其主要負(fù)責(zé)為客戶提供云存儲(chǔ)和數(shù)據(jù)庫(kù)服務(wù),程序運(yùn)作的底層邏輯是先有問(wèn)題再找答案。ChatGPT 是 從 0 到 1 主動(dòng)創(chuàng)作內(nèi)容,側(cè)重點(diǎn)區(qū)分較為明顯。因此,筆者建議各企業(yè)等通過(guò)組織企業(yè)負(fù)責(zé)人培訓(xùn)等工作,讓企業(yè)家意識(shí)到 ChatGPT 時(shí)代的到來(lái)和重大意義,鼓勵(lì)企業(yè)將人工智能主導(dǎo)的內(nèi)容創(chuàng)作變?yōu)楣竞诵臉I(yè)務(wù)的重要組成部分。

二是推動(dòng) ChatGPT 技術(shù)融入元宇宙產(chǎn)業(yè)布局。?元宇宙被認(rèn)為是數(shù)字經(jīng)濟(jì)的下一個(gè)支撐點(diǎn),受到地 方政府高度重視,紛紛將其列為新興產(chǎn)業(yè),不斷謀劃元宇宙發(fā)展布局。據(jù)統(tǒng)計(jì),浙江省、江西省、湖 北省、河南省 4 個(gè)省以及北京市、上海市 2 個(gè)直轄 市,均從省級(jí)層面對(duì)元宇宙進(jìn)行布局。杭州市、合肥市、成都市、武漢市將元宇宙寫入 2022 年政府工作報(bào)告。ChatGPT 的出現(xiàn)為所有人提供了以自然 語(yǔ)言對(duì)話方式進(jìn)行文本生成的新方式和新工具,大幅降低了構(gòu)建元宇宙的門檻,可以用與構(gòu)建互聯(lián)網(wǎng)完全不同的方式構(gòu)建元宇宙。大量非專業(yè)人員可以通過(guò)用語(yǔ)言描述自身需求,ChatGPT 會(huì)自動(dòng)生成設(shè)計(jì)圖和代碼,使效率得到極大提高,成本大幅下 降,元宇宙內(nèi)容數(shù)量將得到進(jìn)一步豐富。筆者建議各地元宇宙產(chǎn)業(yè)發(fā)展的主管部門定期追蹤研究 ChatGPT 技術(shù)進(jìn)展和國(guó)內(nèi)外先進(jìn)應(yīng)用場(chǎng)景案例,以更快的速度實(shí)現(xiàn)元宇宙發(fā)展布局。

三是促進(jìn)ChatGPT 技術(shù)融入數(shù)字人( Digital Human/Meta Human) 功能。隨著 AR/VR、虛擬引?擎、3D 建模等軟硬件技術(shù)的日臻成熟,數(shù)字人迎 來(lái)重大發(fā)展契機(jī),要充分利用新科技提供更加完善 的沉浸式體驗(yàn),極大地提升數(shù)字人的商業(yè)價(jià)值,并 拓展其應(yīng)用領(lǐng)域。例如,數(shù)字人可以承擔(dān)向?qū)У慕巧ㄟ^(guò)數(shù)字人與用戶進(jìn)行多模態(tài)互動(dòng),“面對(duì) 面”實(shí)現(xiàn)低延遲的實(shí)時(shí)交互交流,為游客提供路線規(guī)劃、信息查詢、導(dǎo)覽講解等智能服務(wù),在社交和 娛樂(lè)過(guò)程中持續(xù)為用戶帶來(lái)新鮮體驗(yàn),有效提高景區(qū)吸引力、提升景區(qū)的品牌價(jià)值和商業(yè)價(jià)值。以?北京市為例,2022 年 8 月,北京市發(fā)布《北京市?促進(jìn)數(shù)字人產(chǎn)業(yè)創(chuàng)新發(fā)展行動(dòng)計(jì)劃( 2022 - 2025 年)》,明確提出到 2025 年北京市數(shù)字人產(chǎn)業(yè)規(guī)模突破 500 億元的發(fā)展目標(biāo)。與此同時(shí),全國(guó)諸多省市自治區(qū)紛紛將數(shù)字人納入新科技發(fā)展目錄,謀劃 進(jìn)一步推動(dòng)其普及落地。ChatGPT 將徹底改變數(shù)字 人的全部構(gòu)建技術(shù)。從數(shù)字人的面貌、穿著、形態(tài)設(shè)計(jì)、行動(dòng)和姿態(tài)以及自然語(yǔ)言溝通,到數(shù)字人的任務(wù)執(zhí)行 ,環(huán)境的感知和交互等等,ChatGPT 將使?數(shù)字人的制作更加便捷和簡(jiǎn)單,讓數(shù)字人的功能更 加豐富。筆者建議政府、企業(yè)、各大高校和科研院所研究落實(shí) ChatGPT 技術(shù)在數(shù)字人中的應(yīng)用,讓?數(shù)字人產(chǎn)業(yè)發(fā)展目標(biāo)超額實(shí)現(xiàn)。

四是重視ChatGPT 隱患,將其納入社會(huì)科學(xué)研究課題。由于ChatGPT 訓(xùn)練數(shù)據(jù)源自互聯(lián)網(wǎng),?企業(yè)或科研院所在使用時(shí)需要對(duì)ChatGPT 生成的??作品進(jìn)行把關(guān),防范知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn)。尤其是大學(xué)和科研院所工作人員在使用 ChatGPT 撰寫論文、發(fā)明專利等過(guò)程中,一方面,建議其在使用 ChatGPT創(chuàng)作內(nèi)容時(shí),務(wù)必核實(shí)內(nèi)容不違反他人知識(shí)產(chǎn)權(quán),?并對(duì)相關(guān)內(nèi)容擁有授權(quán),避免出現(xiàn)知識(shí)產(chǎn)權(quán)糾紛;?另一方面,應(yīng)該有第三方幫助其“驗(yàn)明正身”,通過(guò)技術(shù)手段建立有效的、具有針對(duì)性的持續(xù)監(jiān)管體系,以確保 ChatGPT 生成的內(nèi)容合法合規(guī)。例如 ?通過(guò)某種檢測(cè)工具,弄清文本是由人類撰寫還是由 ?ChatGPT 生成??萍荚谶M(jìn)步,社會(huì)科學(xué)也要與時(shí)俱進(jìn),建議高校、科研院所等單位將 ChatGPT 列為重大課題,注重科技創(chuàng)新過(guò)程中的倫理問(wèn)題,注重科技創(chuàng)新可能造成的不利社會(huì)影響,制定相關(guān)政策法規(guī),促進(jìn)自然科學(xué)與社會(huì)科學(xué)的交融共振。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢