日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

ChatGPT爆火背后,再看合成數(shù)據(jù)與人工智能的未來

時(shí)間:2023-02-14來源:起名字好難瀏覽數(shù):301

隨著ChatGPT持續(xù)火爆,背后的大型語言模型(LLM)和生成式AI技術(shù)(Generative AI)日益?zhèn)涫荜P(guān)注。AI領(lǐng)域的新一輪競賽已然開始,微軟、谷歌等已在搜索引擎領(lǐng)域展開角逐,將ChatGPT能力融入搜索服務(wù)。AIGC浪潮下,除了ChatGPT等面向終端用戶的應(yīng)用形態(tài),生成式AI和AIGC技術(shù)更廣闊的應(yīng)用空間將是產(chǎn)業(yè)互聯(lián)網(wǎng)領(lǐng)域,基于生成式AI和AIGC技術(shù)的合成數(shù)據(jù),將成為人工智能技術(shù)在各行各業(yè)應(yīng)用普及和能力提升的核心要素,支撐人工智能未來發(fā)展。而且,有研究預(yù)測,到2026年ChatGPT等大型語言模型的訓(xùn)練就將耗盡互聯(lián)網(wǎng)上的可用文本數(shù)據(jù),屆時(shí)將沒有新的訓(xùn)練數(shù)據(jù)可供使用。

因此,未來也需要借助合成數(shù)據(jù)解決ChatGPT等AIGC模型的潛在數(shù)據(jù)瓶頸,推動(dòng)進(jìn)一步發(fā)展。在過去的2022年,AIGC(AI-Generated Contents,人工智能生成內(nèi)容)無疑是最引人矚目的科技關(guān)鍵詞,從引爆AI作畫領(lǐng)域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT為代表的接近人類水平的對(duì)話機(jī)器人,人工智能正加速實(shí)現(xiàn)從感知、理解世界到生成、創(chuàng)造世界的躍遷。以AIGC這一加速擴(kuò)張的新疆域?yàn)闃?biāo)志,AI領(lǐng)域正在迎來下一個(gè)時(shí)代。多模態(tài)AI模型有望成為繼移動(dòng)互聯(lián)網(wǎng)之后新的技術(shù)平臺(tái)。而且隨著AIGC模型的通用化水平和工業(yè)化能力的持續(xù)提升,其有望帶來一場自動(dòng)化內(nèi)容生產(chǎn)與交互變革,引起社會(huì)的成本結(jié)構(gòu)的重大改變,進(jìn)而在各行各業(yè)引發(fā)巨震。經(jīng)過了2022年的預(yù)熱,2023年AIGC領(lǐng)域?qū)⒂瓉砀蟀l(fā)展,AIGC將更趨主流,AIGC內(nèi)容的類型和質(zhì)量將不斷提升,將有更多的企業(yè)主動(dòng)擁抱AIGC,AIGC領(lǐng)域?qū)⒄Q生全新的職業(yè)機(jī)會(huì)(如提示詞工程師)。當(dāng)然,政府對(duì)AIGC的監(jiān)管也將有所加強(qiáng)。

在數(shù)據(jù)領(lǐng)域,我國出臺(tái)的《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》提出,順應(yīng)經(jīng)濟(jì)社會(huì)數(shù)字化轉(zhuǎn)型發(fā)展趨勢,推動(dòng)數(shù)據(jù)要素供給調(diào)整優(yōu)化,提高數(shù)據(jù)要素供給數(shù)量和質(zhì)量。在強(qiáng)化數(shù)據(jù)要素優(yōu)質(zhì)供給方面,基于AIGC技術(shù)的合成數(shù)據(jù)將能發(fā)揮巨大價(jià)值,將以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場“增量擴(kuò)容”,助力打造面向人工智能未來發(fā)展的數(shù)據(jù)優(yōu)勢。

因此,產(chǎn)業(yè)政策需要著力支持、促進(jìn)AIGC在產(chǎn)業(yè)互聯(lián)網(wǎng)領(lǐng)域的深入應(yīng)用,培育、打造合成數(shù)據(jù)、AIGC等未來產(chǎn)業(yè),持續(xù)壯大我國發(fā)展人工智能、數(shù)字經(jīng)濟(jì)、產(chǎn)業(yè)互聯(lián)網(wǎng)等新技術(shù)新業(yè)態(tài)新應(yīng)用的數(shù)據(jù)優(yōu)勢。

AIGC技術(shù)推動(dòng)合成數(shù)據(jù)(synthetic data 領(lǐng)域迎來重大進(jìn)展 隨著AIGC技術(shù)持續(xù)創(chuàng)新發(fā)展,基于AIGC算法模型創(chuàng)建、生成合成數(shù)據(jù)(synthetic data)迎來重大進(jìn)展,有望解決AI發(fā)展應(yīng)用過程中的數(shù)據(jù)限制,進(jìn)一步推動(dòng)AI技術(shù)更廣泛的應(yīng)用。因此,業(yè)界非常看好合成數(shù)據(jù)的發(fā)展前景及其對(duì)人工智能未來發(fā)展的巨大價(jià)值。Forrester、埃森哲(Accenture)、Gartner、CB Insights等研究咨詢公司都將合成數(shù)據(jù)列為人工智能未來發(fā)展的核心要素,認(rèn)為合成數(shù)據(jù)對(duì)于人工智能的未來而言是“必選項(xiàng)”和“必需品”。例如,F(xiàn)orrester將合成數(shù)據(jù)和強(qiáng)化學(xué)習(xí)、Transformer網(wǎng)絡(luò)、聯(lián)邦學(xué)習(xí)、因果推理視為實(shí)現(xiàn)人工智能2.0的五項(xiàng)關(guān)鍵技術(shù)進(jìn)展,可以解決人工智能1.0所面臨的一些限制和挑戰(zhàn),諸如數(shù)據(jù)、準(zhǔn)確性、速度、安全性、可擴(kuò)展性等。Gartner預(yù)測稱,到2030年合成數(shù)據(jù)將徹底取代真實(shí)數(shù)據(jù),成為AI模型所使用的數(shù)據(jù)的主要來源。MIT科技評(píng)論將AI合成數(shù)據(jù)列為2022年十大突破性技術(shù)之一,稱其有望解決AI領(lǐng)域的數(shù)據(jù)鴻溝問題。數(shù)據(jù)是人工智能的燃料和驅(qū)動(dòng)力,合成數(shù)據(jù)將極大拓展人工智能發(fā)展應(yīng)用的數(shù)據(jù)基礎(chǔ),可以認(rèn)為,合成數(shù)據(jù)關(guān)乎人工智能的未來。

在概念上,合成數(shù)據(jù)是計(jì)算機(jī)模擬(computer?simulation)技術(shù)或算法創(chuàng)建、生成的自標(biāo)注信息,可以在數(shù)學(xué)上或統(tǒng)計(jì)學(xué)上反映真實(shí)世界數(shù)據(jù)的屬性,因此可以作為真實(shí)世界數(shù)據(jù)的替代品,來訓(xùn)練、測試、驗(yàn)證AI模型。簡而言之,合成數(shù)據(jù)是在數(shù)字世界中創(chuàng)造的,而非從現(xiàn)實(shí)世界收集或測量而來。合成數(shù)據(jù)擁有很長的歷史,在其發(fā)展過程中技術(shù)不斷創(chuàng)新。

例如,游戲引擎、3D圖形等模擬技術(shù)(simulation?technology)可以創(chuàng)建高保真的仿真物體和仿真環(huán)境,而結(jié)合了AI技術(shù)的3D-AI技術(shù)則可以極大提升自動(dòng)化生產(chǎn)3D內(nèi)容的效率和保真度(fidelity)。得益于生成對(duì)抗網(wǎng)絡(luò)(GAN)、變分自編碼器(VAE)、Transformer模型、擴(kuò)散模型(Diffusion Model)、神經(jīng)輻射場模型(NeRF)等不斷涌現(xiàn)的AI算法,不僅合成數(shù)據(jù)的種類得到了擴(kuò)展,而且其質(zhì)量也不斷得到提升。

就目前而言,合成數(shù)據(jù)大致可分為三類:表格數(shù)據(jù)/結(jié)構(gòu)化數(shù)據(jù),圖像、視頻、語音等媒體數(shù)據(jù),以及文本數(shù)據(jù)。這幾類合成數(shù)據(jù)在多個(gè)領(lǐng)域都有應(yīng)用。AIGC技術(shù)的持續(xù)創(chuàng)新,讓合成數(shù)據(jù)迎來新的發(fā)展契機(jī),開始迸發(fā)出更大的產(chǎn)業(yè)發(fā)展和商業(yè)應(yīng)用活力。目前主要呈現(xiàn)以下四個(gè)方面的發(fā)展趨勢。

合成數(shù)據(jù)為AI模型訓(xùn)練開發(fā)提供 強(qiáng)大助推器,推動(dòng)實(shí)現(xiàn)AI2.0

人工智能的發(fā)展應(yīng)用離不開數(shù)據(jù),但真實(shí)世界數(shù)據(jù)面臨著難以獲取、質(zhì)量差、標(biāo)準(zhǔn)不統(tǒng)一等諸多問題。為此,計(jì)算機(jī)模擬技術(shù)或算法生成的合成數(shù)據(jù),作為真實(shí)數(shù)據(jù)數(shù)據(jù)的廉價(jià)替代品,日益被用于創(chuàng)造精準(zhǔn)的AI模型。

合成數(shù)據(jù)服務(wù)商AI.Reverie指出,人工標(biāo)注一張圖片可能需要6美元,但人工合成的話只需要6美分。2019年的一篇論文《合成數(shù)據(jù)用于深度學(xué)習(xí)》(synthetic data for deep learning)認(rèn)為,合成數(shù)據(jù)是現(xiàn)代深度學(xué)習(xí)領(lǐng)域冉冉升起的最具前景的通用技術(shù)之一,尤其對(duì)于依賴于圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)的計(jì)算機(jī)視覺技術(shù)而言;并認(rèn)為合成數(shù)據(jù)對(duì)于人工智能的未來發(fā)展至關(guān)重要。而且,研究表明在AI模型的訓(xùn)練開發(fā)上,合成數(shù)據(jù)相比基于真實(shí)物體、事件或人物的數(shù)據(jù),可以發(fā)揮同樣好甚至更好的效果。

總之,合成數(shù)據(jù)技術(shù)可以實(shí)現(xiàn)更廉價(jià)、更高效地批量生產(chǎn)制造AI模型訓(xùn)練開發(fā)所需的海量數(shù)據(jù)(諸如訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)、驗(yàn)證數(shù)據(jù)等等),作為對(duì)真實(shí)數(shù)據(jù)的替代或補(bǔ)充,將推動(dòng)人工智能邁向2.0階段,從本質(zhì)上擴(kuò)展AI的應(yīng)用可能性。

可以說,目前人工智能仍處在1.0階段(AI1.0),數(shù)據(jù)是最大掣肘,業(yè)界利用真實(shí)世界數(shù)據(jù)訓(xùn)練AI模型面臨多方面問題:數(shù)據(jù)采集、標(biāo)注費(fèi)時(shí)費(fèi)力、成本高企;數(shù)據(jù)質(zhì)量較難保障;數(shù)據(jù)多樣化不足,難以覆蓋長尾、邊緣案例,或者特定數(shù)據(jù)在現(xiàn)實(shí)世界中難以采集、不方便獲取;數(shù)據(jù)獲取與使用、分享等面臨隱私保護(hù)挑戰(zhàn)和法規(guī)限制,等等。這些數(shù)據(jù)方面的限制在很大程度上阻礙了人工智能更廣泛的應(yīng)用和部署。

合成數(shù)據(jù)有望解決這些問題,推動(dòng)人工智能邁向2.0階段(AI2.0),可以在更大程度上拓展人工智能的應(yīng)用。在AI2.0階段,人們不僅可以利用合成數(shù)據(jù)更高效地訓(xùn)練AI模型,而且可以讓AI在合成數(shù)據(jù)構(gòu)建的虛擬仿真世界中自我學(xué)習(xí)、進(jìn)化,這將極大擴(kuò)展AI的應(yīng)用可能性。具體而言,對(duì)于人工智能而言,合成數(shù)據(jù)可以發(fā)揮諸多價(jià)值:

(1)實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)和數(shù)據(jù)模擬,解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量等問題,包括通過合成數(shù)據(jù)來改善基準(zhǔn)測試數(shù)據(jù)(benchmark?data)的質(zhì)量等;

(2)避免數(shù)據(jù)隱私/安全/保密問題,利用合成數(shù)據(jù)訓(xùn)練AI模型可以避免用戶隱私問題,這對(duì)于金融、醫(yī)療等領(lǐng)域而言尤其具有意義;

(3)確保數(shù)據(jù)多樣性,更多反映真實(shí)世界,提升AI的公平性,以及糾正歷史數(shù)據(jù)中的偏見,消除算法歧視;

(4)應(yīng)對(duì)長尾、邊緣案例,提高AI的準(zhǔn)確性、可靠性,因?yàn)橥ㄟ^合成數(shù)據(jù)可以自動(dòng)創(chuàng)建、生成現(xiàn)實(shí)世界中難以或者無法采集的數(shù)據(jù)場景,更好確保AI模型的準(zhǔn)確性;

(5)提升AI模型訓(xùn)練速度和效果。總之,利用合成數(shù)據(jù)可以更廉價(jià)、更高效、更準(zhǔn)確、更安全可靠地訓(xùn)練AI模型,進(jìn)而極大擴(kuò)展AI的應(yīng)用可能性,將人工智能推向新的發(fā)展階段。

合成數(shù)據(jù)助力破解AI“深水 區(qū)”數(shù)據(jù)難題,持續(xù)拓 產(chǎn)業(yè)互聯(lián)網(wǎng)應(yīng)用空間

合成數(shù)據(jù)早期主要應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,因?yàn)橛?jì)算機(jī)視覺被廣泛應(yīng)用于自動(dòng)駕駛汽車、機(jī)器人、安防、制造業(yè)等領(lǐng)域,在這些應(yīng)用場景中打造AI模型都需要大量的被標(biāo)注的圖像、視頻數(shù)據(jù)。但獲取現(xiàn)實(shí)數(shù)據(jù)往往并非易事。

以自動(dòng)駕駛汽車為例,由于實(shí)際道路交通場景千變?nèi)f化,讓自動(dòng)駕駛汽車通過實(shí)際道路測試來窮盡其在道路上可能遇到的每一個(gè)場景是不現(xiàn)實(shí)的,必須借助于合成數(shù)據(jù)才能更好地訓(xùn)練、開發(fā)自動(dòng)駕駛系統(tǒng)。為此,自動(dòng)駕駛企業(yè)開發(fā)了復(fù)雜的仿真引擎來“虛擬地合成”自動(dòng)駕駛系統(tǒng)訓(xùn)練所需的海量數(shù)據(jù),并高效地應(yīng)對(duì)駕駛場景中的“長尾”問題和“邊緣案例”。

例如,騰訊自動(dòng)駕駛實(shí)驗(yàn)室開發(fā)的自動(dòng)駕駛仿真系統(tǒng)TAD Sim可以自動(dòng)生成無需標(biāo)注的各種交通場景數(shù)據(jù),助力自動(dòng)駕駛系統(tǒng)開發(fā)。在安全的、合成的仿真環(huán)境中,計(jì)算機(jī)可以模擬任何人類想象得到的駕駛場景,諸如調(diào)節(jié)天氣狀況、添加或移除行人、改變其他車輛的位置等等。可以說,合成數(shù)據(jù)和仿真技術(shù)是自動(dòng)駕駛的核心支撐技術(shù)。最早涌現(xiàn)的一批合成數(shù)據(jù)創(chuàng)業(yè)公司就瞄準(zhǔn)的是自動(dòng)駕駛汽車市場,幫助自動(dòng)駕駛企業(yè)解決其在自動(dòng)駕駛系統(tǒng)開發(fā)過程中所面臨的數(shù)據(jù)和測試難題。

目前,合成數(shù)據(jù)正迅速向金融、醫(yī)療、零售、工業(yè)等諸多產(chǎn)業(yè)領(lǐng)域拓展應(yīng)用。合成數(shù)據(jù)在金融服務(wù)領(lǐng)域的探索仍處于早期且不斷拓展,并且受到咨詢公司、金融巨頭和監(jiān)管機(jī)構(gòu)的關(guān)注。

合成數(shù)據(jù)背后的生成式AI被Gartner評(píng)為2022年銀行和投資服務(wù)領(lǐng)域越來越受歡迎的三項(xiàng)技術(shù)之一。生成性AI受歡迎的原因是能夠通過合成數(shù)據(jù)以成本更低、易規(guī)模化、隱私保護(hù)合規(guī)的方式提供接近真實(shí)世界的數(shù)據(jù)。而在銀行和投資服務(wù)領(lǐng)域,生成對(duì)抗網(wǎng)絡(luò)(GAN)和自然語言生成(NLG)的應(yīng)用可以在大多數(shù)欺詐檢測、交易預(yù)測、合成數(shù)據(jù)生成和風(fēng)險(xiǎn)因素建模的場景中找到。例如,美國運(yùn)通(America?Express)利用GAN創(chuàng)建合成數(shù)據(jù)來訓(xùn)練、優(yōu)化其進(jìn)行欺詐檢測的AI模型。谷歌利用AI生成的醫(yī)療記錄來幫助預(yù)測保險(xiǎn)詐騙(insurance fraud)。

摩根大通(J.P.Morgan)2021年9月在其官網(wǎng)發(fā)布相關(guān)研究,提出通過生成合成數(shù)據(jù)集加快金融服務(wù)領(lǐng)域的AI研究和模型開發(fā),來改善服務(wù)體驗(yàn)、解決欺詐檢測和反洗錢等重要問題。國外金融服務(wù)業(yè)所產(chǎn)生的大量真實(shí)數(shù)據(jù)因?yàn)榉上拗疲ㄈ鐨W盟的GDPR和美國的CCPA)和隱私保護(hù)要求無法使用或使用存在諸多限制。合成數(shù)據(jù)創(chuàng)造的新樣本具有真實(shí)數(shù)據(jù)的性質(zhì),增加真實(shí)數(shù)據(jù)中的罕見樣本,以便更有效地訓(xùn)練機(jī)器學(xué)習(xí)算法。一個(gè)關(guān)鍵的領(lǐng)域是欺詐檢測模型訓(xùn)練。由于欺詐性案件的數(shù)量與非欺詐性案件相比較十分稀少,研究人員很難有效地從可用數(shù)據(jù)中訓(xùn)練模型,導(dǎo)致無法針對(duì)欺詐性行為進(jìn)行建模。然而,合成數(shù)據(jù)可以生成比實(shí)際數(shù)據(jù)中欺詐案例比例更高的合成數(shù)據(jù)樣本,用于幫助改進(jìn)模型訓(xùn)練。


圖:金融數(shù)據(jù)合成過程(來源:摩根大通官網(wǎng))

英國金融行為監(jiān)管局(Financial Conduct Authority,F(xiàn)CA)也積極跟進(jìn)合成數(shù)據(jù)作為一項(xiàng)隱私保護(hù)技術(shù)在金融行業(yè)的應(yīng)用前景。FCA在2022年3月的公開報(bào)告中指出,合成數(shù)據(jù)通過生成統(tǒng)計(jì)學(xué)上真實(shí)(statistically?realistic)的但“人造”(artificial)的數(shù)據(jù),為數(shù)據(jù)共享提供更多的機(jī)會(huì)。技術(shù)的應(yīng)用有利于提供更普及、更高效、更好提升消費(fèi)者體驗(yàn)的金融服務(wù),目前的應(yīng)用領(lǐng)域包括:金融犯罪和欺詐預(yù)防、信用評(píng)分、銷售和交易、保險(xiǎn)產(chǎn)品定價(jià)和索賠管理、資產(chǎn)管理和組合優(yōu)化等。值得注意,合成數(shù)據(jù)也存在通過逆向工程來獲取真實(shí)數(shù)據(jù)的風(fēng)險(xiǎn),對(duì)數(shù)據(jù)隱私保護(hù)而言并非完美的解決方案。為此,F(xiàn)CA已經(jīng)通過公開征求意見來了解業(yè)界對(duì)合成數(shù)據(jù)支持創(chuàng)新的潛力和滿足企業(yè)有效需求的看法以及潛在的限制和風(fēng)險(xiǎn)。

圖:合成數(shù)據(jù)存在真實(shí)數(shù)據(jù)泄露風(fēng)險(xiǎn)(來源:英國國家統(tǒng)計(jì)辦公室)

在醫(yī)療領(lǐng)域,醫(yī)療影像的合成數(shù)據(jù)正對(duì)醫(yī)療AI領(lǐng)域的發(fā)展產(chǎn)生巨大推動(dòng)作用。例如,創(chuàng)業(yè)企業(yè)Curai基于仿真的醫(yī)療案例數(shù)據(jù)訓(xùn)練了一個(gè)醫(yī)療診斷模型,表明合成的醫(yī)療數(shù)據(jù)同樣可以用于支持醫(yī)療AI應(yīng)用的開發(fā)。美國生物技術(shù)公司Illumina和合成數(shù)據(jù)創(chuàng)業(yè)公司Gretel合作,利用合成的基因組數(shù)據(jù)來進(jìn)行醫(yī)學(xué)研究,以避免限制性立法、病人同意等問題,這些問題阻礙醫(yī)學(xué)研究的速度和規(guī)模。另一個(gè)典型的例子是將合成數(shù)據(jù)用于新冠肺炎相關(guān)的醫(yī)學(xué)研究。為了對(duì)抗新冠肺炎,研究人員需要獲取足夠的病例數(shù)據(jù)來開展研究,但出于隱私保護(hù)等顧慮,研究人員在獲取新冠肺炎相關(guān)的病例數(shù)據(jù)時(shí)面臨不小的困難。

為此,美國國立衛(wèi)生研究院(NIH)和Syntegra、MDClone等合成數(shù)據(jù)服務(wù)商合作,基于其Covid-19病人病歷數(shù)據(jù)庫“全國新冠合作群組”(National COVID Cohort Collaborative,N3C)中超過500萬個(gè)新冠陽性個(gè)體的病例數(shù)據(jù),合成了不具有可識(shí)別性的替代數(shù)據(jù),即合成的Covid-19數(shù)據(jù)。合成數(shù)據(jù)精確地復(fù)制了原始數(shù)據(jù)集的統(tǒng)計(jì)特征,但與原始數(shù)據(jù)不存在任何關(guān)聯(lián),可以被世界范圍內(nèi)的研究人員自由分享和使用,用于開展研究發(fā)現(xiàn)、疾病治療、疫苗開發(fā)等方面的工作。

在零售領(lǐng)域,創(chuàng)業(yè)公司Caper可以基于一個(gè)商品的幾張圖片,利用3D模擬技術(shù)創(chuàng)建含有上千個(gè)圖片的合成數(shù)據(jù)集,進(jìn)而支持智慧零售店。在工業(yè)領(lǐng)域,F(xiàn)ORD利用游戲引擎和GAN來創(chuàng)造合成數(shù)據(jù)訓(xùn)練AI模型。此外,合成數(shù)據(jù)還可幫助應(yīng)對(duì)算法歧視等AI倫理問題,支持打造更公平、可信的AI模型,因?yàn)楹铣蓴?shù)據(jù)可以幫助消除AI數(shù)據(jù)集中的偏見因素,支持構(gòu)建更具包容性的、代表性的高質(zhì)量數(shù)據(jù)集。

合成數(shù)據(jù)產(chǎn)業(yè)加快成為數(shù)據(jù) 要素市場新賽道,科技大廠和 創(chuàng)新企業(yè)搶先布局

合成數(shù)據(jù)對(duì)人工智能未來發(fā)展的巨大價(jià)值使其加速成為AI領(lǐng)域的一個(gè)新產(chǎn)業(yè)賽道。一方面,國外的主流科技公司紛紛瞄準(zhǔn)合成數(shù)據(jù)領(lǐng)域加大投入與布局。英偉達(dá)是典型代表,其元宇宙平臺(tái)Omniverse擁有合成數(shù)據(jù)能力omniverse replicator;omniverse replicator作為Omniverse平臺(tái)的一部分,是為AI算法訓(xùn)練生成具有物理屬性的合成數(shù)據(jù)的技術(shù)引擎,有兩項(xiàng)代表性應(yīng)用。

一是在Omniverse平臺(tái)中創(chuàng)建用于機(jī)器人訓(xùn)練的虛擬環(huán)境Issac SIM平臺(tái),在這個(gè)虛擬環(huán)境中訓(xùn)練的機(jī)器人之后可以直接應(yīng)用于現(xiàn)實(shí)世界,即這個(gè)機(jī)器人可以將在虛擬世界中的訓(xùn)練結(jié)果同步到現(xiàn)實(shí)世界的機(jī)器人身上,疊加人工智能的算法,實(shí)現(xiàn)機(jī)器人的大規(guī)模應(yīng)用。

二是drive SIM平臺(tái),提供豐富的模擬場景,用于自動(dòng)駕駛算法訓(xùn)練和驗(yàn)證,如物體識(shí)別、車道保持、泊車等自動(dòng)駕駛汽車應(yīng)用。Omniverse的這兩項(xiàng)合成數(shù)據(jù)應(yīng)用可以顯著加速機(jī)器人和自動(dòng)駕駛的開發(fā)進(jìn)程。

微軟的Azure云服務(wù)則推出了airSIM平臺(tái),可以創(chuàng)建高保真的(high fidelity)的3D虛擬環(huán)境來訓(xùn)練、測試AI驅(qū)動(dòng)的自主飛行器;微軟還開發(fā)了可以生成合成和聚合數(shù)據(jù)集的開源工具Synthetic Data Showcase,并創(chuàng)建了合成人臉數(shù)據(jù)庫,和國際移民組織(IOM)合作打擊人口販賣。亞馬遜在多個(gè)場景探索合成數(shù)據(jù)的應(yīng)用,例如使用合成數(shù)據(jù)來訓(xùn)練、調(diào)試其虛擬助手Alexa,以避免用戶隱私問題;其合成數(shù)據(jù)技術(shù)Wordforge工具可以用來創(chuàng)建合成場景(synthetic scenes);在2022年的亞馬遜re:MARS大會(huì)上,其數(shù)據(jù)標(biāo)注服務(wù)SageMaker Ground Truth推出了合成數(shù)據(jù)能力,可以自動(dòng)生成標(biāo)注的合成圖片數(shù)據(jù),即該工具可以就特定物體創(chuàng)建不同位置和不同燈光條件的圖片,以及不同比例和其他變化的圖片。Meta(原Facebook)也著力于為其人工智能業(yè)務(wù)增強(qiáng)合成數(shù)據(jù)能力,2021年11月收購了合成數(shù)據(jù)創(chuàng)業(yè)公司AI.Reverie。

另一方面,合成數(shù)據(jù)作為AI領(lǐng)域的新型產(chǎn)業(yè),相關(guān)創(chuàng)新創(chuàng)業(yè)方興未艾,合成數(shù)據(jù)創(chuàng)業(yè)公司不斷涌現(xiàn),合成數(shù)據(jù)領(lǐng)域的投資并購持續(xù)升溫,開始涌現(xiàn)了合成數(shù)據(jù)即服務(wù)(synthetic data as a service,SDaaS這一發(fā)展前景十分廣闊的全新商業(yè)模式。

據(jù)國外研究者統(tǒng)計(jì),目前全球合成數(shù)據(jù)創(chuàng)業(yè)企業(yè)已達(dá)100家。比較知名、有影響力的包括AI.Reverie、datagen、sky engine、mostly.ai、synthesis AI、gretel.ai、one view、innodata、cvedia等等。在過去的18個(gè)月,公眾視野中已知的合成數(shù)據(jù)公司融資總額達(dá)到3.28億美元,比2020年高出2.75億美元。合成數(shù)據(jù)的創(chuàng)業(yè)賽道主要涵蓋非結(jié)構(gòu)化數(shù)據(jù)(圖片、視頻、語音等)、結(jié)構(gòu)化數(shù)據(jù)(表格等)、測試數(shù)據(jù)(test data)、開源服務(wù)等幾大方向。其中,非結(jié)構(gòu)化合成數(shù)據(jù)持續(xù)保持強(qiáng)勁發(fā)展勢頭,這主要得益于以下幾個(gè)因素:

第一,計(jì)算機(jī)視覺應(yīng)用場景相對(duì)成熟;

第二,有游戲引擎(game engines)、圖像建模軟件、AIGC技術(shù)的支撐;

第三,自動(dòng)駕駛汽車、零售、電子游戲等快速發(fā)展的產(chǎn)業(yè)對(duì)合成數(shù)據(jù)有較高需求。

目前結(jié)構(gòu)化數(shù)據(jù)合成和測試數(shù)據(jù)合成正在迅猛發(fā)展,尤其是合成的測試數(shù)據(jù)更少受到數(shù)據(jù)隱私立法的限制,所以開始受到業(yè)界青睞。此外,合成數(shù)據(jù)開源服務(wù)也在快速發(fā)展,例如synthetic data vault、synner、synthea、synthetig等。

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢