真實(shí)的虛擬世界：從深度偽造到深度合成

2020-12-21 17:11:13 來源：消費(fèi)日?qǐng)?bào)網(wǎng)

　　2020年12月21日，騰訊研究院和騰訊新聞共同推出的“騰訊對(duì)話·Tencent Dialogue：始于2020”舉行了第五期線上對(duì)談。此次騰訊對(duì)話著重探討AI深度學(xué)習(xí)為基礎(chǔ)的深度合成技術(shù)(Deep Synthesis)的發(fā)展與應(yīng)用。騰訊玄武實(shí)驗(yàn)室負(fù)責(zé)人于旸、騰訊AI Lab視覺首席科學(xué)家劉威博士、中科院自動(dòng)化研究所副總工程師張文生教授、電影《大圣歸來》出品人路偉圍繞深度合成技術(shù)展開了深入討論，此次對(duì)話由騰訊研究院院長(zhǎng)司曉主持。

　　2014年，對(duì)抗生成網(wǎng)絡(luò)(GAN)被發(fā)明，由AI打造的虛擬世界大門初現(xiàn)。此后，“AI深度合成”(Deep Synthesis)逐漸從實(shí)驗(yàn)室飛入尋常百姓家，成為普通人數(shù)字生活體驗(yàn)的一部分。朋友圈中刷屏的換臉軍裝照、以假亂真的虛擬主播以及導(dǎo)航軟件中響起的明星語音都是這項(xiàng)技術(shù)的應(yīng)用形式。AI深度合成帶來新奇體驗(yàn)的同時(shí)也激起了眾多疑慮，“深度偽造”(Deepfake)的陰云揮之不去。有了“Deepfake”, “眼見為實(shí)”成為過時(shí)的經(jīng)驗(yàn)，人們擔(dān)心這項(xiàng)技術(shù)會(huì)帶我們進(jìn)入一個(gè)“真假混淆”的世界，其中個(gè)體安全感和社會(huì)信任都岌岌可危。

　　我們?nèi)绾卫斫膺@項(xiàng)技術(shù)的現(xiàn)在和未來?深度偽造之憂如何破解?深度合成技術(shù)如何向善發(fā)展?以下是對(duì)話實(shí)錄摘要：

　　合成=偽造 or 合成 = 創(chuàng)造力？

　　司曉：深度合成技術(shù)在我們身邊有哪些應(yīng)用？

　　劉威：在很多人的印象里，合成和偽造是天然聯(lián)系在一起的，但實(shí)際不是這樣的。我們有很多積極的應(yīng)用形式。譬如圖像修復(fù)，也是一種合成。騰訊AI Lab也與敦煌、故宮都在討論，怎么去用人工智能的技術(shù)，確切來說用對(duì)抗生成網(wǎng)絡(luò)的技術(shù)，去還原一幅古畫，用AI的想象修補(bǔ)殘缺。

　　路偉：深度合成在電影里面的應(yīng)用是越來越多了。以《大圣歸來》為例，其中有一百多個(gè)角色，很多故事情節(jié)，我們要讓它們?cè)谔摂M場(chǎng)景里影像化呈現(xiàn)。我們還用到了AI音效，建立角色的虛擬人格。老片《上甘嶺》的重映用到了AI去做色彩還原，效果還不錯(cuò)。像中國(guó)電影資料博物館有非常多老片資源，今后都可以通過技術(shù)還原手段重獲新生，能達(dá)到2K、甚至4K的清晰度。

　　張文生：現(xiàn)在大家重視的都是一些語音和圖像的深度合成，實(shí)際上能合成的東西還有很多。比如一個(gè)城市系統(tǒng)的智能交通，本身也是在做合成，它是我們物理空間和數(shù)字空間的合成。

　　司曉： 埃隆· 馬斯克 在 一段訪談里面講，按現(xiàn)在通過技術(shù)去仿真的能力的提升速度，我們總有一天能夠去用完全數(shù)字化的方式去還原或者模擬一個(gè) 對(duì) 人類來說真假難辨的世界。大家 來 開一下腦洞，大膽預(yù)測(cè)一下深度合成的未來？

　　路偉：現(xiàn)在的電影仿真技術(shù)已經(jīng)能以假亂真。我們現(xiàn)在做電影，也在用一切辦法讓觀眾進(jìn)入一個(gè)虛擬的真實(shí)世界，從環(huán)境、燈光、空氣密度、照度、色溫，然后角色的運(yùn)動(dòng)、擁抱、談笑，全部都要讓觀眾覺得它是真的。虛擬主播也開始出現(xiàn)，比如洛天依和初音未來是虛擬角色1.0版本，接下來肯定會(huì)有2.0、3.0版本。在未來的五到十年，我認(rèn)為虛擬明星的市場(chǎng)要遠(yuǎn)遠(yuǎn)大于真實(shí)世界的市場(chǎng)。

　　我 認(rèn)為未來會(huì)出現(xiàn)“ 無邊界 ” 的概念。 特別是在AI和VR的時(shí)代，觀眾感受到的不只是感官的視覺、聽覺、味覺，還有情感的感受，它應(yīng)該是更加真實(shí)的、更加入心的，有時(shí)候我是認(rèn)為在未來的真實(shí)的虛擬世界里，虛擬和真實(shí)和邊界會(huì)慢慢模糊。我覺得現(xiàn)在的CG （計(jì)算機(jī)圖形） 技術(shù)和計(jì)算能力， 在不斷 拓寬我們對(duì)世界的認(rèn)知。

　　張文生：我們對(duì)深度合成的“深度”要求是與審美水平提高同步的。比如我們看到的AI主播，一開始是二維的，然后語音和圖像結(jié)合了，慢慢地把口型什么都做得很好了。我想未來的三年，它有可能變成三維的、立體的一個(gè)場(chǎng)景。

　　只要有需求，有應(yīng)用場(chǎng)景，這項(xiàng)技術(shù)就有市場(chǎng)。以電影制作為例，當(dāng)我們拍一些危險(xiǎn)場(chǎng)景，就可以使用深度合成來完成，減少演員受傷?；蛘咭恍按髨?chǎng)面”，用實(shí)拍成本非常高，有時(shí)根本實(shí)現(xiàn)不了，比如想展現(xiàn)成千上萬只羊在山上跑，但是用深度合成就可以連羊胡須這樣的細(xì)節(jié)都展顯出來。另外，一些想象層面的內(nèi)容，比如把動(dòng)物的動(dòng)作附加到人身上，也可以通過技術(shù)實(shí)現(xiàn)。只要這些需求存在，技術(shù)一定會(huì)有大的突破。十年前，我們就在做裸眼3D，現(xiàn)在看，裸眼3D技術(shù)如果與深度合成技術(shù)結(jié)合，我相信那市場(chǎng)會(huì)更大。

　　司曉： 我們看到的這些合成動(dòng)作離真人的動(dòng)作差距點(diǎn)還在哪？目前存在哪些瓶頸？

　　劉威：我們目前稱之為“深度合成”的技術(shù)使用的是深度神經(jīng)網(wǎng)絡(luò)，在此之前的合成用的是統(tǒng)計(jì)的方法，嚴(yán)格意義上不能叫做“深度合成”。統(tǒng)計(jì)的方法就是說我們想合成什么東西，我會(huì)收集跟它很像的一些樣本，然后用統(tǒng)計(jì)手段去“猜”一下，把這個(gè)樣本拼在一起。2014年對(duì)抗生成網(wǎng)(GAN)被發(fā)明，自此以后，相關(guān)應(yīng)用的發(fā)展突飛猛進(jìn)。

　　但是，就拿產(chǎn)生圖像來說，雖然這六年技術(shù)發(fā)生了巨大的進(jìn)展，但是仍然離我們想象的那種高度自動(dòng)化、高度自由度有很大的距離。何為高度自動(dòng)化呢?舉例來說，我們要產(chǎn)生一個(gè)非常逼真的人臉圖，當(dāng)然需要這個(gè)人臉圖像分辨率越高越好。但是分辨率一大，你需要的算力就會(huì)很大，大到在手機(jī)上是完成不了的，必須在云上做，用若干塊GPU才能做出來。

　　同樣，對(duì)于自由度來說，我們現(xiàn)在的合成技術(shù)也有很大局限。通俗地說，自由度就是我想讓它產(chǎn)生什么樣，就產(chǎn)生什么樣，這個(gè)仍然很難。在對(duì)抗生成網(wǎng)絡(luò)發(fā)展的早期，我們是用一個(gè)噪音來產(chǎn)生一張人臉，最后產(chǎn)出的結(jié)果是無法把控的。直到今年，我們才能對(duì)生成的人臉的屬性有要求。背后我們要訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型參數(shù)是海量的，訓(xùn)練方式也是非常復(fù)雜的。

　　盡管我們會(huì)遇到各種技術(shù)難點(diǎn)，我堅(jiān)信未來用人工智能技術(shù)去自動(dòng)產(chǎn)生 的 影像，會(huì)越做越好， 日臻完美 。

　　于旸：我想到的最重要的其實(shí)是感情。大家看一些電影，或者電視劇，有時(shí)會(huì)有這種情節(jié)：角色的親人故去之后，他可能去找一個(gè)巫婆、法師，把親人的魂魄招回來，讓我能再看他一眼，再跟他說一句話。現(xiàn)在，技術(shù)讓我們可能擁有了種魔法。未來肯定會(huì)有人有這種想法，有這種需求，這對(duì)技術(shù)提出了新的要求。

　　“深度合成本身應(yīng)該是賦能的技術(shù)”

　　司曉：目前深度合成技術(shù)面臨污名化，“深度偽造”問題突出，我們?cè)趺礃颖Ｕ衔覀冞@個(gè)技術(shù)不被用在造假、詐騙上？

　　劉威：在國(guó)內(nèi)，騰訊在數(shù)字鑒偽——或者稍微學(xué)術(shù)一點(diǎn)，叫信息辯論術(shù)上取得了不小的突破。我們對(duì)語音、圖像、視頻鑒定的準(zhǔn)確率比較可觀。當(dāng)然 ， 道高一尺魔高一丈，合成的技術(shù) 變強(qiáng) ，我們的防御 能力也得 增長(zhǎng) ，這 就像 雙手互搏。

　　以目前的圖像鑒偽技術(shù)為例，我們有一個(gè)步驟，先用對(duì)抗生成技術(shù)去制造高逼真的樣本，再把數(shù)據(jù)給計(jì)算機(jī)去判定，讓它多輪反復(fù)學(xué)習(xí)。我對(duì)鑒偽技術(shù)的發(fā)展保持樂觀?？梢钥吹?，即使在國(guó)際上的數(shù)字鑒偽比賽中，面對(duì)非常復(fù)雜的數(shù)據(jù)集、測(cè)試集，大家最后奪冠那些方法也不外如此。而造假的成本遠(yuǎn)遠(yuǎn)比鑒偽要高，也就是說，有人挖空心思造了假，我們一下就解決了。

　　于旸：假的影像或者聲音，能不能騙過人?能不能騙過機(jī)器?這其實(shí)是兩個(gè)話題。有些場(chǎng)景下人比機(jī)器好騙。比如，騙子給你打電話冒充你的同學(xué)，你一聽口音，我這個(gè)山東同學(xué)怎么是福建口音?但可能未來就不一樣了，騙子先打給你這個(gè)同學(xué)，錄一段你那個(gè)同學(xué)的聲音，根據(jù)那個(gè)聲音合成一下。你一聽，十幾年沒見，這好像就是我老同學(xué)的聲音，你就信了。

　　關(guān)于能不能騙過機(jī)器，在技術(shù)維度上，就是單純的機(jī)器造假和機(jī)器鑒別的較量。可能攻守雙方誰都不會(huì)特別確信能取得百分之百的優(yōu)勢(shì)，但落地到具體的業(yè)務(wù)里面的時(shí)候會(huì)發(fā)現(xiàn)，有時(shí)候會(huì)需要讓步。這個(gè)其實(shí)會(huì)給造假者提供便利。

　　張文生：這個(gè)可能還關(guān)乎商業(yè)模式，就是如何從經(jīng)濟(jì)上激勵(lì)“打假”相關(guān)技術(shù)的開發(fā)。此外，從打假的思路來說，如果我們要加上語義識(shí)別，可能會(huì)更容易，成本也更低。比如在電話詐騙這個(gè)場(chǎng)景下，騙子用了合成的語音，我馬上問一個(gè)涉及隱私的問題，對(duì)方就答不上來了，這就是語義。

　　司曉：我們這個(gè)行業(yè)還需要做哪些事情，真正保障 深度合成 這個(gè)技術(shù)是在一個(gè)向善軌道上快速運(yùn)行？

　　劉威：我個(gè)人希望從政策上鼓勵(lì)人工智能技術(shù)創(chuàng)新，尤其是影視內(nèi)容層面應(yīng)用的創(chuàng)新，來提高效率，降低制作流程的成本。同時(shí)我希望要能有一些文教方面的創(chuàng)新，包括老照片、老電影的上色、復(fù)原，在線教育領(lǐng)域的應(yīng)用等等。這些都是正確的引導(dǎo)。在立法和技術(shù)鑒別手段逐漸完善的情況下，我覺得技術(shù)造假應(yīng)該是小概率事件，整體上深度合成技術(shù)還是應(yīng)該向善。

　　于旸：我們看整個(gè)人類發(fā)展歷史，其實(shí)就是個(gè)體所擁有的力量，不管是建設(shè)力也好，破壞力也好，力量越來越大的過程，這是不可避免的。任何情況下，冒然抑制技術(shù)發(fā)展我認(rèn)為都是不對(duì)的。法律不是禁止發(fā)展技術(shù)，而是規(guī)范如何把技術(shù)用在好的方面。我覺得這個(gè)是最關(guān)鍵的。

　　張文生：人工智能本身是賦能的技術(shù)。我們做技術(shù)實(shí)際上是圍繞人們的生活、社會(huì)的進(jìn)步。深度合成會(huì)發(fā)展成一個(gè)新業(yè)態(tài)，全世界技術(shù)人員都會(huì)為它貢獻(xiàn)自己的力量。同時(shí)，我們也需要相關(guān)的規(guī)范來約束違法的、不利于社會(huì)發(fā)展的技術(shù)使用方式。做技術(shù)的人，怎么樣在這個(gè)“魔高一尺，道高一丈”的情況下更新技術(shù)，幫助政府和公民，用技術(shù)來解決問題。

　　路偉：對(duì)影視業(yè)來講，有關(guān)深度合成的核心關(guān)切是版權(quán)保護(hù)，虛擬資產(chǎn)、虛擬人物的版權(quán)歸屬都需要法律來界定。在科技發(fā)展之外，加上對(duì)版權(quán)的管理和尊重，這個(gè)行當(dāng)會(huì)越來越健康。

　　“用人性的溫度推動(dòng)AI持續(xù)向善”

　　司曉： 各位 對(duì) 深度合成的 發(fā)展還有哪些期待？

　　劉威：我期待深度合成技術(shù)能夠便利于文教、文創(chuàng)事業(yè)，孕育出更好的數(shù)字鑒別技術(shù)。我們今天談到的所有的一切，無論是合成、鑒偽，最后驅(qū)動(dòng)的都是人腦，人的創(chuàng)意。我希望AI里面會(huì)有越來越多的有溫度的東西，這樣我們才能讓AI持續(xù)向善。

　　于旸：在有現(xiàn)代科技之前，大部分人類生活的世界其實(shí)很小。但是以互聯(lián)網(wǎng)為代表的現(xiàn)代科技讓我們每個(gè)人都能夠和全世界發(fā)生聯(lián)系。再往后發(fā)展，類似深度合成這樣的技術(shù)，可以在我們已有的這種基礎(chǔ)上，再更進(jìn)一步。這種技術(shù)可以把物理世界中不存在的美好創(chuàng)造出來，讓我們?nèi)ジ惺?，?strong>必然會(huì)把人類生活的美好推到下一個(gè)境界。

　　張文生：我希望科技企業(yè)能夠把深度合成技術(shù)推動(dòng)變成一個(gè)商業(yè)模式，來吸引更多的做技術(shù)的人為之服務(wù)，做出來更好的產(chǎn)品?？萍计髽I(yè)也有責(zé)任和政府一起關(guān)注深度合成技術(shù)的發(fā)展，保障它在正確的、向善的軌道上。

　　路偉：我希望通過深度合成，通過計(jì)算機(jī)網(wǎng)絡(luò)，能夠讓我們未來做電影、影視、虛擬世界越來越簡(jiǎn)單，讓我們的作品越來越有溫度，讓更多的人能夠把自己掃描進(jìn)虛擬世界。我希望在 這個(gè) 世界里，人性的光輝照到更多角落里面。

編輯：沈露

審核：吳娜

免責(zé)聲明：以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體，相關(guān)信息僅為傳遞更多信息之目的，不代表本網(wǎng)觀點(diǎn)，亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如稿件版權(quán)單位或個(gè)人不想在本網(wǎng)發(fā)布，可與本網(wǎng)聯(lián)系，本網(wǎng)視情況可立即將其撤除。

微信
微博
手機(jī)中宏網(wǎng)

媚色直播官方版_媚色直播平台官方app下载_媚色直播永久免费版下载

真實(shí)的虛擬世界：從深度偽造到深度合成