>>AI生成-河南夢之網科技公司是專業鄭州小程序開發公司,主要從事鄭州網站建設,鄭州網站制作,鄭州網站設計,鄭州做網站,微信朋友圈廣告,咨詢熱線:0371-55007557" />
河南夢之網網絡科技有限公司
夢之網科技出品
掃描關注夢之網科技微信公眾賬號

掃小程序碼聯系客服

微軟AI:一張面部照片一段音頻,完美生成頭像演講視頻-鄭州小程序開發

夢之網科技?2019-10-11?文章動態?

【新智元導讀】如何生成一段大頭演講視頻?微軟AI表示,只需要一張臉部照片和一段演講音頻就夠了。音頻有底噪?發音不準?這都不是問題,只需要這兩樣,剩下的交給AI就行。>>>AI生成的演講視頻效果如何,來新智元AI朋友圈了解一下~

越來越多的研究表明,只要語料庫足夠大,幾乎任何人的面部動作都可以與語音片段同步。

今年6月,來自三星的應用科學家詳細描述了一種能夠對人的頭像中的眉毛,嘴巴,睫毛和臉頰進行動畫處理的端到端模型。僅僅幾周后,AI教育機構Udacity展示了一種系統,可以自動根據旁白音頻生成講者的演講視頻。而早在兩年前,卡內基梅隆大學的研究人員就發表了一篇論文,文中描述了一種將面部動作從一個人移到另一個人頭上的方法。

微軟AI:一張面部照片一段音頻,完美生成頭像演講視頻-鄭州小程序開發

論文鏈接:

https://arxiv.org/pdf/1910.00726

在這篇(和其他一些)論文成果的基礎上,本周,微軟研究團隊提出了一項技術,研究人員聲稱,這種技術可以提高由音頻生成的有聲談話視頻的逼真程度。

以前,類似的生成方法對音頻質量的要求很高,一般需要使用中性、純凈、底噪相對很低的音頻才能實現。微軟研究人員表示,本次他們提供的方法可以將音頻序列分解為語音內容和背景噪聲,大大降低了對音頻樣本的質量要求,可以使用嘈雜的,甚至是“包含感情”的音頻數據樣本來生成視頻。

“眾所周知,語言一直充滿變化。對于同樣的話,不同的人會根據不同的上下文中使用不同的發音時間、幅度、語調等。使用語言的語音除了決定了說話的內容之外,還包含豐富的其他信息,從這些信息中可以看出說話者的情緒狀態、身份(性別,年齡,種族)和性格。據我們所知,從音頻表示學習的角度來看,我們提出的方法是首個提高語音表現的方法。

微軟AI:一張面部照片一段音頻,完美生成頭像演講視頻-鄭州小程序開發

這個方法技術基礎是可學習隱性表示的可變自動編碼器(VAE)。VAE能夠將輸入音頻序列分解為不同的表示形式,用于編碼內容、情感和其他變量因素。基于輸入音頻,從分布中采樣一系列內容表示,這些內容表示與輸入的面部圖像一起被送到視頻生成器中,對面部進行動畫化處理。

微軟AI:一張面部照片一段音頻,完美生成頭像演講視頻-鄭州小程序開發

輸入圖像和輸出視頻的截圖比較

研究人員使用三個數據集來對VAE進行訓練和測試,分別是:

GRID,一個視聽語料庫,包含來自34個講者的1000條語音記錄;

CREMA-D,由來自91個不同種族人士的7442個剪輯組成。

LRS3,包括取自TED視頻中的超過10萬口語句子的數據庫。

研究人員將GRID和CREMA-D輸入模型中,教模型如何對語音片段進行分解和情感表示,然后使用一對定量指標:峰信噪比(PSNR)和結構相似性指數(SSIM)來衡量VAE的表現。

微軟AI:一張面部照片一段音頻,完美生成頭像演講視頻-鄭州小程序開發

與基線方法在不同數據集上的性能比較

結果顯示,文中的方法在處理純正、自然的語音片段時,表現出的性能不亞于與其他所有模型。而且能夠在整個情感范圍內保持一致的表現,并與當前所有最新的說話人生成方法實現兼容。

論文作者表示:“我們針對變體的可學習先驗方法可擴展到其他言語因素,例如身份和性別,可以作為未來工作的一部分加以探討。” “我們通過對嘈雜的和情感的音頻樣本進行測試來驗證模型,并表明在存在這種音頻變化的情況下,我們的方法明顯優于當前的最新技術。”

參考鏈接:

https://venturebeat.com/2019/10/07/microsofts-ai-generates-high-quality-talking-heads-from-audio/

論文鏈接:

https://arxiv.org/pdf/1910.00726

微軟AI:一張面部照片一段音頻,完美生成頭像演講視頻-鄭州小程序開發

文章關鍵詞
微軟
AI
語料庫
急速赛车国语 倩女幽魂手游白泽之毫怎么赚钱 转发网能赚钱吗 如今免费的代理赚钱好 仙豆糕店赚钱吗 与钱茄相似的赚钱app 问道2018赚钱 生产水果网套赚钱吗 采购比会计赚钱吗 讲课软件赚钱 在医院怎么赚钱吗 有每天早上送祝福的赚钱app吗 果脯赚钱吗 跑网约车赚钱吗 天龙八部怎么升级赚钱 怎么赚钱到qq 武汉市赚钱行业