英偉達攜全新AI模型“顛覆”音頻界：可創(chuàng)作音樂、修改人聲

訊石光通訊網(wǎng) 發(fā)布時間:2024/11/26 11:00:33 編者:iccsz

摘要：英偉達開發(fā)新型AI模型Fugatto，可創(chuàng)造聲音效果、改變發(fā)音方式，用自然語言提示生成音樂。Fugatto能合成語音、為音樂加音效，被視為視頻和圖像生成模型的補充。

ICC訊 據(jù)報道，英偉達（Nvidia）開發(fā)了一種新型人工智能（AI）模型，可以創(chuàng)造聲音效果，改變?nèi)说陌l(fā)音方式，并使用自然語言提示生成音樂。

這個模型被命名為Fugatto，即Foundational Generative Audio Transformer Opus 1，是一個研究項目。英偉達表示，它不會宣布任何發(fā)布這項技術(shù)的計劃，但它可能會對從音樂、娛樂到翻譯服務(wù)等行業(yè)產(chǎn)生廣泛的影響。

英偉達應(yīng)用深度學(xué)習(xí)研究副總裁Bryan Catanzaro在接受采訪時表示：“Fugatto最令人興奮的地方在于，它擁有一個模型，你可以要求它以某種方式發(fā)出聲音，這真的打開了你對它應(yīng)用范圍的想象。”

他進一步解釋說，市場上的其他模型，有些可以合成語音，有些可以為音樂添加音效，但Fugatto全部都可以做到。Catanzaro說，可以將其視為視頻和圖像生成模型（如Stability AI的Stable Video Diffusion或OpenAI的Sora）的一種補充。

“這里最基本的改進是……我們能夠使用語言合成音頻，我認為，這為人們可以用來創(chuàng)造驚人音頻的工具開辟了新的前景?！彼a充說。

根據(jù)英偉達的說法，F(xiàn)ugatto是第一個具有新興特性的基礎(chǔ)模型，這意味著它能夠混合經(jīng)過訓(xùn)練的元素，并遵循“自由形式的指令”。

具體而言，該模型可以通過標準的文字提示生成音頻，也可以處理您上傳的音頻文件。所以，如果你有一個人說話的文件，你可以把那個人的話翻譯成另一種語言，同時讓它聽起來像他的聲音。你也可以選擇一個簡單的曲調(diào)，讓它聽起來像管弦樂表演，或者在音樂中添加不同的節(jié)拍。

此外，你也可以上傳一個文檔，讓模型用你喜歡的任何聲音朗讀。更重要的是，你可以告訴模型發(fā)出帶有情感分量的聲音。

不過，Catanzaro也補充說，這種模型并不總是完美的。而且，就像生成圖像和視頻的模型一樣，F(xiàn)ugatto也會催生藝術(shù)家、音響工程師和相關(guān)領(lǐng)域人員的擔(dān)憂。但Catanzaro指出，他的本意是希望這項技術(shù)能幫助音樂家。

“我希望這是藝術(shù)家探索的新工具?！薄拔艺J為音頻一直是一個富有成效的探索領(lǐng)域。你知道，當(dāng)我們獲得新的音頻工具時，有時我們會獲得新的音樂形式。”他說。

內(nèi)容來自：財聯(lián)社
本文地址：http://3xchallenge.com//Site/CN/News/2024/11/26/20241126030217027615.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字:
文章標題:英偉達攜全新AI模型“顛覆”音頻界：可創(chuàng)作音樂、修改人聲

1、凡本網(wǎng)注明“來源：訊石光通訊網(wǎng)”及標有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標注作者信息和本站來源。
2、免責(zé)聲明，凡本網(wǎng)注明“來源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭議和其它問題，請聯(lián)系本網(wǎng)，將第一時間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話：0755-82960080-168 Right

英偉達攜全新AI模型“顛覆”音頻界：可創(chuàng)作音樂、修改人聲

相關(guān)新聞