AI 新聞2023.4.29---下一代人工智能7種模式－AI芯視界

Chat YouTube:
該視頻討論了下一代人工智能 (AI) 成為行業領導者所具備的七種模式。
第一種模式側重於下一代視覺理解，這將展示對圖像和視頻的極其複雜的理解，能夠以前所未有的準確性生成它們。
第二種模式將具有高級音頻功能，包括理解和幾乎完美地再現語音和聲音的能力，以及進行語音合成的能力。這些模式將允許用戶創建由 AI 生成的新型媒體，將電影和視頻與生成 AI 的力量相結合，以獲得一系列新的創意可能性。

Q:下一代人工智能成為行業領導者所具備的七種模式是什麼 Chat YouTube:
下一代人工智能成為行業領導者的七種模式如下：
1. 超級視覺理解：展示對圖像和視頻的極為複雜的理解，能夠以前所未有的精度生成它們。
2. 先進的音頻處理：具有理解和幾乎完美重現人聲和聲音的能力，並進行語音合成。
3. 多模式融合：將多個模態（例如視覺和音頻）結合在一起，從而實現更全面、精準和完整的信息處理和分析。
4. 自主學習：可以從不斷的數據和反饋中學習和改進，不再需要人類干預和指導。

5. 科學推理：能夠進行複雜的邏輯推理和推斷，理解、診斷和解決複雜的問題，擁有人類無法比擬的決策
能力。 6. 大規模聯邦學習：允許不同的AI系統共同學習，從而獲得更廣泛、更豐富和更完整的知識和經驗。 7. 以人為中心的認知：專注於情感和情緒的分析，使人工智能能夠更有效地感知和響應人類的情感。

Q:下一代 AI 生成的媒體.將提供哪些新的創意可能性？
Chat YouTube:
下一代 AI 生成媒體將提供一類新作品，將電影和視頻與生成 AI 的力量相結合，從而帶來一系列新的創作可能性。這包括使用添加的指令（例如包含或排除不同的對象、角色和事件）從電影中重新創建場景的能力。用戶還可以使用視頻中提到的一些高級模式，像目前混合圖像一樣輕鬆地混合多部電影。

Q:下一代人工智能將如何改善視聽理
解？
Chat YouTube: 下一代人工智能將通過擁有先進的模式來提高對音頻和視覺的理解，這些模式展示了對圖像和視頻的極其複雜的理解。對於視覺理解，人工智能將能夠以前所未有的準確性生成圖像和視頻。對於音頻功能，人工智能將能夠理解並幾乎完美地再現語音和聲音，以及進行語音合成。這些模式將允許用戶創建由 AI 生成的新型媒體。

Q:人工智能生成的媒體.將在電影行業扮演
什麼樣的角色？
Chat YouTube: 人工智能生成的媒體將在電影行業發揮越來越重要的作用。下一代人工智能將為用戶提供一系列新的創作可能性，使他們能夠從其他作品中汲取靈感，創造出一種新型媒體，但又會以粉絲認為合適的方式超越它們。使用人工智能生成的媒體，用戶將能夠將多部電影和視頻混合在一起，就像他們目前使用視頻編輯工具處理圖像一樣。此外，人工智能的高級視覺和音頻功能將使電影製作人能夠更輕鬆、更精確地創建場景和操縱聲音，為新形式的講故事和創造力鋪平道路。

00 根據人工智能的 0:01 最新進展，這些是 0:04 下一代成為行業領導者將具備的七種模式。 0:08 那麼這項即將發布的突破性技術將如何改變世界呢？ 0:13 模態一：下一代視覺理解即將到來的視覺模態實例將 0:19 展示極其複雜的圖像和視頻理解， 0:23 以及以看不見的精度生成這些媒體的能力。 0:27 例如， 0:29 2024 年推出的文本轉圖像和文本轉視頻視覺 AI 模型還將具有視頻轉視頻 0:35 功能，這意味著當用戶輸入他們喜歡的動作 0:39 片場景時，該模型將能夠重新創建場景添加了文本說明， 0:44 例如包括或排除不同的對象、角色和事件。 0:48 下一代 AI 生成的媒體 0:51 將產生全新的作品類別，這些作品直接受到 0:55 他人的啟發，但會以粉絲認為合適的方式超越它們， 0:58 就像完全令人失望的星球大戰續集一樣。 1:02 此外，使用本視頻中提到的一些下一個 1:03 模式，用戶將能夠將 1:07 多部電影混合在一起，就像他們目前可以通過 midjourney 混合圖像一樣簡單。 1:12 但是用戶不會使用圖像，而是 1:13 簡單地為模型提供幾個來自 YouTube 的鏈接，指向 1:17 他們想要用來激發它的視頻。 1:19 但是音頻模態的含義呢？ 1:23 模式二：下一代音頻能力，以及幾乎 1:28 完美地理解和重建語音和聲音的能力，以及執行文本 1:33 到語音、語音到文本和語音到語音的能力。 1:36 下一代音頻模式也將 1:39 與視覺理解聯繫在一起，讓用戶能夠 1:43 利用生成人工智能的力量解鎖一系列新的創造能力。 1:47 例如，想像一下能夠 1:49 從電影中提取您最喜歡的台詞並將聲音轉換 1:52 為其他人的聲音，同時還可以 1:55 根據各種視頻輸入和文本描述為表演創建場景。 1:59 最重要的是，通過結合其音頻 2:02 和文本模式，音樂家可以簡單地為 AI 模型提供一個節拍配樂， 2:06 以創建一整套歌詞和 2:10 相關音樂視頻故事情節的文本大綱及其視覺效果。 2:14 此外，粉絲可以 2:16 從多位藝術家那裡獲取他們最喜歡的音軌，並讓模型將它們融合 2:19 在一起，創造出一種全新且獨特的風格，這可能會吸引 2:23 現有和新觀眾的關注。 2:26 但與下一個相比，音頻和視頻模式似乎都沒有給人留下深刻印象。 2:31 模態三：元學習 2:34 元學習作為下一代人工智能係統的關鍵模態的出現 2:39 將徹底改變它們的適應性和解決問題的能力。 2:43 通過學習如何學習， 2:45 這些人工智能模型將加速和優化自己的學習過程 2:49 ，以快速適應新的任務、挑戰和領域。 2:52 這種自我改進能力不僅可以使人工智能係統隨著時間的推移變得更加 2:57 高效和有效，而且還可以大大減少 3:01 在其訓練和開發過程中大量人工干預的需要 3:03 ， 3:04 而且元學習將使人工智能 3:06 能夠發現和利用最佳學習策略，這些策略是 3:10 針對特定領域的任務或解決問題的場景量身定制， 3:14 最終導致性能優於人類。 3:18 因此，具有元學習 3:21 能力的人工智能係統將能夠更好地應對廣泛的現實世界 3:24 應用，從改進科學研究和自動駕駛汽車 3:29 到提高機器人和虛擬助手的能力。 3:33 此外，這種前所未有的自主智能 3:36 和適應性水平將成為下一個前沿領域的主要驅動力。 3:41 方式四：用於 3:43 機器人的具身人工智能。另一種將在 2024 年取得突破性 3:47 進展的關鍵方式是具體化人工智能， 3:52 通過機器人技術對現實世界中的物品進行物理操作。 3:55 目前，人工智能主要被隔離 3:57 在數字世界的範圍內，但即將到來的機器人革命 4:02 將通過智能設備改變物理世界，這些智能設備可以快速 4:06 學習自動執行大多數物理人類任務。 4:09 這種機器人模式將允許智能 4:11 機器與世界進行微妙的交互，同時計算 4:15 壓力、重量、形狀的力量，甚至感知紋理、溫度等。 4:20 機器人模態還將得到上述視覺和音頻 4:24 功能的補充，為機器提供理解和認知， 4:28 以便在工作場所和家中與人類進行智能互動。 4:32 此外，一個機器人獲得的經驗和知識將促進 4:36 網絡中其他機器人的訓練和精度， 4:40 這意味著當其他人的機器人學習一項任務時，您的機器人也會學習。 4:44 這方面的一個例子是多模態 4:46 機器人從頭到尾觀看人類對烹飪食譜的演示， 4:50 機器人學習物品重量和形狀的差異、 4:53 切割和混合物品的適當壓力，以及 4:57 對每個後續過程的額外見解它準備的飯菜。 5:00 但人工智能的學習曲線 5:02 將真正隨著未來的發展而爆炸式增長。 5:05 模態五：多代理多模態 2024 年引領潮流的人工智能模型即將到來的飛躍 5:10 將不可避免地利用調用多個 AI 代理來處理各種任務的 5:15 能力。 5:19 早在 2023 年，微軟的 Jarvis 就可以 5:22 通過擁抱 GPT 調用多個 AI 代理來執行更複雜的任務。 5:27 但這種多代理多模式將 5:30 在 2024 年達到新的高度，比如完成現實世界的任務。 5:34 例如，為了讓一個機器人修理另一個機器人， 5:38 它可能必須使用 GPT 4 之類的東西來進行文本理解和推理， 5:42 再加上調用 Ask Anything 來進行視覺理解，再加上調用 Bing Sydney 5:47 來收集實時信息與其他幾個模型和變體一樣， 5:51 使用無限數量的多代理、 5:56 多模式組合來執行其目標任務，以完成任何給定任務。 5:59 人工智能代理網絡將能夠 6:01 了解哪些模型和模態最適合每個目標 6:04 ，並更新網絡的其餘部分以提高未來的性能。 6:08 但人工智能將如何跟上自身進步的步伐呢？ 6:12 使用過時的訓練數據、 6:15 模態六實時數據和長期記憶整合。 6:19 2024 年領先的 AI 模型將採用突破性的模式，結合 6:24 實時數據和長期記憶來提供更高水平的智能。 6:28 通過訪問來自互聯網的實時信息和大量 6:32 先前交互的存儲庫，領先的多模態人工智能模型將展現出 6:36 前所未有的上下文、理解和適應性水平。 6:41 例如，這種模式將通過使用最新數據不斷更新知識庫， 6:44 實現對金融、天氣和社會趨勢等各個領域的 6:49 實時分析和預測。 6:52 此外，長期記憶集成將允許模型隨著時間的推移學習用戶 6:56 偏好，而不是通過 6:59 對用戶的對話理解來進行極其狹窄的對話。 7:03 但這種最終模式是人與機器之間的最終橋樑。 7:07 模態七人類：中心認知即將到來的最引人注目的模態之一 7:13 將專注於情緒和情緒分析，使人工智能 7:18 能夠更有效地感知和響應人類情緒。 7:21 通過評估文本、語音、 7:23 面部表情和肢體語言，人工智能將能夠理解 7:27 和適應情境中的情緒背景。 7:31 例如， 7:32 下一代多模式系統可以分析用戶的語氣或 7:36 書面交流，以檢測壓力或挫敗感，並 7:41 相應地調整其反應，確保更具同理心和支持性的互動。 7:44 在娛樂領域， 7:46 AI 生成的內容可以被定制以喚起 7:49 觀眾的特定情緒，創造更加身臨其境和引人入勝的體驗。 7:54 此外，海洋和情感分析 7:56 可能有助於開發更具社會意識和人類一致性的 8:00 人工智能係統，這些系統可以在各種環境中駕馭複雜的人類互動， 8:04 例如談判、團隊、協作和解決衝突。 8:09 所以這是一個壓倒性的問題，具有所有這七種模式的模型是否 8:14 有資格成為通用人工智能？