對于 AI 行業從業者來說,剛剛可能是一夜未眠。
北京時間 5月 15 日凌晨,美國人工智能公司 OpenAI 的春季功能更新會正式召開。OpenAI 首席技術官 Mira Murati發布了公司的最新模型GPT-4o。據介紹,GPT-4o速度是GPT-4(特別是GPT-4 Turbo)的兩倍,價格只有一半,且升級了模型在文本、視覺和音頻方面的功能。
當然,更重要的是,基于GPT-4o,OpenAI還對ChatGPT做了更新,增加了更強的語音和視覺功能,這讓ChatGPT對現實的感知能力大大增強。
在Google I/O發布會前夕,OpenAI用GPT-4o的發布再次向外界證明了,自己是大模型領域毋庸置疑的領先者。
/ 01 / GPT-4o,更快、更強
發布會一開始,OpenAI 首席技術官 Mira Murati就宣布了 GPT-4 的一次大升級,推出了GPT-4o(“o”代表“omni”)。作為最新發布的模型,GPT-4o擁有更快的速度,并且升級了模型在文本、視覺和音頻方面的功能。
具體來說,GPT-4o大致有以下四個升級:更強的多模態能力、多語言能力的提升、更強的視覺和音頻理解、更快的速度和更低的價格。
第一,GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,是真正意義上的多模態模型。
對于這個能力,OpenAI做了17個案例展示,其中包括照片轉漫畫、3D物體合成、海報創作、角色設計等樣本。在角色設計案例里,用戶先是向模型輸入角色的相關指令,并得到了一個機器人角色形象。
隨后用戶可以根據這一形象,自行設計角色的相關動作,包括玩飛盤、編程、騎自行車等等。
第二,更強的多語言能力,GPT-4o 50 種不同語言中的性能得到了提高,包括改進了分詞器以更好地壓縮其中的許多語言。GPT-4o 比 Whisper-v3 顯著提高了所有語言的語音識別性能,特別是對于資源匱乏的語言。
第三,與現有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。根據傳統基準測試,GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能,同時在多語言、音頻和視覺功能上實現了更高水平的突破。
在音頻性能上,GPT-4o 在語音翻譯方面樹立了新的最先進水平,并且在MLS基準測試中優于 Whisper-v3。
視覺理解方面,GPT-4o在M3Exam基準和視覺感知基準上都有不錯的表現。其中,M3Exam基準是多語言和視覺評估,由來自其他國家標準化測試的多項選擇題組成,有時包括圖形和圖表。在所有語言的基準測試中,GPT-4o都比 GPT-4更強。
視覺理解評估 GPT-4o 在視覺感知基準上實現了最先進的性能。
在性能提升的同時,GPT-4o不僅速度更快了,價格也更便宜了。在OpenAI的API中,GPT-4o的速度是GPT-4(特別是GPT-4 Turbo)的兩倍,價格只有一半,并且具有更高的速率限制。
/ 02 / 新版ChatGPT來了
隨著GPT-4o的發布,OpenAI也對ChatGPT做了更新,增加了語音模式。與傳統的語音模式不同,ChatGPT的語音模式有三大特點:
一是交互過程中,可以隨時打斷;二是模型是實時響應,幾乎沒有延遲;三是模型更注重交互的情緒,不僅能夠聽懂你的情緒,也能夠生成不同風格和情感的聲音。
過去,人跟AI進行語音對話,基本上都經歷3步:1)你說的話,AI進行語音識別,即音頻轉文本;2)大模型拿到這段文本,進行回復,產出文本;3)講大模型的產出文本進行語音合成,變成音頻。
由于上述轉化過于繁瑣,因此在轉化過程中會造成大量信息的損耗,既無法直接觀察音調、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感。而借助GPT-4o,OpenAI跨文本、視覺和音頻端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一神經網絡處理,效率得到了大幅提升。
除了語音功能外,ChatGPT還新增了視覺功能,并做了現場演示。與此前模型上傳圖片不同,演示人員直接用手機打開了攝像頭,并進行了現場答題。
當語音和視覺功能結合起來,能夠明顯看到ChatGPT對現實環境的感知能力大大加強,甚至帶來了更多的應用場景。比如,通過視頻畫面,ChatGPT能夠分析出你當下所處的環境以及可能在做的一些事情。
除此之外,ChatGPT甚至還能和你一起逗狗。
這一切的一切,都讓ChatGPT越來越像一個人,而非AI。按照 Sam Altman 的說法,新的語音模式將在未來幾周內面向 Plus 用戶上線。
/ 03 / GPT-4o,尚未完成訓練的GPT-5?
在OpenAI發布會后,眾人也紛紛給出了自己的積極評價。
賓夕法尼亞大學沃頓商學院教授伊森·莫里克表示,GPT-4o 非常令人印象深刻,非常快,明顯比 GPT-4 更聰明(盡管沒有 GPT-5 更聰明),視覺更好。盡管潛在能力并不是巨大的飛躍,但實際上向前邁出了一大步。
英偉達高級人工智能科學家范吉姆(Jim Fan)在X上表示,OpenAI 已經找到了一種將音頻直接映射到音頻的方法,作為一流的模態,并將視頻實時傳輸到變壓器。這些需要對標記化和架構進行一些新的研究,但總的來說,這是一個數據和系統優化問題(就像大多數事情一樣)。
在他看來,此次發布的GPT-4o 可能更加接近 GPT-5,甚至可能是尚未完成訓練的GPT-5。尤其在Google I/O 大會之前,OpenAI 寧愿擊碎市場對GPT-4.5的心理預測,也不愿市場因錯過對 GPT-5 的極高期望而失望。這也為OpenAI爭取到了更多的時間。
在OpenAI發布會結束后,Sam Altman也發表了一則博客。以下是博客原文:
在我們今天的公告中,我想強調兩件事。
首先,我們使命的一個關鍵部分是將非常強大的人工智能工具免費(或以優惠的價格)提供給人們。我非常自豪我們在 ChatGPT 中免費提供了世界上最好的模型,沒有廣告或類似的東西。
當我們創辦 OpenAI 時,我們最初的想法是我們要創造人工智能并利用它為世界創造各種利益。相反,現在看起來我們將創造人工智能,然后其他人將使用它來創造各種令人驚奇的事物,讓我們所有人都受益。
我們是一家企業,會發現很多東西需要收費,這將有助于我們向(希望如此)數十億人提供免費、出色的人工智能服務。
其次,新的語音(和視頻)模式是我用過的最好的計算機界面。感覺就像電影里的人工智能一樣;我仍然有點驚訝它是真的。事實證明,達到人類水平的響應時間和表達能力是一個巨大的變化。
最初的 ChatGPT 暗示了語言界面的可能性;這個新事物感覺本質上是不同的。它快速、智能、有趣、自然且有幫助。
對我來說,與電腦交談從來都不是很自然的事情。現在確實如此。當我們添加(可選)個性化、訪問您的信息、代表您采取行動的能力等等時,我確實可以看到一個令人興奮的未來,我們能夠使用計算機做比以往更多的事情。