精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項超值服

開通VIP
GPT-4o,科幻走進(jìn)現(xiàn)實(shí)
5月14日凌晨,無數(shù)人蜂擁進(jìn)OpenAI的“春季新品發(fā)布會”直播間,共同見證OpenAI最新旗艦大模型GPT-4o面世。

GPT-4o的“o”是“omni”的縮寫,源自拉丁語“omnis”,表示“全部、一切”之意,我們可以理解為“全知全能”,由此可見OpenAI的野心。

為了幫助大家更通俗易懂地了解GPT-4o,沃垠AI兩個角度進(jìn)行了梳理總結(jié)。

第一個角度是基于OpenAI此次發(fā)布會和官網(wǎng)發(fā)布信息整理13條要點(diǎn),第二個角度是沃垠AI創(chuàng)始人冷逸從實(shí)際應(yīng)用層面出發(fā),總結(jié)的10條觀點(diǎn),分享給大家:

來自冷逸的思考總結(jié)

1、GPT-4o的發(fā)布,是人工智能多模態(tài)能力的一大重要進(jìn)步,對于全人類而言都是重要進(jìn)步。

2、AI支持文本、圖片(視覺)、音頻和視頻等多模態(tài)輸入并不新鮮,Gemini、通義、訊飛都可以做到,但他們多數(shù)是通過獨(dú)立的模型來實(shí)現(xiàn)的,而GPT-4o是統(tǒng)一到了一個新模型里,所有輸入和輸出都是由同一神經(jīng)網(wǎng)絡(luò)處理,變革了新的人機(jī)交互模式。

3、單論實(shí)時對話、翻譯,很多工具或許比GPT-4o還做得好,但GPT-4o的驚喜之處在于,它還能理解人類的情緒、語氣、語調(diào)和語速,這是AI真正的有把自己當(dāng)人看啊,開始模仿人類的真實(shí)反應(yīng),仿生人有了雛形。

4、簡單說,傳統(tǒng)大模型(哎,怎么一下子就變傳統(tǒng)了
)只是讓AI有了嘴巴,現(xiàn)在GPT-4o讓AI不僅有了嘴巴,還有眼睛、耳朵,就差鼻子了,比《流浪地球》里的Moss還多了2個器官。當(dāng)然,Moss有量子計算,這是人工智能的核彈技術(shù)。

5、4o是人工智能的重大進(jìn)步。通往AGI的路上,多模態(tài)是極其重要的一步。多模態(tài)被攻克后,接下來就是計算機(jī)理解物理世界和物理規(guī)律,推理能力的提升,以及并發(fā)計算能力的提升,隨著這些技術(shù)的突破,將不斷逼近AGI。5年之內(nèi)看到AGI,會非常有可能。

6、這個技術(shù),對機(jī)器人是極大利好。只要有攝像頭、麥克風(fēng),接入GPT-4o,即使手搓的機(jī)器人雛形就已經(jīng)非常智能了。這對機(jī)器人產(chǎn)業(yè)來說,是來自底層技術(shù)的超級大利好。

7、OpenAI開啟了一條新的推廣模式,即我發(fā)布最新產(chǎn)品就免費(fèi)、開放,這對于很多做底層模型模仿和套殼的公司來說是致命的打擊。OpenAI一迭代,就會死一片創(chuàng)業(yè)公司,何況現(xiàn)在還免費(fèi)。

8、難說這個決策,沒有受到國內(nèi)幻方DeepSeek-V2和智譜GLM-3的影響,上個周他們均將自己的API費(fèi)用降到了1元/百萬tokens,而且注冊就送千萬tokens。這都是中國移動互聯(lián)網(wǎng)初的老打法了。

9、短期內(nèi),手機(jī)將是GPT-4o最好的應(yīng)用載體(目前GPT APP還未開放4o版),想想GPT-4o模型結(jié)合智能機(jī)的一堆硬件可以做多少事啊,場景太豐富了。目前已上市的所謂AI手機(jī),都將被重新革新。

10、不僅如此,任何1個有攝像頭、麥克風(fēng)的iot設(shè)備,都可以接入GPT-4o,做很多有智慧的事。

基于OpenAI發(fā)布會和官網(wǎng)的信息梳理

1、OpenAI此次發(fā)布的重點(diǎn)主要集中在三個方面:一是發(fā)布多模態(tài)模型GPT-4o、二是推出ChatGPT新UI、三是推出桌面版GPT。

2、在未來幾周內(nèi),GPT-4o模型將分階段集成到OpenAI的各個產(chǎn)品中,免費(fèi)提供給我們使用。

3、不過,即使是免費(fèi),OpenAI也是限制了一定的消息數(shù)量的,當(dāng)我們使用GPT-4o模型超過一定的消息數(shù)之后,模型就會被切換回GPT-3.5。但如果我們是付費(fèi)用戶的話,擁有的GPT-4o消息數(shù)上限就是免費(fèi)用戶的五倍。

4、目前,GPT-4o可以支持包括中文在內(nèi)的20種語言

5、比起GPT-4,GPT-4o的優(yōu)勢在于它更擅長打組合拳,可以處理文字、音頻、圖像的任意組合輸入,然后生成對應(yīng)的組合來進(jìn)行回答,包括通過語音來回答。

6、在傳統(tǒng)的基準(zhǔn)測試中,GPT-4o在文本、推理和編碼智能等方面,都達(dá)到了GPT-4 Turbo級別的性能,而在多語言、音頻和視覺能力方面,則是創(chuàng)下了新高。

  • 文本評估

GPT-4o在0次COT MMLU上創(chuàng)下了88.7%的新高;在傳統(tǒng)的5次無CoT MMLU上,GPT-4o創(chuàng)下了87.2% 的新高。(注:Llama3 400b仍在訓(xùn)練中)

  • 音頻ASR性能

GPT-4o在所有語言上顯著提高了語音識別性能,尤其是對于資源匱乏的語言。

  • 音頻翻譯性能

在語音翻譯方面,GPT-4o創(chuàng)下了新的好成績,并處于領(lǐng)先地位,它在MLS基準(zhǔn)測試中的表現(xiàn)也優(yōu)于Whisper-v3。

Whisper-v3是由OpenAI開發(fā)并開源的語音識別模型。它是Whisper 系列模型的最新版本,專門用于自動語音識別,即把人類的語音轉(zhuǎn)換成書面文本。

  • M3Exam零樣本結(jié)果

GPT-4o在M3Exam基準(zhǔn)測試中,表現(xiàn)出來的結(jié)果比GPT-4更強(qiáng)。

M3Exam基準(zhǔn)測試,由來自其他國家標(biāo)準(zhǔn)化考試的多項選擇題組成,包括多語言評估和視覺評估。

  • 視覺理解評估

GPT-4o在視覺感知基準(zhǔn)測試中達(dá)到了最先進(jìn)的水平,所有視覺評估均為0次,其中MMMU、MathVista和 ChartQA為0次CoT。

7曾經(jīng),我們通過語音和GPT-3.5對話的平均延遲是2.8秒,和GPT-4對話的平均延遲是5.4秒,之所以有這么長的延遲,是因為模型邏輯是:先通過一個簡單模型將音頻轉(zhuǎn)錄為文本—GPT-3.5GPT-4接收文本后再輸出文本—接著由另一個簡單模型將文本轉(zhuǎn)換成音頻。中間轉(zhuǎn)來轉(zhuǎn)去的,又容易丟失信息,所以才會存在延遲,以及無法輸出類似于人類的情感表達(dá)。


8、現(xiàn)在,我們通過語音和GPT-4o對話的平均響應(yīng)時間是300毫秒,基本和人類的反應(yīng)速度一致。這是因為GPT-4o的所有輸入和輸出都在該模型中由同一神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,不像GPT-3.5或GPT-4一樣需要轉(zhuǎn)來轉(zhuǎn)去的,沒有了“中間商賺差價”自然就更快、更及時了。

9、在直播間演示和官網(wǎng)發(fā)布的場外演示中,我們可以發(fā)現(xiàn),GPT-4o能夠隨時加入或打斷人們的對話,而且它也能識別說話人的情緒、語調(diào),然后根據(jù)場景或人們的指令生成各種不同的語調(diào)、情緒的聲音來進(jìn)行回復(fù),哪怕要求它唱歌也是可以的。

我們可以通過手機(jī)攝像頭、實(shí)時共享屏幕等方式,讓GPT-4o掃描各種視覺信息,實(shí)現(xiàn)和它的視頻互動,這種交互方式就類似我們和GPT-4o進(jìn)行“視頻通話”,而GPT-4o會像人類一樣和我們聊天。

Brockman讓兩個ChatGPT互相對話,在01:28時,一個女人出現(xiàn)在了Brockman身后,而GPT-4o也看到了這個女人,并且告訴了Brockman,女人做了哪些小動作。

在Brockman簡單調(diào)試之后,兩個ChatGPT直接根據(jù)剛才的對話開始了對唱,并且唱得還不錯。


10雖然情感識別和輸出確實(shí)是GPT-4o所展現(xiàn)出來的一種強(qiáng)大的能力,但它潛力并不止于此。我們還可以把它用于文字處理、圖像內(nèi)容描述、圖片文字提取、生成HTML代碼、分析交易數(shù)據(jù)尋找物理地址、甚至草擬法律文件等場景。


11、OpenAI官網(wǎng)的功能展示一些GPT-4o的應(yīng)用場景,我們選取了部分予以展示:

  • 生成3D動圖

  • 詩歌排版

  • 照片生成漫畫

  • 照片設(shè)計成電影海報(還是上面那兩張照片)

  • 為GPT-4o設(shè)計紀(jì)念幣

  • 設(shè)計字體

12、開發(fā)者可以在API里同步使用GPT-4o,價格是GPT-4 Turbo的一半,速度是GPT-4 Turbo的兩倍。雖然,當(dāng)前GPT-4o的API不直接包含語音功能,但OpenAI計劃在未來約一個月內(nèi)向Plus用戶推出基于GPT-4o改進(jìn)的語音體驗。

13、最后,讓吃瓜群眾津津樂道的是,OpenAI搶在谷歌I/O大會前一天發(fā)布GPT-4o的行為跟“下戰(zhàn)帖”沒什么兩樣,不知道谷歌看完今天的發(fā)布會是什么心情?有沒有“壓力山大”?坐等明天谷歌的“回?fù)簟绷恕?div id="l4ljjjr" class='imgcenter'>

官網(wǎng)地址:
https://chat.openai.com/
GPT-4o官方介紹:
https://openai.com/index/hello-gpt-4o/
直播回放:
https://www.youtube.com/watch?v=DQacCB9tDaw
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
短短26分鐘的發(fā)布會,OpenAI為何讓AI 圈再次震驚?
OpenAI新功能揭秘多模態(tài)時代的到來(GPT4Turbo模型性能更強(qiáng)大而且價格更親民從識別圖片到識別視頻通過OpenCV組件加載視頻有代碼模塊例程)
OpenAI一夜改寫歷史 GPT-4o干翻所有語音助手!絲滑如真人引爆全網(wǎng)
GPT-4發(fā)布,能擊敗90%的人類
比 GPT-4 還厲害?Google 發(fā)布最強(qiáng) AI 模型 Gemini
谷歌的原生多模態(tài)大模型Gemini來了,劍指GPT-4
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 梨树县| 梅河口市| 临江市| 夹江县| 璧山县| 秦皇岛市| 固安县| 庆云县| 宜兰市| 贵州省| 南陵县| 绵阳市| 平山县| 尉犁县| 石家庄市| 勃利县| 德庆县| 荔波县| 青冈县| 登封市| 清远市| 遂宁市| 远安县| 株洲县| 灵川县| 新丰县| 陆川县| 东阿县| 东辽县| 尼勒克县| 循化| 崇州市| 五华县| 淳安县| 泗阳县| 巴马| 城固县| 宣威市| 安丘市| 莆田市| 扬州市|