繼ChatGPT上線一周年之后,近日,谷歌的多模態(tài)Gemini忽然上線,被業(yè)界視為“谷歌最強反擊戰(zhàn)開啟”。投資機構針對Gemini的討論“炸開了鍋”。業(yè)內人士認為,Gemini在視覺識別和推理推斷方面有顯著優(yōu)化,落到商業(yè)場景上,實時交互場景或成為多模態(tài)人工智能模型應用的焦點。
Gemini“太震撼”
近日,谷歌CEO桑達爾·皮查伊宣布Gemini1.0版正式上線。Google DeepMind產品副總裁伊萊·柯林斯表示,這是Google迄今為止功能最強大、最通用的大模型。
據了解,和市面上現有大模型相比,Gemini從一開始就被創(chuàng)建為多模態(tài)的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。在靈活度上,從數據中心到移動設備上,它都能夠運行。
在觀看Gemini系列演示視頻后,不少投資人表示“太震撼”?!翱戳薌emini的演示視頻,其所表現出來的對多模態(tài)理解的能力非常驚人,此外,Gemini所表現出來的推理能力目前看來是超過ChatGPT的?!北本┼]電大學計算機學院副教授孫海峰表示,一方面,在多模態(tài)信息處理上,Gemini遠超OpenAI的ChatGPT。Gemini既可以支持多模態(tài)信息輸入,也支持多模態(tài)信息輸出。Gemini一個典型的特點是支持文本、圖像、音頻和視頻的交錯序列作為輸入,這對于ChatGPT或者傳統(tǒng)架構的多模態(tài)大模型來講,是很難實現的。通常來講,ChatGPT僅僅支持文字的輸出,其他模態(tài)的輸出需要調用第三方API來實現。Gemini這種交錯序列的輸入方式更符合絕大多數場景的需求。另一方面,在Gemini的技術報告中,其在MMLU數據集測試中的準確率達到了90.04%,超過了人類專家,其推理能力的進化具有里程碑意義。
在Gemini上線后的一天,谷歌被外界質疑稱,多模態(tài)視頻是剪輯拼貼的,Gemini涉嫌夸大宣傳。谷歌官方也給予了解釋:視頻的確有后期制作和剪輯的成分,Gemini所有交互不是實時感知到,而是工作人員給予圖片和提示之后的效果,即Gemini在讀取視頻方面還有待進一步發(fā)展。
實時交互場景或是商業(yè)化焦點
受此消息的影響,國內投資人針對多模態(tài)技術及其應用展開熱議。
某科技賽道的一級投資人表示,相較ChatGPT-4,Gemini的識圖和推理能力,以及目前看上去的響應速度有很大進步。他個人認為,Gemini與OpenAI的產品各有千秋,商業(yè)化落地方面還需要找到合適的場景。“有合適的場景適配,并找到增值需求還是關鍵,但Gemini確實是將AI模型的想象空間進一步打開了?!?/span>
“可以大膽想象,當多模態(tài)模型運行在機器人(11.640, -0.05, -0.43%)身上,可能實現具身智能,另外,當多模態(tài)模型和谷歌眼鏡結合時,或將升級為超級智能體。”另一位投資人表示。
某技術人士介紹,人類有五種感官,我們所建造的世界、所消費的媒體,都是以這樣的方式所呈現。而多模態(tài)模型意味著Gemini可以用和人類一樣的方式理解周圍的世界,并且吸收任何類型的輸入和輸出——無論是文字,還是代碼、音頻、圖像、視頻。其中最關鍵的技術,是如何混合所有這些模式,如何從任意數量的輸入和感官中收集盡可能多的數據,然后給出同樣多樣化的響應。
“Gemini更像人了,更貼近人的視覺識別和一些推理判斷,OpenAI的ChatGPT更多像一個大知識庫,它能夠給人提供信息參考。兩者不是誰超越誰,而是側重方向有顯著不同?!蹦惩顿Y人表示。
孫海峰表示,目前還不太清楚Gemini的具體實現結構是什么樣的,但是這種對多種模態(tài)信息可以交錯序列作為輸入方式的模式,是許多場景、尤其是實時交互場景非常需要的。
另一位科技投資人認為,Gemini的發(fā)布意味著大廠在人工智能方面具有先發(fā)優(yōu)勢更加確定,比如谷歌的Gemini視覺推理方面能力突出,是因為他們有基于搜索引擎的各種資料作為大量的訓練數據。此外,大廠在數據、流量、資金、算力以及應用場景上的優(yōu)勢都很明顯。
來源:中證網