①Step-1o系列是階躍星辰研發(fā)的端到端文本、視覺、語音三模態(tài)生成理解一體化模型。 ②Step-1o Audio語音模型能力也迎來升級,情商更高,聲音更自然,支持多語種及方言理解。
《科創(chuàng)板日報》1月21日訊(記者 黃心怡)既發(fā)布推理模型Step R-mini之后,階躍星辰再發(fā)布Step-1o Vision多模態(tài)理解大模型。
據(jù)了解,Step-1o系列是階躍星辰研發(fā)的端到端文本、視覺、語音三模態(tài)生成理解一體化模型。一個月前,階躍星辰發(fā)布了1o家族的首個模型Step-1o Audio,這也是國內(nèi)首個千億參數(shù)端到端語音大模型。
在Step-1o Vision多模態(tài)理解大模型上線的同時,Step-1o Audio語音模型能力也迎來升級。相對于Step-1V系列多模態(tài)理解模型,Step-1o Vision在視覺識別、感知、指令跟隨、推理等方面進行了提升。而升級后的Step-1o Audio則情商更高,聲音更自然,支持多語種及方言理解,同時實現(xiàn)了更低的時延。
在LMSYS Org發(fā)布的大模型競技場Chatbot Arena最新榜單中,Step-1o Vision在視覺領(lǐng)域位列中國大模型第一,超過所有國內(nèi)大模型公司。
同時,在國內(nèi)的大型模型評估平臺“司南”(OpenCompass)多模態(tài)模型評測實時榜單中,位列第一。
在實際測試中,Step-1o Vision能夠識別復(fù)古插畫中的“個人交通工具”、“未來城市”等關(guān)鍵詞,并翻譯了小字的意大利語。?
上傳了一張擠在一塊兒的幼年貓科動物圖,Step-1o Vision識別了動物數(shù)量和品種,并可以進行互動。??
在下面這張圖中,模型能通過表格、logo等元素識別出對應(yīng)的軟件工具,并理解了其中黑色幽默的表達方式,將軟件分成了五個等級,還對每個層級的軟件進行了介紹。
Step-1o Vision還可以識別出圖中是用鉸鏈連接的三個手機,而非真正的折疊屏手機。
《科創(chuàng)板日報》獲悉,Step系列將在春節(jié)前繼續(xù)推出更多通用大模型。