456&

最新全球模型榜單：阿里Qwen2.5-Max超DeepSeek V3！又一國(guó)產(chǎn)大模型海外出圈！

資訊

2025-02-04 19:04 星期二

今日（2月4日）凌晨，Chatbot Arena LLM Leaderboard更新了最新一期的榜單。

今日（2月4日）凌晨，Chatbot Arena LLM Leaderboard更新了最新一期的榜單，不久前發(fā)布的Qwen2.5-Max直接沖進(jìn)前十，超越DeepSeek V3, o1-mini和Claude-3.5-Sonnet等模型，以1332分位列全球第七名！同時(shí)，Qwen2.5-Max在數(shù)學(xué)和編程上排名第一，在Hard prompts方面排名第二。

https://lmarena.ai/?leaderboard

Qwen-Max是阿里云通義團(tuán)隊(duì)對(duì)MoE模型的最新探索成果，新模型展現(xiàn)出極強(qiáng)勁的綜合性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基準(zhǔn)測(cè)試中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

ChatBot Arena官方賬號(hào) lmarena.ai 對(duì)其評(píng)價(jià)稱，阿里巴巴的Qwen2.5-Max在多個(gè)領(lǐng)域表現(xiàn)強(qiáng)勁，特別是在專業(yè)技術(shù)向的（編程、數(shù)學(xué)、有難度的提示詞等）方面。

據(jù)了解，Chatbot Arena是由LMSYS Org推出的大模型性能測(cè)試平臺(tái)，目前集成了190多種模型。該榜單采用匿名方式將大模型兩兩組隊(duì)，交給用戶進(jìn)行盲測(cè)，用戶根據(jù)真實(shí)對(duì)話體驗(yàn)對(duì)模型能力進(jìn)行投票。因此Chatbot Arena LLM Leaderboard成為全球頂級(jí)大模型的最重要競(jìng)技場(chǎng)。

此前，Qwen2.5-72B-Instruct發(fā)布后也曾闖入Chatbot Arena榜單全球前十，是得分較高的中國(guó)大模型；Qwen2-VL-72B-Instruct闖入Vision榜單第九，是成績(jī)優(yōu)異的開源模型。

目前，企業(yè)可在阿里云百煉調(diào)用Qwen2.5-Max模型的API，開發(fā)者也可在Qwen Chat平臺(tái)中免費(fèi)體驗(yàn)Qwen2.5-Max。

Qwen2.5-Max發(fā)布后，在海外開發(fā)者中引發(fā)了大量關(guān)注。有網(wǎng)友在對(duì)比DeepSeek-V3 和 Qwen 2.5后，高度贊揚(yáng)了Qwen2.5-Max的出色表現(xiàn)。

還有網(wǎng)友打趣地為OpenAI的首席執(zhí)行官Sam Altman擔(dān)憂：又一個(gè)中國(guó)模型來(lái)了

不少海外網(wǎng)友表示，中國(guó)新模型的迭代速度和質(zhì)量令人驚艷。

作為國(guó)內(nèi)較早開源自研大模型的科技大廠，阿里云旗下的通義千問已實(shí)現(xiàn)全尺寸、全模態(tài)的開源，推出了包括語(yǔ)言大模型、多模態(tài)大模型等多種類型的開源模型。

在全球范圍內(nèi)，Qwen的衍生模型數(shù)量超9萬(wàn)個(gè)，已超越Llama成為全球更大的開源模型群。此次Qwen2.5-max的發(fā)布，亦備受全球各種語(yǔ)言的開發(fā)者的歡迎。

“有了Qwen2.5-max，我們能對(duì)ChatGPT說(shuō)再見了？！”有使用阿拉伯語(yǔ)的網(wǎng)友如是說(shuō)。

多名海外網(wǎng)友用英文表達(dá)了對(duì)Qwen2.5-max極致性能的驚嘆。

通義團(tuán)隊(duì)方面表示，持續(xù)提升數(shù)據(jù)規(guī)模和模型參數(shù)規(guī)模能夠有效提升模型的智能水平。通義團(tuán)隊(duì)對(duì)下一個(gè)版本的Qwen2.5-Max充滿信心，也將持續(xù)探索，除了在預(yù)訓(xùn)練的scaling 上繼續(xù)探索外，還將大力投入強(qiáng)化學(xué)習(xí)的scaling，希望能實(shí)現(xiàn)超越人類的智能，驅(qū)動(dòng)AI探索未知之境。

閱91.78W

我要評(píng)論

反饋意見

歡迎您發(fā)表有價(jià)值的評(píng)論，發(fā)布廣告和不和諧的評(píng)論都將會(huì)被刪除，您的賬號(hào)將禁止評(píng)論。

發(fā)表評(píng)論

要聞

股市

關(guān)聯(lián)話題

公司經(jīng)營(yíng)透視

2.77W 人關(guān)注

+ 關(guān)注

忘忧草视频在线观看_中文字幕无码日韩专区免费_这里有精品综合久久_自偷自拍亚洲首页av

首頁(yè)

電報(bào)

話題

盯盤

VIP

FM

投研

下載

頭條

A股

港股

環(huán)球

公司

券商

基金·ETF

地產(chǎn)

金融

汽車

科創(chuàng)

品見