一、DeepSeek-R1對標OpenAIo1正式版,知識蒸餾技術,讓小模型也能“聰明”推理
1月20日,DeepSeek正式發(fā)布一系列DeepSeek-R1模型,包括DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill系列。DeepSeek-R1模型推理能力優(yōu)異,基準測試表現(xiàn)與OpenAI-o1-1217相當,且API服務定價遠低于OpenAI同類產品。
此前,DeepSeek-R1-Zero在技術路線上實現(xiàn)了突破性創(chuàng)新,成為首個完全摒棄監(jiān)督微調環(huán)節(jié)、完全依賴強化學習訓練的大語言模型。在此基礎上,DeepSeek-R1對R1-Zero進行了改進。通過引入冷啟動數據,并歷經推理導向強化學習、拒絕采樣、監(jiān)督微調以及全場景強化學習的多階段訓練,充分發(fā)揮了強化學習的自學習和自進化能力。
DeepSeek團隊深入探索了將R1的推理能力蒸餾到更小模型中的潛力,發(fā)現(xiàn)經過R1蒸餾的小模型在推理能力上實現(xiàn)了顯著提升,甚至超過了在這些小模型上直接進行強化學習的效果,證明了R1學到的推理模式具有很強的通用性和可遷移性,能夠通過蒸餾有效傳遞給其他模型。這些結論為業(yè)界提供了新的啟示,即對小模型而言,蒸餾優(yōu)于直接強化學習,大模型學到的推理模式在蒸餾中得到了有效傳遞。
二、模型迭代、Agent升級、端側AI推新三方共振下,AI應用商業(yè)化空間或不斷打開
DeepSeek-R1API服務定價為每百萬輸入tokens1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens16元,遠低于可比大模型API服務。DeepSeek-R1的高性價比API定價有助于開發(fā)者在使用后加速模型的功能迭代,從而解決目前模型存在的不足。
開源證券認為,DeepSeek-R1基于強化學習再次讓“低成本+高性能”大模型成為可能,并有望引領模型往開源方向發(fā)展,強大的推理能力或助力其在教育、辦公、科研領域應用加快落地;豆包、階躍星辰大模型不斷升級語音、情感、視覺理解及生成等多模態(tài)能力,在社交陪伴、影視、教育、電商、廣告等領域商業(yè)化或加快;智譜、OpenAI不斷推動Agent成為AI應用落地的重要工具。模型迭代、Agent升級、端側AI推新三方共振下,AI應用商業(yè)化空間或不斷打開。
三、相關上市公司:實豐文化、天娛數科、引力傳媒
實豐文化:公司近期與靈優(yōu)智學(深圳)科技有限公司合作宣布達成戰(zhàn)略合作,雙方將在AIGC智能玩具領域展開全面合作,共同開發(fā)新一代智能玩具產品。
天娛數科:公司控股子公司山西鵬景科技有限公司已獲得今日頭條授權的巨量引擎全國地區(qū)除獨代范圍以外綜合代理商、巨量千川電商營銷服務商資質,主要服務于國內在線教育、網絡服務、金融保險、電商等行業(yè)重點客戶,能夠為客戶的各類產品提供基于短視頻廣告的推廣方案制作、創(chuàng)意素材創(chuàng)作、投放運營優(yōu)化、電商營銷推廣、大數據跟蹤檢測等精準數字營銷服務。
引力傳媒:公司取得了多家優(yōu)質移動媒體的獨家代理權或核心代理權,與今日頭條、抖音、知乎、網易云音樂、樂動力、課程格子、雪球、攜程、馬蜂窩等超過兩百家的優(yōu)質移動媒體建立了長期渠道合作關系。公司內部自研上線“核力AI”的1.0版本、已具備“營銷文案 生成”、“圖片識別與生成”及“數字分身復刻及驅動”等功能應用。目前公司已明確完善在 AIGC 方向的「1+2+4」布局規(guī)劃,并與外部技術公司聯(lián)合打造“營銷與電商”垂類大模型,共同推動 AI多模態(tài)產品應用場景落地。
![](https://cdnjs.cls.cn/www/20200601/image/column-name-20026.png)
![](https://cdnjs.cls.cn/www/20220401/money-icon-03.png)
![](https://cdnjs.cls.cn/www/20200601/image/column-down-away.png)
![](https://cdnjs.cls.cn/www/20200601/image/latest-article.png)
![](https://cdnjs.cls.cn/www/20220401/column-case-change-icon.png)
![](https://cdnjs.cls.cn/www/20200601/image/trial-reading.png)