MAU被豆包反超,Deepseek擠了點(diǎn)牙膏

圖源:攝圖網(wǎng)
作者|李炤鋒 來源|直面AI(ID:faceaibang)
在R2多次傳聞更新然后被“鴿”之后,Deepseek又?jǐn)D了一點(diǎn)牙膏。
10月20日,DeepSeek團(tuán)隊(duì)在Hugging Face與GitHub上線并開源了DeepSeek-OCR,參數(shù)規(guī)模約3B,采用了“視覺-文字壓縮”方案,相較傳統(tǒng)OCR模型提升了的掃描效率。DeepSeek-OCR的出現(xiàn),有望補(bǔ)上DeepSeek在工具模型領(lǐng)域的又一塊拼圖。
然而,最近兩個(gè)月,這家火爆2025的AI獨(dú)角獸,在C端用戶規(guī)模上遭遇了頭號(hào)競(jìng)爭對(duì)手——豆包的反超。根據(jù)QuestMobile此前披露的數(shù)據(jù),中國消費(fèi)級(jí)AI助手的榜首在近期易位,8月數(shù)據(jù)顯示,“豆包”月活(MAU)約為1.57億,環(huán)比增長6.6%,反超DeepSeek約1.43億升至第一。在一些業(yè)內(nèi)分析視角,“豆包”的反超源于其多模態(tài)能力的廣泛應(yīng)用,以及與抖音生態(tài)的深度接入。
不過,DeepSeek方面似乎堅(jiān)信憑借模型技術(shù)迭代,也可以走出差異化道路。 在最新的OCR模型發(fā)布說明中,團(tuán)隊(duì)再次強(qiáng)調(diào)了“基礎(chǔ)能力”的重要性——這個(gè)模型不僅能識(shí)別中英文混合文本,還能處理手寫體、復(fù)雜表格等高難度場(chǎng)景,準(zhǔn)確率在多個(gè)公開數(shù)據(jù)集上刷新了紀(jì)錄。隨著AI“六小龍”為代表的AI創(chuàng)業(yè)公司在2025年多少都呈現(xiàn)出一些“方向調(diào)整”的態(tài)勢(shì),Deepseek似乎成為了國內(nèi)唯一一家與“OpenAI模式”類似的企業(yè):憑借出色的模型能力在C端市場(chǎng)沖到領(lǐng)先位置,并持續(xù)深耕超大參數(shù)模型賽道。
如果把2025年看作國內(nèi)C端AI的“分水嶺”,上半場(chǎng)無疑是DeepSeek以開源與推理能力拉動(dòng)的“技術(shù)爆炸時(shí)刻”,下半場(chǎng)豆包的反超,則更像是互聯(lián)網(wǎng)巨頭在深度整合資源后的“反擊時(shí)刻”。而讓出C端市場(chǎng)頭把交椅的Deepseek,卻遲遲沒有對(duì)旗下主力模型進(jìn)行大版本更新。本次DeepSeek-OCR的“擠牙膏”,似乎是這家國內(nèi)頂流AI創(chuàng)業(yè)公司,技術(shù)鏈路優(yōu)先理念的又一次延續(xù)。
01
OCR,一項(xiàng)大眾并不陌生的技術(shù),指將文本圖像轉(zhuǎn)換為機(jī)器可讀文本格式的流程。和此前的OCR系統(tǒng)/模型不同,Deepseek-OCR采用了“視覺-文字壓縮”方案,這樣一個(gè)只有3B大小的模型,卻在OmniDocBench測(cè)試中,僅使用100個(gè)視覺標(biāo)記就勝過了GOT-OCR 2.0,后者用了256個(gè)視覺標(biāo)記。而在標(biāo)記數(shù)量少于800個(gè)的情況下,它也擊敗了MinerU 2.0,后者每頁需要超過6000個(gè)標(biāo)記。
另一方面,百度在此前正式發(fā)布并開源其自研的多模態(tài)文檔解析模型PaddleOCR-VL。這一模型在全球權(quán)威的文檔解析評(píng)測(cè)榜單OmniBenchDoc V1.5中,以92.6分的成績登頂全球第一。而Deepseek緊隨其后發(fā)布的Deepseek-OCR的操作,在一些行業(yè)社群中被冠以“阻擊競(jìng)爭對(duì)手”的標(biāo)題。
回到Deepseek-OCR的“視覺-文字壓縮”方案,通常情況下,大語言模型在執(zhí)行OCR任務(wù)時(shí)計(jì)算成本極高——處理的文字單元越多,計(jì)算量就會(huì)呈二次方增長。傳統(tǒng)的OCR系統(tǒng)在識(shí)別一頁文檔時(shí),往往需要處理上千個(gè)文字標(biāo)記才能完成用戶指令。
而在Deepseek-OCR,模型工程人員嘗試了一種更高效的路徑:利用視覺語言模型(VLM),直接在語義層面對(duì)圖像中的文字信息進(jìn)行壓縮,將原本需要成千上萬文字標(biāo)記才能表達(dá)的內(nèi)容,映射為更少量、更具語義密度的視覺標(biāo)記,從而顯著降低整體計(jì)算成本。
此外,DeepSeek-OCR還擁有“深度解析模式”,能將財(cái)務(wù)類圖表直接轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),自動(dòng)生成Markdown表格與圖像。這意味著,一份包含數(shù)字、曲線、圖注的財(cái)報(bào)截圖,不再需要人工復(fù)制粘貼或二次整理,系統(tǒng)就能還原出可編輯的分析稿格式。
這套系統(tǒng)的核心由兩部分組成:負(fù)責(zé)圖像理解的DeepEncoder,以及基于DeepSeek-3B-MoE架構(gòu)的文字生成模塊。DeepEncoder約有3.8億參數(shù),專門分析圖像并生成壓縮后的視覺特征;而文字生成部分啟用了5.7億個(gè)活躍參數(shù),用于根據(jù)這些視覺特征生成高精度的文字描述。
據(jù)了解,Deepseek-OCR在10倍壓縮下解碼精度可達(dá)97%,即使在20倍壓縮下也能保持60%的準(zhǔn)確率。這意味著一張圖像僅需LLM所需token的一小部分,即可表示整篇文檔。
從技術(shù)維度看,該模型代表著DeepSeek正在從“語言模型+Chatbot”核心路徑,向更多的用戶場(chǎng)景拓展。伴隨著Deepseek-OCR的正式開源,其相關(guān)能力有望進(jìn)一步產(chǎn)品化,在長文本、表格、跨頁文檔的壓縮與提取場(chǎng)景均有應(yīng)用空間。
回顧Deepseek的通用大模型產(chǎn)品線不難發(fā)現(xiàn),OCR能力一直是R1系列的能力短板。此前,盡管DeepSeek R1在成本效益和邏輯性能方面具有明顯的優(yōu)勢(shì),但PDF解讀等場(chǎng)景與其他頂級(jí)模型(Claude Opus 4和ChatGPT-5)相比仍然較為有限。缺乏原生OCR、文件大小限制以及文件API缺失,使得DeepSeek R1無法成為完整的文檔解決方案。
所以,DeepSeek-OCR既有可能衍生出獨(dú)立工具產(chǎn)品,也可能是后續(xù)通用模型迭代的“技術(shù)積累”動(dòng)作。而傳說中的大版本更新,根據(jù)《The Information》在此前的報(bào)道中披露,“盡管DeepSeek工程師過去數(shù)月一直在高強(qiáng)度開發(fā)R2模型,但CEO梁文鋒對(duì)新模型的性能表現(xiàn)并不滿意。”
R2的面世時(shí)間也因此一拖再拖,但產(chǎn)品領(lǐng)域的競(jìng)爭對(duì)手卻已經(jīng)拍馬趕到。就在幾周前,另一款A(yù)I App取代了Deepseek ,成為了新的C端AI應(yīng)用月活冠軍。豆包,帶著字節(jié)系產(chǎn)品的龐大生態(tài),在下半年卷土重來。
02
根據(jù)QuestMobile數(shù)據(jù),2025年8月,豆包月活用戶數(shù)約為1.57億,環(huán)比增長約6.6%;同期DeepSeek月活約為1.43億。豆包時(shí)隔兩個(gè)季度,在國內(nèi)C端AI應(yīng)用市場(chǎng)中重新奪回頭部地位。
奪回“月活冠軍”,豆包的成功離不開其生態(tài)優(yōu)勢(shì)與用戶觸點(diǎn)積累。和Deepseek不同,豆包定位為面向所有“大眾用戶”、強(qiáng)調(diào)場(chǎng)景化體驗(yàn),在語音、圖像、社交分享等領(lǐng)域均延展了模型能力,降低了用戶使用門檻。與此相比,DeepSeek雖在技術(shù)上表現(xiàn)強(qiáng)勁,卻更像ChatGPT模式的聊天應(yīng)用,入口單一、使用門檻相對(duì)更高。
具體而言,豆包對(duì)于Deepseek的包圍主要體現(xiàn)在以下三個(gè)領(lǐng)域:一方面,豆包天然可以借助抖音等字節(jié)系社交平臺(tái)的分發(fā)能力。從豆包面世以來,字節(jié)方面在AI產(chǎn)品投放上積攢了大量經(jīng)驗(yàn),在一些視頻網(wǎng)站上,各種“劇情”的豆包廣告層出不窮,許多新用戶往往在這一過程中被動(dòng)接觸并轉(zhuǎn)化。
另一方面,豆包在立項(xiàng)一開始就瞄準(zhǔn)了最廣泛的受眾,產(chǎn)品體驗(yàn)面更寬。甚至在兩個(gè)產(chǎn)品的名字上就可以窺探一二。相比起“Deepseek”的極客風(fēng),“豆包”這個(gè)名字,對(duì)于國內(nèi)用戶也相對(duì)更朗朗上口。在APP的logo設(shè)計(jì)上,豆包也選擇了更加擬人化的處理。據(jù)了解,在豆包立項(xiàng)之初,人格化交互能力就是豆包能力建設(shè)的板塊之一,隨豆包一同公測(cè)的還有聊天Agent“小寧”,可以說,陪伴/擬人的屬性在一開始就是豆包基因的一部分。
此外,憑借著字節(jié)在語音/視頻生成等多領(lǐng)域建立起的模型矩陣,如今的豆包堪稱AI圈的超級(jí)APP。支持多種多模態(tài)(文本、語音、圖像、視頻生成)功能,功能繁雜的同時(shí)也有清晰的用戶引導(dǎo)邏輯,小白用戶上手快,讓“非AI玩家”也能有不錯(cuò)的體驗(yàn)。
《WIRED》在此前披露的一篇專欄中這樣形容“豆包”:“它就像ChatGPT、Midjourney、Sora、Character.ai、TikTok、Perplexity等眾多功能集成在一個(gè)應(yīng)用程序中。”事實(shí)證明,這種大而全的一體化AI解決方案,對(duì)于0基礎(chǔ)的AI產(chǎn)品用戶確實(shí)相對(duì)友好。
據(jù)《南華早報(bào)》報(bào)道,今年1月,爆火的DeepSeek取代ChatGPT,一度奪得App Store美區(qū)榜首位置。但在隨后一段時(shí)期,國內(nèi)幾大AI巨頭紛紛開始發(fā)力,C端AI應(yīng)用市場(chǎng)陷入了投流和“內(nèi)卷”的競(jìng)爭中,除了剛剛奪回第一名寶座的豆包,騰訊旗下的元寶在8月也收獲了22.4%的用戶增長,MAU達(dá)到3300萬。螞蟻集團(tuán)旗下的AQ健康應(yīng)用也沖進(jìn)了榜單前十,該應(yīng)用于6月推出,8月用戶數(shù)環(huán)比增長60.1%。
而據(jù)QuestMobile數(shù)據(jù)顯示,5月份離開DeepSeek的用戶中,約有40%轉(zhuǎn)投豆包。在“好用”和“好玩又好用”之間,對(duì)于大部分普通用戶而言,后者的吸引力顯然更大一些。
在這場(chǎng)頭名競(jìng)逐中,豆包和背后的字節(jié)跳動(dòng)擁有了科技巨頭級(jí)的體量、數(shù)據(jù)和全球布局,而DeepSeek的優(yōu)勢(shì)在于靈活、學(xué)院派的研究范式,以及一條更“專注”的技術(shù)路線。而在2025年10月的節(jié)點(diǎn),是豆包憑借著更大的生態(tài)體量,成功擠到了隊(duì)伍最前面。
03
盡管DeepSeek在2025年初曾取得引人關(guān)注的用戶增長與技術(shù)突破,但其后增長勢(shì)頭出現(xiàn)減緩跡象。咨詢公司羅蘭貝格此前披露的報(bào)告指出,截至2025年2月,DeepSeek與豆包在中國Top 10 AI應(yīng)用中并列,但彼時(shí)Deepseek領(lǐng)先豆包約3600萬MAU。此后,豆包在8月完成反超。
從產(chǎn)品更新節(jié)奏看,DeepSeek在2024年底發(fā)布V3模型,今年5月發(fā)布R1-0528,優(yōu)化了R1模型的幻覺問題。但在這之后,盡管大版本更新傳言不斷,但傳說中的R2卻遲遲未現(xiàn)真身。在本次OCR模型發(fā)布之前,Deepseek在下半年的主要?jiǎng)幼魇歉铝薞3.1模型,支持混合推理模式以及128K tokens的長上下文輸入。
而在月活榜單被豆包擠到第二名后,Deepseek也并未在App端交互/生態(tài)上做出大幅優(yōu)化動(dòng)作。事實(shí)上,從年初爆火到至今,Deepseek App一直沿用著類似“ChatGPT”風(fēng)格的交互邏輯,沒有豆包里各種第一方/第三方Agent,堅(jiān)定走在“模型即產(chǎn)品”的道路上。
在戰(zhàn)略路徑上,Deepseek始終堅(jiān)持“技術(shù)深耕”的路線。本次更新的Deepseek-OCR模型也說明,這家AI獨(dú)角獸在LLM領(lǐng)域仍然有著領(lǐng)先的技術(shù)探索能力。但面對(duì)競(jìng)爭對(duì)手們龐大的生態(tài)優(yōu)勢(shì),Deepseek眼下的產(chǎn)品理念和風(fēng)格,對(duì)于用戶規(guī)模的轉(zhuǎn)化效率仍有待觀察。
不過,DeepSeek確實(shí)沒理由太過焦慮,即使被豆包反超,Deepseek仍然坐擁1.5億月活,在C端領(lǐng)域已經(jīng)打響了口碑。而在技術(shù)指標(biāo)上,Deepseek也一直在延續(xù)超大參數(shù)模型策略,V3系列總參數(shù)量高達(dá)671B,同期AI“六小龍”其他的開源模型,如智譜GLM-4.5只有355B。
此外,在一些業(yè)內(nèi)視角看來,DeepSeek-OCR的發(fā)布,一方面在C端工具類場(chǎng)景有著不錯(cuò)的應(yīng)用前景,同時(shí)也可能成為模型訓(xùn)練的“催化劑”。據(jù)了解,Deepseek-OCR每天可以在單個(gè)Nvidia A100 GPU上處理超過20萬頁數(shù)據(jù)。如果使用20臺(tái)服務(wù)器,每臺(tái)服務(wù)器運(yùn)行8塊A100處理器,吞吐量將躍升至每天3300萬頁。
這樣的吞吐效率,可以有效幫助構(gòu)建其他大模型的訓(xùn)練數(shù)據(jù)集。對(duì)于走超大參數(shù)路線的AI企業(yè)而言,LLM訓(xùn)練中往往需要海量高質(zhì)量文本,而DeepSeek-OCR出現(xiàn),無疑在這一領(lǐng)域指向了一條更高效的解決鏈路。
未來,DeepSeek如果想要在后續(xù)和豆包“掰掰手腕”,生態(tài)因素仍然是不得不考慮的因素。強(qiáng)如OpenAI,進(jìn)入2025年后,也在積極拓展模型能力在各領(lǐng)域生態(tài)的構(gòu)建,不管是參與AI玩具等硬件方案的研究,還是Sora2以短視頻平臺(tái)的方式與用戶見面,OpenAI已經(jīng)給Deepseek留下了參考模板。
換言之 ,Deepseek眼下的要緊事,除了加速下一代模型的迭代外,利用好手上的龐大的C端用戶規(guī)模同樣至關(guān)重要。由于模型產(chǎn)品線不同,Deepseek短期內(nèi)顯然無法復(fù)刻字節(jié)/OpenAI的生態(tài)策略。但對(duì)于這家技術(shù)底色濃厚的AI獨(dú)角獸而言,在C端生態(tài)上能否搞出一些差異化的路線,將是它能否再度向豆包發(fā)起沖擊的重要因素。
編者按:本文轉(zhuǎn)載自微信公眾號(hào):直面AI(ID:faceaibang),作者:李炤鋒

前瞻經(jīng)濟(jì)學(xué)人
專注于中國各行業(yè)市場(chǎng)分析、未來發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。

























