<output id="4vbn9"><samp id="4vbn9"></samp></output><ul id="4vbn9"></ul>
  • <button id="4vbn9"><rp id="4vbn9"></rp></button>

    <label id="4vbn9"></label><rp id="4vbn9"></rp>
    <menuitem id="4vbn9"><tt id="4vbn9"><tfoot id="4vbn9"></tfoot></tt></menuitem>

      
      

      <th id="4vbn9"></th>
      国产av综合色高清自拍,国内久久人妻风流av免费,亚洲最大天堂在线看视频,国产成人午夜福利在线播放 ,在线看高清中文字幕一区,性色av不卡一区二区三区,少妇被日自拍黄色三级网络 ,国产伦精品一区二区三区

      報告服務熱線400-068-7188

      DeepSeek連開三源,解開訓練省錢之謎

      分享到:
      20 直面派 ? 2025-02-27 14:00:58  來源:直面AI E8689G0

      作者|畢安娣 來源|直面AI(ID:wujicaijing)

      “DeepSeek有效地駁斥了頻繁出現的在訓練方面‘他們撒謊了’的言論。”

      舊金山人工智能行業解決方案提供商 Dragonscale Industries 的首席技術官 Stephen Pimentel在X上如是評論DeepSeek“開源周”。

      “是的。以及關于5萬張H100的虛假傳聞(也被駁斥了)……”全球咨詢公司DGA Group合伙人、中美技術問題專家Paul Triolo也附和道。

      1

      DeepSeek“開源周”從2月24日至2月28日,共持續5天。會陸續開源5個項目。

      過去三天的開源項目分別是:

      l Day1:FlashMLA,針對英偉達Hopper架構GPU的高效MLA(多頭潛在注意力)解碼內核;

      l Day2:DeepEP,首個用于MoE(混合專家)模型訓練和推理的開源EP(專家并行)通信庫;

      l Day3: DeepGEMM,支持稠密和MoE模型的FP8計算庫,可為V3/R1的訓練和推理提供強大支持。

      剛進行到第三天,“開源周”已經讓懷疑DeepSeek在訓練成本上“撒謊”的人噤聲了。因為每個開源項目都在向世界展示DeepSeek極致壓榨英偉達芯片的功力。

      還有什么比“貼臉開大”更能打敗質疑的呢?

      我們先來看看DeepSeek最新開源的DeepGEMM,只能說,在壓榨英偉達芯片、AI性能效率提高這方面,DeepSeek已經出神入化。

      這是當初團隊專門給V3模型用的,現在就這么水靈靈地開源了,要不怎么說DeepSeek的誠意實在感人呢。

      在GitHub上發布不到10個小時,就已經有2.6千個星星了。要知道一般來說,在GitHub上獲得幾千星星就已經算很成功了。

      1

      “DeepGEMM像是數學領域的超級英雄,快過超速計算器,強過多項式方程。我嘗試使用DeepGEMM時,現在我的GPU在計算時以每秒超過1350 TFLOPS(萬億次浮點運算)的速度運轉,好像已經準備好參加AI奧運會了!”一位開發者興奮地在X上表示。

      1

      DeepSeek新開源的DeepGEMM究竟是什么、意味著什么?

      DeepSeek官方介紹DeepGEMM是一個支持密集型和MoE 模型的FP8 GEMM庫:

      l 無重度依賴,像教程一樣簡潔;

      l 完全JIT(即時編譯)

      l 核心邏輯約300行代碼,在大多數矩陣尺寸下優于經過專家調優的內核

      l 同時支持密集布局和兩種MoE布局

      一句話定義:DeepGEMM是一款專注于FP8高效通用矩陣乘法(GEMM)的庫,主要滿足普通矩陣計算以及混合專家(MoE)分組場景下的計算需求。

      利用該庫,能夠動態優化資源分配,從而顯著提升算力效率。

      在深度學習中,FP8(8位浮點數)可以減少存儲和計算的開銷,但是缺點(特點)也有,那就是精度比較低。如果說高精度格式是無損壓縮,那FP8就是有損壓縮。大幅減少存儲空間但需要特殊的處理方法來維持質量。而由于精度低,就可能產生量化誤差,影響模型訓練的穩定性。

      在報告中DeepSeek介紹:“目前,DeepGEMM僅支持英偉達Hopper張量核心。為了解決FP8張量核心積累的精度問題,它采用了CUDA核心的兩級積累(提升)方法。”

      而DeepSeek為了讓FP8這種速度快但精度偏低的計算方式變得更準確,利用了CUDA核心做了兩次累加,先用FP8做大批量乘法,然后再做高精度匯總,以此防止誤差累積。既大幅減少空間,同時又保有精度,效率也就由此提升。

      JIT(即時編譯)和Hooper張量核心也是絕配。

      Hopper張量核心是專門為高效執行深度學習任務而設計的硬件單元,而JIT則意味著允許程序在運行時根據當前硬件的實際情況,動態地編譯和優化代碼。比如,JIT編譯器可以根據具體的GPU架構、內存布局、計算資源等實時信息來生成最適合的指令集,從而充分發揮硬件性能。

      最最最驚人的是,這一切,都被DeepSeek塞進了約300行代碼當中。

      DeepSeek自己也說:“雖然它借鑒了一些CUTLASS和CuTe的概念,但避免了對它們模板或代數的過度依賴。相反,該庫設計簡單,只有一個核心內核函數,代碼大約有300行左右。這使得它成為一個簡潔且易于學習的資源,適用于學習Hopper FP8矩陣乘法和優化技術。”

      CUTLASS是英偉達自家的CUDA架構,專門給英偉達GPU來加速矩陣計算。畢竟官方出品,它的確非常好用。但它同時也很大很沉,如果手里的卡不太行,那還真不一定跑得了。

      吃不上的饅頭再想也沒用啊,而DeepSeek的極致壓榨哲學就在這里閃爍光芒了。優化更激進、更聚焦,也更輕。

      輕的同時表現也很好,在報告中,DeepSeek表示,DeepGEMM比英偉達CLUTLASS 3.6的速度提升了2.7倍。

      1

      還記得DeepSeek在春節時大火,人們使用后都在為其“科技浪漫”風觸動不已。

      如今看來,DeepSeek的“科技浪漫”絕不僅僅在最終呈現給用戶的文字當中,DeepGEMM就像一把鋒利的小刀,在英偉達芯片上雕出漂亮的小花,線條簡潔又優雅。

      不僅是DeepGEMM,DeepSeek前兩個開源項目也將其“科技美學”體現得淋漓盡致。

      第一天,DeepSeek開源了FlashMLA。

      用DeepSeek的話說,這是“用于Hopper GPU的高效MLA解碼內核,針對可變長度序列進行了優化。”

      略過技術細節,我們來看看FlashMLA如何發揮作用。

      首先,在大型語言模型推理時,高效的序列解碼對于減少延遲和提高吞吐量至關重要。FlashMLA針對變長序列和分頁KV緩存的優化,使其非常適合此類任務。

      其次,像聊天機器人、翻譯服務或語音助手等應用需要低延遲響應。FlashMLA的高內存帶寬和計算吞吐量確保這些應用能夠快速高效地返回結果。

      以及,在需要同時處理多個序列的場景(如批量推理)中,FlashMLA能夠高效地處理變長序列并進行內存管理,從而確保最佳性能。

      最后,研究人員在進行新的AI模型或算法實驗時,可以使用FlashMLA加速實驗和原型開發,尤其是在處理大規模模型和數據集時。

      還是兩個字:壓榨。在報告當中,DeepSeek表示,這個工具專門針對英偉達H800做優化——在H800 SXM5平臺上,如內存受限最高可以達到3000GB/s,如計算受限可達峰值580 TFLOPS。

      第二天,DeepSeek開源了DeepEP。

      用DeepSeek的話說,這是“首個用于 MoE 模型訓練和推理的開源 EP 通信庫”。

      MoE即混合專家(Mixture of Experts),這種架構利用多個“專家”子模型來處理不同的任務。和使用單一大模型處理所有任務不同,MoE根據輸入選擇性地激活一部分專家,從而使模型更高效。

      順帶一提,MoE和前文提到的MLA(多頭潛在注意力)正是DeepSeek所使用的降低成本的關鍵先進技術。

      而DeepEP當中的EP則是指專家并行(Expert Parallelism),是MoE中的一種技術,讓多個“專家”子模型并行工作。

      DeepEP這個庫,可以在加速和改善計算機(或GPU)之間在處理復雜機器學習任務時的通信,特別是在涉及混合專家(MoE)模型時。這些模型使用多個“專家”(專門的子模型)來處理問題的不同部分,而DeepEP確保數據在這些專家之間快速而高效地傳遞。

      就像是機器學習系統中一個聰明的交通管理員,確保所有“專家”能夠按時收到數據并協同工作,避免延遲,使系統更加高效和快速。

      假設你有一個大型數據集,并且想讓不同的模型(或專家)處理數據的不同部分,DeepEP會將數據在合適的時機發送給正確的專家,讓他們無需等待或造成延遲。如果你在多個GPU(強大的處理器)上訓練機器學習模型,你需要在這些GPU之間傳遞數據。DeepEP優化了數據在它們之間的傳輸方式,確保數據流動迅速而順暢。

      即便你不是一個開發者,對以上內容并不完全理解,也能從中讀出兩個字來:高效。

      這正是DeepSeek開源周所展現的核心實力——這家公司究竟是怎樣最大化利用有限的資源的。

      自從DeepSeek開啟開源周,就不怎么見到此前對其發出質疑的人再有什么評論了。

      正如本文開頭引用Pimentel的辣評:“DeepSeek有效地駁斥了頻繁出現的在訓練方面‘他們撒謊了’的言論。”

      在去年12月關于V3的技術報告中,DeepSeek表示該模型使用了大約2000塊英偉達H800進行訓練,成本約為600萬美元。這個成本遠低于規模更大的競爭對手,后者動輒就是幾十億、上萬億美元的投入,OpenAI甚至在DeepSeek的R1模型走紅前,剛剛和甲骨文、軟銀攜手宣布了5000億美元的合資項目。

      這也引發了對DeepSeek在開發成本方面誤導公眾的指控。

      持有懷疑態度的包括但不限于Anthropic創始人達里奧·阿莫迪(Dario Amodei)、Oculus VR的創始人帕爾默·盧基(Palmer Luckey)。Oculus已經被Meta收購。

      盧基就稱,DeepSeek的預算是“虛假的”,而阿莫迪干脆撰寫檄文呼吁美國加強芯片出口管制,指責DeepSeek“偷偷”用了大量更先進的芯片。

      這些批評聲并不相信DeepSeek自己的表態——DeepSeek 在其技術報告中表示,高效訓練的秘訣是多種創新的結合,從MoE混合專家架構到MLA多頭潛在注意力技術。

      如今,DeepSeek開源周零幀起手,就從這些技術的深度優化方面做開源。

      Bindu Reddy在X上表達振奮的心情:“DeepSeek正在圍繞MoE模型訓練和推理開源極高效的技術。感謝DeepSeek,推動AGI的發展,造福全人類。”Reddy曾在谷歌擔任產品經理、在AWS擔任人工智能垂直領域總經理并,后創辦Abacus AI,是開源路線的信仰者。

      1

      有媒體評論道:“對于熱愛人工智能的人來說,FlashMLA就像一股清新的空氣。它不僅關乎速度,還為創造力和協作開辟了新途徑。”

      在Github相關開源項目的交流區,不僅有技術交流,也有不少贊美之聲,甚至有中文的“到此一游”打卡貼。在中文互聯網上,人們已經開始把DeepSeek稱為“源神”。

      1

      DeepSeek有自己的難題嗎?當然有,比如商業化這個老大難問題,DeepSeek或許也得面對。但在那之前,它先將壓力給到了對手。

      同樣是在Github的交流區,不少人想起了OpenAI,將DeepSeek稱為“真正的OpenAI”。OpenAI已經走上閉源之路好幾年,甚至被戲稱為“CloseAI”,直到DeepSeek出現,OpenAI的CEO山姆·奧特曼(Sam Altman)才終于松口,稱在開源/閉源的問題上,自己或許站在了歷史錯誤的一邊。

      一周前,他曾經在X上發起投票,詢問粉絲希望OpenAI的下一個開源項目是什么類型的。

      不過到目前為止,這一切都還在承諾中,并未見之于世。

      另一邊,馬斯克的xAI,仍然在新一代發布時,開源上一代大模型。剛剛發布了Grok 3,宣布會開源Grok 2。

      與此同時,DeepSeek的開源周,讓更多人擔心起英偉達,這個在AI浪潮中最大的受益者之一。

      有人看著DeepSeek的開源項目一個接一個發布,在X上表示:“這是第三天看到我的英偉達股票正在火上烤。”

      北京時間2月27日,既是DeepSeek開源周的第四天,是OpenAI放出開源信號的第九天,也是英偉達財報發布的日子。

      OpenAI的開源項目會來嗎?英偉達的股價能穩住嗎?DeepSeek還將開源什么?人工智能戰場上,總是不缺少令人期待答案的問號。

      編者按:本文轉載自微信公眾號:直面AI(ID:wujicaijing),作者:畢安娣 

      本文來源直面AI,內容僅代表作者本人觀點,不代表前瞻網的立場。本站只提供參考并不構成任何投資及應用建議。(若存在內容、版權或其它問題,請聯系:service@qianzhan.com) 品牌合作與廣告投放請聯系:0755-33015062 或 hezuo@qianzhan.com

      p19 q0 我要投稿

      分享:
      標簽: DeepSeek 開發者

      品牌、內容合作請點這里:尋求合作 ››

      前瞻經濟學人

      專注于中國各行業市場分析、未來發展趨勢等。掃一掃立即關注。

      前瞻產業研究院

      中國產業咨詢領導者,專業提供產業規劃、產業申報、產業升級轉型、產業園區規劃、可行性報告等領域解決方案,掃一掃關注。

      前瞻數據庫
      企查貓
      前瞻經濟學人App二維碼

      掃一掃下載APP

      與資深行業研究員/經濟學家互動交流讓您成為更懂趨勢的人

      研究員周關注榜

      企查貓(企業查詢寶)App
      ×

      掃一掃
      下載《前瞻經濟學人》APP提問

       
      在線咨詢
      ×
      在線咨詢

      項目熱線 0755-33015070

      AAPP
      前瞻經濟學人APP下載二維碼

      下載前瞻經濟學人APP

      關注我們
      前瞻產業研究院微信號

      掃一掃關注我們

      我要投稿

      ×
      J
      主站蜘蛛池模板: 亚洲免费人成在线视频观看| 国产精品熟女一区二区不卡 | 日韩区一区二区三区视频| 无码小电影在线观看网站免费| 深田えいみ禁欲后被隔壁人妻| 东京道一本热中文字幕| 亚洲精品日韩久久精品| 和政县| 中文字幕亚洲男人的天堂| 久久大香伊蕉在人线免费AV | 一本久道久久综合狠狠躁av| 中文字幕国产日韩精品| 熟妇好大好深好满好爽| 国内自拍偷拍一区二区三区| 免费无码黄十八禁网站| 在线日韩日本国产亚洲| 激情综合网激情激情五月天| 亚洲肥老太bbw中国熟女| 夜色福利站WWW国产在线视频| 国产精品深夜福利免费观看| 久久午夜私人影院| 人妻少妇偷人精品一区| 国产第一页浮力影院入口| 亚洲成亚洲成网中文字幕| 日本少妇xxx做受| jizz国产免费观看| 天堂v亚洲国产v第一次| 国产精品熟女亚洲av麻豆| 欧美视频专区一二在线观看 | 在线A级毛片无码免费真人| 久热这里有精品视频播放| 久久先锋男人AV资源网站| 综合久久婷婷综合久久| 色偷偷www.8888在线观看| 宝丰县| 亚洲国产成人精品无色码| 国产欧美日韩在线在线播放| 在线高清免费不卡全码| 中文字幕久久波多野结衣av| 毛片网站在线观看| 日本一区二区不卡精品|