![]() |
DeepSeek 開源,每日淨賺 346 萬元瀏覽:152![]()
|
||||
2025 年 3 月,DeepSeek 在開源週活動中公開了其每日成本、理論收入及利潤率。根據統計,DeepSeek 於 2 月 27 日 24 點至 2 月 28 日 24 點的 24 小時內,每日總成本為 87,072 美元(約合人民幣 63 萬元)。若所有 Token 均以 DeepSeek-R1 的價格計費,每日總收入可達 562,027 美元(約合人民幣 409 萬元),成本利潤率高達 545%,理論上每日淨賺 474,955 美元(約合人民幣 346 萬元)。 然而,實際收入遠低於理論值。原因包括 DeepSeek-V3 定價低於 R1、網頁端和應用程式免費服務佔比高,以及非高峰時段的夜間折扣。 ![]() DeepSeek-V3/R1 推理系統概述 DeepSeek 公開了其 V3/R1 推理系統的技術細節。為實現更高的吞吐量和更低的延遲,研究人員採用了跨節點的專家諮詢(EP)策略,並通過增大批次大小、隱藏通信延遲及執行負載均衡來應對 EP 的系統複雜性挑戰。 每日成本與理論收入分析 DeepSeek V3 和 R1 的所有服務均使用 H800 GPU,並採用與訓練一致的精度(矩陣計算和傳輸使用 FP8 格式,核心注意力計算和組合傳輸使用 BF16 格式),以確保服務效果。 在過去 24 小時內(2 月 27 日 24 點至 2 月 28 日 24 點),V3 和 R1 推理服務的合併峰值節點佔用率達 278,平均佔用率為 226.75 個節點(每個節點包含 8 個 H800 GPU)。假設每個 H800 GPU 的租賃成本為每小時 2 美元,則每日總成本為 87,072 美元。 在統計週期內,V3 和 R1 的總輸入 Token 為 608B,其中 342B Token(56.3%)命中 KVCache 硬碟緩存;總輸出 Token 為 168B,平均輸出速度為每秒 20-22 tps,每個輸出 Token 的平均 KVCache 長度為 4,989 個 Token。 ![]() ![]() 實際收入低於理論值的原因 DeepSeek 的實際收入遠低於理論值,主要原因包括: 1. DeepSeek-V3 定價低於 R1。 2. 網頁端和應用程式提供免費服務,僅部分服務收費。 3. 非高峰時段自動適用夜間折扣。 專家並行(EP)策略與挑戰 DeepSeek 採用跨節點的專家並行(EP)策略來提升系統性能: 1. 增大批次大小:EP 顯著擴展了批次大小,提升 GPU 矩陣計算效率並提高吞吐量。 2. 隱藏通信延遲:EP 將專家分佈在不同 GPU 上,減少內存訪問需求,從而降低延遲。 然而,EP 也增加了系統複雜性,主要體現在跨節點傳輸和負載均衡方面。DeepSeek 通過以下三種方式應對挑戰: 1. 大規模跨節點專家並行:採用多機多卡間的專家並行策略,優化 Prefill 和 Decode 階段的性能。 2. 計算-通信重疊:通過雙批次重疊和流水線設計,掩蓋通信開銷,提高整體吞吐量。 3. 負載均衡:通過 Prefill 和 Decode 負載均衡器,確保各 GPU 的計算和通信負載均衡,避免性能瓶頸。 結語 DeepSeek 的開源週活動不僅展示了其技術實力,還公開了詳細的成本與收入數據。儘管理論利潤率高達 545%,實際收入因多種因素而大幅下降。未來,DeepSeek 將繼續優化其推理系統,以提升性能並降低成本。
|
猜你可能會喜歡: | ||
![]() 瀏覽:1069 一張照片,就能偷偷轉走你的錢 | ![]() 瀏覽:1195 這個 AI 設備很有可能代替智能手機 | ![]() 瀏覽:1389 一鍵去衣!AI 技術被濫用,男子製七千張裸照被捕 |