![]() |
20美元26分鐘,便可以創做 AI瀏覽:242![]()
|
在人工智能技術飛速發展的今天,低成本高效的 AI 模型成為了科技界的焦點。近期,一位美籍華裔科學家帶領其團隊,僅花費 20 美元及 26 分鐘,便成功創建出一個名為 s1 的 AI 推理模型。這一模型的表現媲美 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型,引起了廣泛關注。![]() 高效模型的誕生 這位科學家是史丹福大學的首位紅杉講席教授,同時也是美國國家工程院的院士。她與史丹福大學及華盛頓大學的研究團隊合作,在短短一個月內研發出 s1 模型。這一模型並非從零開始,而是基於阿里巴巴的通義千問 Qwen2.5 -32B-Instruct 開源模型進行監督微調。團隊使用了 16 塊輝達 H100 GPU,經過 26 分鐘的微調,成功訓練出這一新模型。 ![]() 「預算控制」策略的應用 在研究過程中,科學家團隊提出了「預算控制」策略。這一策略通過加入「wait 指令」等方式,強制延長模型的推理過程和思考時間,從而促使模型自我檢查並修正錯誤的推理步驟,提升推理品質。根據研究論文《s1:Simple test-time scaling》,s1 模型在數學和編碼能力測試中的表現,可以媲美 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型,並在競賽數學問題上表現更佳,高出 o1-preview 27%。 成本效益分析 值得注意的是,s1 模型的成功並非偶然。由於其基於現成模型進行監督微調,因此成本遠低於從零開始訓練一個模型。此外,20 美元的費用僅包含了訓練時的 GPU 算力費用,並未計入其他數據、設備和消融實驗等費用。這與 DeepSeek-V3 不到 600 萬美元的訓練成本形成了鮮明對比,後者同樣僅包含了訓練時的 GPU 算力費用。 這一事件再次證明了在 AI 技術發展過程中,低成本高效的模型具有巨大的潛力和價值。未來,隨著更多創新策略的應用,AI 技術將會變得更加普及和易於訪問。 專家觀點 根據內媒每日經濟新聞報道,復旦大學計算機學院副教授在受訪時指出,像 DeepSeek 或類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。這意味著前期需要投入大量資金,而 s1 模型的成功則為這一領域提供了新的思路。 結論 總結來說,s1 模型的成功研發不僅展示了低成本高效 AI 模型的可能性,也為未來 AI 技術的發展提供了寶貴的經驗。隨著技術的不斷進步,我們有理由相信,AI 將會在更多領域發揮其巨大的潛力。 |
|
|
猜你可能會喜歡: | ||
![]() 瀏覽:1310 這個 AI 設備很有可能代替智能手機 | ![]() 瀏覽:377 OpenAI 力爭明年用戶破 10 億大關 | ![]() 瀏覽:411 NVIDIA 全新 AI 電腦,售價僅 249 美元 |