全球矚目!DeepSeek 發布圖像模型 Janus-Pro瀏覽:226
|
2025 年 1 月 28 日凌晨,北京的科技界迎來除夕前的一次技術盛事。人工智慧研究團隊 DeepSeek 宣布,開源其最新多模態模型 Janus-Pro,為人工智慧領域帶來一場視覺與創造的革新。 雙面神模型:融合理解與創造 Janus-Pro 的命名靈感來自古羅馬神話中的雙面神「雅努斯」(Janus),象徵同時面向過去與未來,也體現其模型雙重功能——既具備圖像理解能力,又擁有圖像生成能力。與傳統單一功能的模型不同,Janus-Pro 能跨越多個領域,包括圖像識別、地標判斷、文字辨識及圖像生成。 技術細節與應用 DeepSeek 將 Janus-Pro 的開源資源分別發布於 GitHub 和 Hugging Face 平台: 1. GitHub: https://github.com/deepseek-ai/Janus 2. Hugging Face: https://huggingface.co/deepseek-ai/Janus-Pro-1B 3. Hugging Face: https://huggingface.co/deepseek-ai/Janus-Pro-7B Janus-Pro 的核心技術在於「解耦視覺編碼」,以雙通路結構分別專注於理解和生成: 1. 理解通路:快速捕捉圖片核心信息,提供精準且專業的回答。 2. 生成通路:模仿藝術家,以高水準細節描繪圖像筆觸和色彩。 從官方公開的生成效果圖看,Janus-Pro 的生成能力遠超前代 Janus 模型,儘管尚不及 MidJourney 的藝術層次,但已穩居業界第一梯隊;與 OpenAI 的 DALL-E 3 相比,其參數量更具優勢,並且具備多功能特性,而非僅限於繪圖。 三大技術突破引領變革 Janus-Pro 的誕生背後,是 DeepSeek 團隊在多方面的突破: 1. 優化訓練策略:透過改進模型的「學習方法」,大幅提升訓練效率與穩定性,讓模型學習更快、更精準。 2. 海量訓練數據:相較前代模型,Janus-Pro 使用了三倍數量的訓練數據,為其提供豐富的「教材」,提升認知範疇。 3. 更大模型規模:採用 70 億參數的模型架構,大幅增強了其數據處理能力與創造力。 視覺處理新世代的多樣應用 Janus-Pro 的強大性能在多場景下得以應用。例如: 1. 地標識別:通過分析圖片判斷拍攝地點。 2. 圖片通識:辨識文化符號,如動畫角色 Tom and Jerry。 3. 文字識別:準確提取圖片中的文字內容。 這種既能「看懂」又能「創作」的能力,打破了傳統模型單向功能的侷限,為多模態技術樹立新標桿。 引領算力變革 重塑未來 DeepSeek 的 Janus-Pro 在理解與生成方面的突破,不僅顯示了技術進步,更撕開了人工智慧領域算力瓶頸的「鐵幕」。此舉無疑將激發更多技術創新,加速多模態模型在醫療、教育、設計等多領域的落地應用。 |
猜你可能會喜歡: | ||
瀏覽:188 Samsung 三摺手機最快 2026 年上半年亮相 | 瀏覽:10166 大家忙著炒幣的時候,他們卻悶聲賺了190 億! | 瀏覽:153 美國法院維持 TikTok 禁令「不賣就禁」生效在即 |