DeepSeek-OCR 2發布：讓AI像人一樣“讀懂”復雜文檔

2026-01-28 來源：鳳凰網

564

1月27日，DeepSeek團隊發布《DeepSeek-OCR 2: Visual Causal Flow》論文，并開源DeepSeek-OCR 2模型。

該模型采用創新的DeepEncoder V2新型編碼器結構，它能夠根據圖像語義動態調整視覺信息的處理順序，使模型在進行文字識別前先對視覺內容進行智能排序。這項技術突破源于對傳統視覺語言模型處理方式的重新思考，旨在讓機器更貼近人類的視覺閱讀邏輯。

在傳統的視覺語言模型中，圖像通常會被切分為若干視覺token，并按照從左上到右下的固定柵格順序送入模型處理。這種方式雖然實現簡單，但與人類在閱讀文檔、表格或公式時基于語義和邏輯關系進行跳躍式瀏覽的方式并不一致。

DeepSeek論文指出，尤其在版式復雜的文檔場景中，視覺元素之間往往存在明確的邏輯先后關系，僅依賴空間順序可能限制模型對內容結構的理解能力。

為驗證模型性能，研究團隊在OmniDocBench v1.5基準上進行了全面評估。該基準涵蓋多種類型的中英文文檔，包括學術論文、雜志、報告等，重點考察文本識別、公式解析、表格結構還原以及閱讀順序等指標。

測試結果顯示，在視覺token上限更低的情況下，DeepSeek-OCR 2的整體得分達到91.09%，相較DeepSeek-OCR提升了3.73%。特別是在閱讀順序準確度方面，編輯距離從0.085降至0.057，表明新模型能夠更合理地理解文檔內容結構。

行業動態

機構：全球4月電動汽車需求連續第二個月增長

鴻海回應美國威州廠遭黑客入侵：目前正恢復生產

中科院：上海微系統所新型柔性單晶硅電池隨天舟十號開展太空實驗

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產

一女被两男吃奶添下A片V|一级特黄特色|免费国产麻豆传|当今社会现象|国产精品日韩精品久久99|韩国深夜成人节目|成人做爰www免费看视频韩国