日本免费在线一区二区-国产欧美日韩一区在线-国产男女猛烈无遮挡性视频网站-人妻内射视频免费看-女自慰喷水自慰不卡无广告-女生被男生操喷水的视频在线看-黑夜在线拖拽不卡第一页-av一区二区三区亚洲-亚洲国产精品成人婷婷色

歡迎訪(fǎng)問(wèn)深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

DeepSeek-OCR 2發(fā)布:讓AI像人一樣“讀懂”復(fù)雜文檔

2026-01-28 來(lái)源:鳳凰網(wǎng)
419

關(guān)鍵詞: DeepSeek DeepSeek-OCR 2

1月27日,DeepSeek團(tuán)隊(duì)發(fā)布《DeepSeek-OCR 2: Visual Causal Flow》論文,并開(kāi)源DeepSeek-OCR 2模型。

該模型采用創(chuàng)新的DeepEncoder V2新型編碼器結(jié)構(gòu),它能夠根據(jù)圖像語(yǔ)義動(dòng)態(tài)調(diào)整視覺(jué)信息的處理順序,使模型在進(jìn)行文字識(shí)別前先對(duì)視覺(jué)內(nèi)容進(jìn)行智能排序。這項(xiàng)技術(shù)突破源于對(duì)傳統(tǒng)視覺(jué)語(yǔ)言模型處理方式的重新思考,旨在讓機(jī)器更貼近人類(lèi)的視覺(jué)閱讀邏輯。

在傳統(tǒng)的視覺(jué)語(yǔ)言模型中,圖像通常會(huì)被切分為若干視覺(jué)token,并按照從左上到右下的固定柵格順序送入模型處理。這種方式雖然實(shí)現(xiàn)簡(jiǎn)單,但與人類(lèi)在閱讀文檔、表格或公式時(shí)基于語(yǔ)義和邏輯關(guān)系進(jìn)行跳躍式瀏覽的方式并不一致。

DeepSeek論文指出,尤其在版式復(fù)雜的文檔場(chǎng)景中,視覺(jué)元素之間往往存在明確的邏輯先后關(guān)系,僅依賴(lài)空間順序可能限制模型對(duì)內(nèi)容結(jié)構(gòu)的理解能力。

為驗(yàn)證模型性能,研究團(tuán)隊(duì)在OmniDocBench v1.5基準(zhǔn)上進(jìn)行了全面評(píng)估。該基準(zhǔn)涵蓋多種類(lèi)型的中英文文檔,包括學(xué)術(shù)論文、雜志、報(bào)告等,重點(diǎn)考察文本識(shí)別、公式解析、表格結(jié)構(gòu)還原以及閱讀順序等指標(biāo)。

測(cè)試結(jié)果顯示,在視覺(jué)token上限更低的情況下,DeepSeek-OCR 2的整體得分達(dá)到91.09%,相較DeepSeek-OCR提升了3.73%。特別是在閱讀順序準(zhǔn)確度方面,編輯距離從0.085降至0.057,表明新模型能夠更合理地理解文檔內(nèi)容結(jié)構(gòu)。