亚洲精品毛片在线免费看,青青青青草国产免费,免费的老太太毛片猛插视频

智東西（公眾號：zhidxcom）
編譯 | 程茜
編輯 | 云鵬

智東西10月20日消息，百度10月16日開源的多語言文檔解析模型PaddleOCR-VL，連續(xù)三天霸榜Hugging Face趨勢榜第一。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

PaddleOCR-VL能識別109種語言的文本、表格、公式和圖表等復雜元素，包括全球主要語言以及俄語、阿拉伯語和印地語等多種語言。在最新的用于評估現(xiàn)實場景中多樣化文檔解析性能的基準測試工具OmniDocBench榜單中，PaddleOCR-VL以92.6綜合得分拿下全球第一，并且在OmniDocBench v1.5、OmniDocBench v1.0均是第一。

PaddleOCR-VL在OmniDocBench v1.5上實現(xiàn)了整體、文本、公式、表格和閱讀順序的SOTA性能，在所有關鍵指標上均超越現(xiàn)有流水線工具、通用VLM和其他專用文檔解析模型。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

論文中提到，PaddleOCR-VL在文檔解析任務中實現(xiàn)了最佳性能，其擅長識別復雜的文檔元素，例如文本、表格、公式和圖表，適用于手寫文本和歷史文檔等各種具有挑戰(zhàn)性的內容類型。

百度給出的官方手寫文本示例中，圖片中文字寫作相對規(guī)范，有較少不清晰文字，模型識別結果中錯誤較少。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲手寫文本（左）、識別結果（右）

隨后智東西上傳了一張?zhí)K軾手札，相對上面的圖片僅憑肉眼很難辨認清楚且有較多繁體字，模型的識別結果中錯誤較多。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲手寫文本（上）、識別結果（左下）、古詩文網(wǎng)原文（右下）

該方案的核心組件PaddleOCR-VL 0.9B基于NaViT風格的視覺編碼器和ERNIE-4.5-0.3B語言模型構建，具有快速推理和低資源消耗的特點，適合實際部署。

在訓練數(shù)據(jù)方面，研究人員采用了開源數(shù)據(jù)集、合成數(shù)據(jù)集、網(wǎng)絡可訪問數(shù)據(jù)集和內部數(shù)據(jù)集。同時，其開發(fā)了高質量訓練數(shù)據(jù)構建流程，通過公共數(shù)據(jù)采集和數(shù)據(jù)合成收集了超過3000萬個訓練樣本，以基于專家模型的識別結果指導通用大型模型進行自動標注。

技術報告：file:///Users/wangquan/Desktop/2510.14528v2.pdf

Hugging Face開源地址：https://huggingface.co/PaddlePaddle/PaddleOCR-VL

體驗地址：https://aistudio.baidu.com/application/detail/98365

一、復雜公式、多語言識別準確，不清晰、反光文字出現(xiàn)少量錯誤

智東西體驗了PaddleOCR-VL文檔解析能力和元素級識別能力，模型在中英文、韓語以及復雜公式、圖表等方面識別準確率都很高，在圖片有反光、不清晰時出現(xiàn)極個別錯誤。

智東西上傳了PaddleOCR-VL論文的首頁，識別結果中，模型自動識別出了鏈接、郵箱地址，并準確將圖表進行了切分。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

下面是一道物理題目，模型自動識別出了頁眉部分的標語，小標題、圖表、復雜公式識別準確。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

元素級識別能力中，先來看圖表識別，圖表的每一部分內容及數(shù)字表達都清晰準確。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

文字識別中，智東西上傳了中文、韓語。下面是一張手寫體的韓語圖片，模型識別結果準確。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

公式識別方面，智東西上傳了一張包含公式的圖片，模型將復雜公式的細節(jié)都進行了準確識別。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

其次為畫面不清晰的中文識別，可以看到下面包裝袋左上角有褶皺，模型錯誤將第一個“全”字識別為“金”，其余文字均準確。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

下面圖片的拍攝角度是側面，因此右側文字有反光，模型錯誤將“文”識別為“大”，但后面的“物”即使有反光+變體，模型的識別結果也沒有出錯，同時下方的英文識別也完全正確。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

二、文檔識別先前技術有弊端，百度提出基于視覺語言模型的文檔解析方案

文檔作為核心信息載體，其復雜性和數(shù)量呈指數(shù)級增長，使得文檔解析成為一項不可或缺的關鍵技術。文檔解析的主要目標是深入理解文檔布局的結構和語義，包括識別不同的文本塊和列，區(qū)分公式、表格、圖表和圖像，確定正確的閱讀順序，以及檢測關鍵元素等。

但現(xiàn)代文檔較為復雜，其包含密集文本、復雜表格或圖表、數(shù)學表達式、多種語言和手寫文本。因此這一領域目前有兩種技術方法，一是采用基于專門的模塊化專家模型的流水線方法，但這種方法在處理高度復雜文檔時，會受到集成復雜性、累積誤差傳播和固有限制的阻礙；二是利用多模態(tài)模型的端到端方法簡化工作流程并實現(xiàn)聯(lián)合優(yōu)化。然而這些方法通常難以保持正確的文本順序，在面對冗長或復雜的布局時甚至會產(chǎn)生幻覺，同時還會為長序列輸出帶來大量的計算開銷。

基于此，百度研究人員推出基于視覺語言模型的高性能、資源高效的文檔解析解決方案PaddleOCR-VL，該方案將布局分析模型與視覺語言模型PaddleOCR-VL-0.9B相結合。

首先，PaddleOCR-VL會進行布局檢測和閱讀順序預測，獲取文本塊、表格、公式、圖表等元素的位置坐標和閱讀順序。論文中提到，與依賴基礎和序列輸出的多模態(tài)方法相比，PaddleOCR-VL的方法推理速度更快、訓練成本更低，并且更易于擴展新的布局類別。

隨后，這一方案會根據(jù)元素位置對其進行分割，并輸入PaddleOCR-VL-0.9B進行識別。PaddleOCR-VL-0.9B專為資源高效的推理而設計，擅長文檔解析中的元素識別。其通過將NaViT風格的動態(tài)高分辨率視覺編碼器與輕量級ERNIE-4.5-0.3B語言模型相結合，提升了模型的識別能力和解碼效率。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲PaddleOCR-VL概覽

為了訓練強大的多模態(tài)模型，研究人員開發(fā)了高質量訓練數(shù)據(jù)構建流程，其通過公共數(shù)據(jù)采集和數(shù)據(jù)合成收集了超過3000萬個訓練樣本，以基于專家模型的識別結果指導通用大型模型進行自動標注。同時進行數(shù)據(jù)清理，以去除低質量或不一致的標注。此外，研究人員還設計了評估引擎，通過評估集合將每個元素劃分為更詳細的類別，基于此分析當前模型在不同場景下的訓練性能。

最后，其還會結合少量極端情況進行人工標注，最終完成訓練數(shù)據(jù)的構建。

三、文檔解析、元素識別均采用兩階段訓練方案，訓練數(shù)據(jù)來源有四類

PaddleOCR-VL將文檔解析任務分解為兩個階段：第一階段PP-DocLayoutV2負責布局分析，定位語義區(qū)域并預測其閱讀順序；第二階段PaddleOCR-VL-0.9B利用這些布局預測對各種內容進行細粒度識別。最后，輕量級的后處理模塊將兩個階段的輸出聚合在一起，并將最終文檔格式化為結構化的Markdown和JSON格式。

在用于版式分析的PP-DocLayoutV2的訓練方案方面，研究人員采用PP-DocLayoutV2模型來執(zhí)行布局元素定位、分類和閱讀順序預測。PP-DocLayoutV2通過添加一個指針網(wǎng)絡（Pointer Network）來擴展RT-DETR（基于Transformer的實時目標檢測模型），該網(wǎng)絡負責預測檢測到的元素的閱讀順序。

其訓練過程采用兩階段策略：首先訓練核心RT-DETR模型進行布局檢測和分類，然后凍結其參數(shù)，并單獨訓練指針網(wǎng)絡進行閱讀順序預測。

第一階段研究人員遵循RT-DETR的訓練策略，使用PP-DocLayout_Plus-L預訓練權重初始化模型，并在其自建的20000多個高質量樣本數(shù)據(jù)集上訓練100個epoch；第二階段，模型輸出一個表示任意兩個元素之間成對排序關系的矩陣，并根據(jù)真實標簽計算廣義交叉熵損失，其使用恒定學習率2e-4和AdamW優(yōu)化器訓練200個epoch。

在用于元素識別的PaddleOCR-VL-0.9B訓練方案方面，PaddleOCR-VL-0.9B包含三個模塊：視覺編碼器、投影儀和語言模型。其采用預訓練模型的后自適應策略，視覺模型使用Keye-VL的權重初始化，語言模型使用ERNIE-4.5-0.3B的權重初始化。

其訓練方法分為兩個階段，第一階段初始階段專注于預訓練對齊，模型學習將圖像中的視覺信息與相應的文本表示關聯(lián)起來，這一關鍵步驟基于包含2900萬個高質量圖文對的海量數(shù)據(jù)集進行；第二階段預訓練完成后，模型將進行指令微調，使其通用的多模態(tài)理解適應特定的下游元素識別任務，此階段使用270萬個樣本數(shù)據(jù)集。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲第1階段和第2階段的訓練設置

研究人員采用的數(shù)據(jù)主要有四個來源：開源數(shù)據(jù)集、合成數(shù)據(jù)集、網(wǎng)絡可訪問數(shù)據(jù)集和內部數(shù)據(jù)集。

獲取原始數(shù)據(jù)后，研究人員利用自動化數(shù)據(jù)標注流程進行大規(guī)模標注。首先其使用專家模型PP-StructureV3對數(shù)據(jù)進行初步處理，生成可能存在誤差的偽標簽；隨后通過提示工程創(chuàng)建包含原始圖像及其相關偽標簽的提示，并將其提交給更先進的多模態(tài)大型語言模型ERNIE-4.5-VL和Qwen2.5VL。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲PaddleOCR-VL-0.9B訓練數(shù)據(jù)的構建過程

這些模型通過分析圖像內容來細化和增強初始結果，從而生成更優(yōu)質的標簽。最后，為了確保標簽的質量，系統(tǒng)會執(zhí)行幻覺過濾步驟，消除大型模型生成的潛在錯誤內容。

四、PaddleOCR-VL在文檔解析能力測試集中，達到SOTA

為了評估PaddleOCR-VL的有效性，研究人員對其頁面級文檔解析和元素級識別進行了性能比較。

首先是頁面級文檔解析，研究人員使用OmniDocBench v1.5、OmniDocBench v1.0、olmOCR-Bench三個基準對PaddleOCR-VL的端到端文檔解析能力進行了評估。

OmniDocBench v1.5是全面評估文檔解析能力的測試集，PaddleOCR-VL在OmniDocBench v1.5上實現(xiàn)了整體、文本、公式、表格和閱讀順序的SOTA性能，在所有關鍵指標上均超越現(xiàn)有流水線工具、通用VLM和其他專用文檔解析模型。

具體來看，PaddleOCR-VL模型取得了92.56的綜合最高分，超過了排名第二的MinerU2.5-1.2B（90.67）。PaddleOCR-VL在子任務中取得了新的SOTA成績，包括最低的Text-Edit距離、最高的Formula-CDM分數(shù)以及Table-TEDS、Table-TEDS-S。論文提到，這表明該模型在文本識別、公式識別和復雜表格結構分析方面擁有較高準確率。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲OmniDocBench v1.5文檔解析綜合評估

OmniDocBench v1.0專門用于評估現(xiàn)實世界的文檔解析能力。PaddleOCR-VL在OmniDocBench v1.0上實現(xiàn)了幾乎所有指標的總體、文本、公式、表格和閱讀順序的SOTA性能。

PaddleOCR-VL平均整體編輯距離為0.115。模型在中文和英文文本編輯距離方面分別取得了SOTA最佳成績（0.062）和相當?shù)腟OTA最佳成績（0.041）。不過在英文表格TEDS中，該模型僅為88分，論文提到其原因是OmniDocBench v1.0中拼寫錯誤相關的標注錯誤。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲OmniDocBench v1.5文檔解析綜合評估

在閱讀順序編輯距離方面，該模型在中文中取得最佳成績0.063，在英文中取得了相當?shù)腟OTA最佳成績0.045。

olmOCR-Bench主要通過簡單、清晰且機器可驗證的單元測試來評估工具和模型。PaddleOCR-VL在olmOCR-Bench評測中取得了80.0±1.0的最高總分，在ArXiv（85.7）、頁眉和頁腳（97.0）方面領先，并在多列文本（79.9）和長小文本（85.7）方面排名第二。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲olmOCR-Bench文檔解析綜合評估

其次是元素級評估。在文本識別中，PaddleOCR-VL幾乎在OmniDocBench-OCR-block評估的所有類別中都實現(xiàn)了最低的錯誤率；百度內部自建的文本評估數(shù)據(jù)集，模型在多語言指標、文本類型指標中都展現(xiàn)出較高的準確率。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲OmniDocBench-OCR-block性能的總體比較

Ocean-OCR-Handwritten是一個行和段落級別的手寫評估數(shù)據(jù)集，模型在英文中實現(xiàn)了0.118的最佳編輯距離，并在F1得分、精確度、召回率、BLEU和METEOR方面表現(xiàn)出色，模型在中文中編輯距離為0.034。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲Ocean-OCR-Bench上英文和中文OCR手寫識別性能比較

表格識別方面，PaddleOCR-VL在OmniDocBench-Table-block基準測試中領先，超越Seed1.6等模型；在百度自建的表格評估數(shù)據(jù)集上，模型在總體TEDS、結構TEDS、總體編輯距離和結構編輯距離方面均取得了最高分。公式識別方面，模型在OmniDocBench-Formula-block獲得最佳的CDM得分0.9453；圖表識別，在百度內部數(shù)據(jù)集上，PaddleOCR-VL不僅優(yōu)于專業(yè)的OCR VLM，甚至超越了一些72B級別的多模態(tài)語言模型。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲OmniDocBench-Table-block性能比較

推理性能方面，研究人員在OmniDocBench v1.0數(shù)據(jù)集上測量了端到端推理速度和GPU使用情況，并在單個NVIDIA A100 GPU上以512個批次處理PDF文件。PaddleOCR-VL在處理速度和內存效率方面均展現(xiàn)出明顯且一致的優(yōu)勢。與領先的基準MinerU2.5相比，部署vLLM后端后，其頁面吞吐量提高了15.8%，token吞吐量提高了14.2%。此外，PaddleOCR-VL GPU內存占用比dots.ocr減少了約40%。

僅0.9B！百度新開源模型一夜登頂，識別109種語言，綜合分全球第一

▲端到端推理性能比較

結語：或加速復雜文檔信息高效提取

研究人員基于PaddleOCR-VL增強了模型的識別能力和解碼效率，并在保證識別高精度的同時減少計算需求，使其非常適合高效實用的文檔處理應用程序。

PaddleOCR-VL廣泛的多語言支持和強大的性能有望推動多模態(tài)文檔處理技術的應用和發(fā)展，或將顯著提升RAG系統(tǒng)的性能和穩(wěn)定性，使研究人員從復雜文檔中提取信息更加高效，從而為未來的AI應用提供更可靠的數(shù)據(jù)支持。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、復雜公式、多語言識別準確，不清晰、反光文字出現(xiàn)少量錯誤

二、文檔識別先前技術有弊端，百度提出基于視覺語言模型的文檔解析方案

三、文檔解析、元素識別均采用兩階段訓練方案，訓練數(shù)據(jù)來源有四類

四、PaddleOCR-VL在文檔解析能力測試集中，達到SOTA

結語：或加速復雜文檔信息高效提取

相關推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、復雜公式、多語言識別準確，不清晰、反光文字出現(xiàn)少量錯誤

二、文檔識別先前技術有弊端，百度提出基于視覺語言模型的文檔解析方案

三、文檔解析、元素識別均采用兩階段訓練方案，訓練數(shù)據(jù)來源有四類

四、PaddleOCR-VL在文檔解析能力測試集中，達到SOTA

結語：或加速復雜文檔信息高效提取

相關推薦

一、復雜公式、多語言識別準確，不清晰、反光文字出現(xiàn)少量錯誤

二、文檔識別先前技術有弊端，百度提出基于視覺語言模型的文檔解析方案

三、文檔解析、元素識別均采用兩階段訓練方案，訓練數(shù)據(jù)來源有四類

四、PaddleOCR-VL在文檔解析能力測試集中，達到SOTA