線上將圖像轉檔為文本
默認使用的 OCR 軟體是 Tesseract-OCR 5。 Tesseract-OCR 是一個很棒的基於神經網絡 (LSTM) 的 OCR 引擎,支持超過 100 種語言。但是,Tesseract-OCR 不支持將掃描的 PDF 文檔轉檔為可編輯的 Word 文檔,因此如果您需要此特定功能,您需要將 OCR 軟體選項更改為“ExtendedOCR”。如果目標格式設置為 txt,文本內容將會顯示在文本編輯器中。
軟體 | 描述 | 源格式 | 目標格式 | 語言 |
---|---|---|---|---|
Tesseract-OCR | Tesseract 開源 OCR 引擎 | JPG, PNG, GIF, BMP, TIFF | TXT, PDF, HOCR, TSV | 159 種語言和腳本 |
ExtendedOCR | 擴展 OCR 引擎以支持將掃描生成的 PDF 轉檔為可編輯的 Word | 掃描生成的PDF, JPG, PNG, TIFF | TXT, PDF, EPUB, XPS, DOC, DOCX, RTF | 128種語言 |