在线将图像转换为文本
默认使用的 OCR 软件是 Tesseract-OCR 5。 Tesseract-OCR 是一个很棒的基于神经网络 (LSTM) 的 OCR 引擎,支持超过 100 种语言。 但是,Tesseract-OCR 不支持将扫描的 PDF 文档转换为可编辑的 Word 文档,因此如果您需要此特定功能,您需要将 OCR 软件选项更改为“ExtendedOCR”。 如果目标格式设置为 txt,文本内容将会显示在文本编辑器中。
软件 | 描述 | 源格式 | 目标格式 | 语言 |
---|---|---|---|---|
Tesseract-OCR | Tesseract 开源 OCR 引擎 | JPG, PNG, GIF, BMP, TIFF | TXT, PDF, HOCR, TSV | 159 种语言和脚本 |
ExtendedOCR | 扩展 OCR 引擎以支持将扫描生成的 PDF 转换为可编辑的 Word | 扫描生成的PDF, JPG, PNG, TIFF | TXT, PDF, EPUB, XPS, DOC, DOCX, RTF | 128种语言 |