在 Linux 上使用 gImageReader 从图像和 PDF 中提取文本

简介:gImageReader 是一个 GUI 工具,它利用 tesseract OCR 引擎从 Linux 中的图像和 PDF 文件中提取文本。

图像读取器 是一个前端 Tesseract 开源 OCR 引擎. Tesseract 最初由 HP 开发,然后于 2006 年开源。

基本上,OCR(光学字符识别)引擎可让您从图片或文件 (PDF) 中扫描文本。 它默认可以检测多种语言,还支持通过 Unicode 字符进行扫描。

然而,Tesseract 本身是一个没有任何 GUI 的命令行工具。 因此,在这里,gImageReader 可以帮助任何用户利用它从图像和文件中提取文本。

让我强调一些关于它的事情,同时提到我在测试它时的体验。

gImageReader:用于 Tesseract OCR 的跨平台前端

为了简化事情,gImageReader 可以方便地从 PDF 文件或包含任何类型文本的图像中提取文本。

无论您需要它进行拼写检查还是翻译,它都应该对特定的用户组有用。

总结一下列表中的功能,您可以使用它执行以下操作:

  • 从磁盘、扫描设备、剪贴板和屏幕截图添加 PDF 文档和图像
  • 能够旋转图像
  • 用于调整亮度、对比度和分辨率的常用图像控件
  • 直接通过应用程序扫描图像
  • 能够一次性处理多个图像或文件
  • 手动或自动识别区域定义
  • 识别为纯文本或 光学字符识别 文件
  • 编辑器显示识别的文本
  • 可以拼写检查提取的文本
  • 从 hOCR 文档转换/导出为 PDF 文档
  • 将提取的文本导出为 .txt 文件
  • 跨平台(Windows)

在 Linux 上安装 gImageReader

笔记:您需要明确安装 Tesseract 语言包,以从您的软件管理器中检测图像/文件。

您可以在某些 Linux 发行版的默认存储库中找到 gImageReader,例如 Fedora 和 Debian。

对于 Ubuntu,您需要添加一个 PPA,然后安装它。 为此,您需要在终端中输入以下内容:

sudo add-apt-repository ppa:sandromani/gimagereader sudo apt update sudo apt install gimagereader

您还可以从其构建服务中为 openSUSE 找到它,而 AUR 将成为 Arch Linux 用户的地方。

所有到存储库和包的链接都可以在他们的 GitHub 页面.

使用 gImageReader 的经验

gImageReader 是一个非常有用的工具,可以在您需要时从图像中提取文本。 当您从 PDF 文件尝试时,它效果很好。

为了从智能手机拍摄的图片中提取图像,检测是 close 但有点不准确。 也许当您扫描某些内容时,可以更好地识别文件中的字符。

因此,您必须亲自尝试一下,看看它对您的用例的效果如何。 我在 Linux Mint 20.1(基于 Ubuntu 20.04)上尝试过。

我只是在从设置中管理语言时遇到了问题,但我没有找到快速解决方案。 如果您遇到该问题,您可能需要对其进行故障排除并探索有关如何修复它的更多信息。

除此之外,它工作得很好。

一定要试一试,让我知道它是如何为你工作的! 如果您知道类似(和更好)的东西,请在下面的评论中告诉我。