文档首页 > > 移植指南> 移植Tesseract

移植Tesseract

分享
更新时间:2020/08/31 GMT+08:00

介绍

简要介绍

Tesseract是一个光学字符识别引擎,支持多种操作系统。Tesseract是基于Apache许可证的自由软件,自2006年起由Google赞助开发。2006年,Tesseract被认为是最精准的开源光学字符识别引擎之一。

语言:C++

一句话描述:文字识别引擎

开源协议:Apache

建议的版本

建议使用版本为“tesseract-4.0.0”

环境要求

云服务器要求

本文以云服务器KC1实例测试,云服务器配置如表1所示。

表1 云服务器配置

项目

说明

规格

kc1.large.2 | 4vCPUs | 8GB

磁盘

系统盘:高IO(40GB)

操作系统要求

操作系统要求如表2所示。

表2 操作系统要求

项目

说明

下载地址

CentOS

  • 版本:7.5
  • Kernel:4.14.0

在公共镜像中已提供。

Redhat

  • 版本:7.5
  • Kernel:4.14.0

在公共镜像中已提供。

EulerOS

  • 版本:2.8
  • Kernel:4.19.36

在公共镜像中已提供。

配置编译环境

  1. 安装Tesseract所使用的依赖软件包。

    yum install automake libtool gcc-c++ libjpeg-devel libpng-devel libtiff-devel libtiff libpng libjpeg-turbo libjpeg-turbo-devel -y

  2. 安装GCC。

    通过华为云发放的弹性云服务器默认已安装GCC安装,无需单独安装配置。

  3. 安装tesseract依赖的图像处理库leptonica。

    1. 下载tesseract依赖的图像处理库leptonica源码包。

      wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz

    2. 解压leptonica。

      tar -xvf leptonica-1.78.0.tar.gz

    3. 编译和安装leptonica。

      cd leptonica-1.78.0

      ./configure --prefix=/usr/ && make -j4 && make install

    4. 配置leptonica涉及的环境变量。

      vi /etc/profile

      在后面插入如下内容:

      export PKG_CONFIG_PATH=/usr/lib/pkgconfig

      执行“wq”保存退出。

    5. 使环境变量有效。

      source /etc/profile

      ldconfig

获取源码

获取“tesseract-4.0.0”源码包。

cd /usr/local/src

wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0.tar.gz

编译和安装

  1. 解压软件包。

    tar -xvf tesseract-4.0.0.tar.gz

  2. 进入Tesseract的安装目录。

    cd tesseract-4.0.0

  3. 编译安装tesseract。

    ./autogen.sh && ./configure && make -j4 && make install

运行和验证

  1. 创建目录。

    cd /root

    mkdir lang

    cd lang

  2. 获取Tesseract语言包。

    wget https://github.com/tesseract-ocr/tessdata/archive/4.0.0.tar.gz

  3. 解压语言包。

    tar -zxvf tessdata-4.0.0.tar.gz

  4. 进入Tessdata目录。

    cd tessdata-4.0.0

  5. 将Tesseract安装目录放入复制到“/usr/local/share/tessdata”目录。

    cp * /usr/local/share/tessdata -r

  6. 将缓存数据刷新到硬盘。

    sync

  7. 获取“kunpeng.bmp”图片。

    本文以获取保存在华为云OBS桶上的kunpeng.bmp图片为例

    wget https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp

  8. 运行Tesseract识别图片文字。

    ./tesseract kunpeng.bmp result

  9. 执行如下命令,查看文字识别结果。

    cat result.txt

    当系统回显如下文字时,表示使用Tesseract识别文字成功。

    Hello Kunpeng

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!非常感谢您的反馈,我们会继续努力做到更好!
反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问