OCR开发包 - 编程之家

程序开发编程之家(jb51.cc)编程百科栏目主要推荐程序员常用编程技术介绍，以下是程序开发相关编程语言，主要信息提供给程序员快速了解所需要学习的编程技术语言。

Tesseract.js Tesseract.js使用脚本标签，webpack / browserify和节点，安装之后，进行如下操作：

Pdfsandwich 是将文本添加到图像形式的文本 PDF 文件 (如扫描书籍) 的工具。它使用光学字符识别(OCR)创建一个额外的图层，包含了原始页面已识别的文本。这对于复制和处理文本很有用。

OCRFeeder 是 GNOME 桌面下的一个开源 OCR 套件。可将纸质或者图形文档转成电子文档。

Pattern-lab 是一个模式识别程序，专门为 OCR 而优化，但不限制于此。

Eye 是一个使用 Java 开发的文字识别工具（OCR），该工具主要用来识别屏幕上的文字，不支持中文。

YAGF 是 cuneiform 和 tesseract OCR 工具的图形化前端软件，可提供图片扫描和光学识别的功能。

GOCR 是一个开源的OCR光学识别程序。

Ocropus的（TM）是一个先进的文件分析和OCR系统，采用可插入的布局分析，可插入的字符识别，自然语言统计建模和多语言支持功能。

WeOCR 是一个基于浏览器的文字识别服务，用户通过上传图片，WebOCR 从图片中识别出文本信息并返回结果给用户。WeOCR

FuzzyOCR，是一套修改自OcrPlugin的Spamassassin plugin。同样是利用光学字符辨认(OCR)的方式，来识别图像式邮件所包含的「文字讯息」，并利用Fuzzy word

Pyocr 是 OCR 引擎的简单 Python 封装，支持 Tesseract 和 Cuneiform 等。支持 Python 2.7 和 3.x，要求Pillow。

OCRKit 是一款非常小巧的软件，直接拖拽，就能将pdf文档与图片转换为可检索的pdf文档。采用OCR (Optical Character

OcrPHP 是一个一个简洁优雅的图像识别转换文字的php类库, 须安装tesseract-ocr 使用 composer 安装

GNU Ocrad 是一个 OSR 光学文字识别程序，主要用于文本的识别，支持 pbm、pgm 和 ppm 格式，并输出 UTF-8 和 8位的文本格式。

flutter_ocr 是用 Flutter 开发的使用百度 api 进行文字识别的拍照取字软件。包含了拍照，旋转，放大，拖拽来选取合适的大小和角度来截取要识别的图片内容。

C-OCR是携程自研的OCR项目，主要包括身份证、护照、火车票、签证等旅游相关证件、材料的识别。项目包含4个部分，拒识、检测、识别、后处理。

Tesseract OCR 该软件包包含一个OCR引擎 - libtesseract和一个命令行程序 - tesseract。 Tesseract

Cuneiform 是一个 OCR 文字识别系统的商标，最开始是由Cognitive 技术所开发的运行在 Windows 下的软件。而这个项目是该软件在

linux-intelligent-ocr-solution (Lios) 是Linux下一个开源的 OCR 解决方案，可将打印的文档转成可编辑的文本。

document-ocr 一个相对完整的文档分析和识别项目含以下五部分: 1. 文档分析数据，