Python OCR函数减小了图像的大小,如何解决此问题?

如何解决Python OCR函数减小了图像的大小,如何解决此问题?

我正在浏览文件夹并查找pdf。然后,我将这些PDF更改为文本。在通过OCR函数传递图像之前,我正在通过将图像转到灰度级并进行裁剪来进行一些图像处理,以便不存在某些美学元素。每个pdf的第一页与第二个PDF的最后一页稍有不同,因此每个PDF页面都通过if-else语句进行过滤。

通过OCR功能传递第一个JPEG可以在不同文档中完美地工作,但是每次我通过OCR功能传递JPEG时,它只会再次传递第一个文档图像。它创建第二个,第三个...,但仅将第一个jpeg传递给函数。我整个上午都在尝试调试,因此请原谅所有其他信息。任何帮助将不胜感激。

以下是通过OCR传递功能的结果。

executing first page number loop
(3000,2064)
(2064,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_1.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_2.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_3.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_4.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_5.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_6.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_7.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_8.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_9.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_10.jpeg
(1714,2064)
11
0
executing first page number loop
(3000,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_12.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_13.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_14.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_15.jpeg
(1714,2064)
executing this chunky piece of code
<class 'PIL.PpmImagePlugin.PpmImageFile'>
jpegs/file_16.jpeg
(1714,2064)
6
0```





              article_number = 0
saved_image_num = 0
text_file = 'txt_files/' + 'article'

print(saved_image_num)


for root,dirs,files in os.walk('articles'):
    for file_ in files:
        if file_.endswith('.pdf'):
            article_path = str(root) + '/' + str(file_)
            pages = convert_from_path(article_path,dpi=300)
            length_of_article = len(pages)
            page_number = 0
            for page in pages:
                if page_number == 0:
                    print('executing first page number loop')
                    name = 'jpegs/file_' + str(saved_image_num) + '.jpeg'
                    page.save(name,'JPEG')
                    saved_image_num += 1
                    page_number += 1
                    image = image_2_gray(name)
                    print(image.shape)
                    img = crop_page_1(image)
                    print(img.shape)
                    image_ocr(img,text_file + str(article_number) + '.txt')
                    if page_number == length_of_article:
                        article_number += 1
                        print(page_number)
                        page_number = page_number - length_of_article
                        print(page_number)

                elif page_number >= 1:
                    print('executing this chunky piece of code')
                    name_ = 'jpegs/file_' + str(saved_image_num) + '.jpeg'
                    page.save(name_,'JPEG')
                    print(type(page))
                    saved_image_num += 1
                    page_number += 1
                    print(name_)
                    img1 = crop_page_2_through_end(name_)
                    print(img1.shape)
                    image_ocr2(img1,text_file + str(article_number) + '.txt')
                    if page_number == length_of_article:
                        article_number += 1
                        print(page_number)
                        page_number = page_number - length_of_article
                        print(page_number)

解决方法

我的情况都糟透了。更改最终if条件的顺序。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?