如何解决从Python中的URL读取PDF中的表格信息
我正在尝试从URL中读取每周的用餐计划(PDF格式),我想知道是否有人可以给我一些提示。目的是编写一个脚本,该脚本每周获取一次膳食计划,从而允许我提供当前日期,以获取我的食堂提供的非素食和素食膳食。 An example of the weekly menu may be found here。
到目前为止,我设法使URL生成器正常工作,该生成器将生成正确的字符串以供解析器正常工作。我现在坚持编写合适的解析器。我尝试过的一个示例是使用tabula-py,但似乎无法将其正确解析为数据框。到目前为止,我使用的行是:
menu_df = tabula.read_pdf(menu_URL,pages=1)
但是,解析器似乎无法分辨分隔符在哪里。
我尝试过的替代方法包括使用pdfminer.six
。尽管下面的代码片段确实返回了(非常漂亮地)我已下载的表的内容,但是我无法将它们分类为可以使用它们的日期,并且仅当我将每周菜单下载到本地时它们才起作用驾驶。代码段如下:
from io import BytesIO as StringIO
from pdfminer.layout import LAParams
from pdfminer.high_level import extract_text_to_fp
def parse_menu(menu_path):
output_string = StringIO()
with open(menu_path,'rb') as fin:
extract_text_to_fp(fin,output_string,laparams=LAParams(),output_type='html',codec=None)
return output_string
到目前为止,这两种方法都不尽人意,我想知道是否有比我更有经验的人对如何解决这个问题有想法?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。