如何解决如何将镶木地板文件从Azure Blob读取到Pandas DataFrame中?
我需要在本地计算机上使用Python将.parquet文件读取到Pandas DataFrame中,而无需下载文件。实木复合地板文件存储在具有分层目录结构的Azure Blob上。 我正在执行以下操作,但不确定如何继续:
from azure.storage.blob import BlobServiceClient
blob_service_client = BlobServiceClient.from_connection_string(connection_string)
blob_client = blob_service_client.get_blob_client(container="abc",blob="/xyz/pqr/folder_with_parquet_files")
出于隐私保护的考虑,我在这里使用了虚拟名称。假设目录“ folder_with_parquet_files”包含“ n”号。实木复合地板文件,如何将它们读入单个Pandas DataFrame中?
解决方法
您好,您可以使用熊猫并从流中读取实木复合地板。它对于小型数据集非常有帮助,这里不需要启动sprak会话。这可能是最快的方法,尤其是出于测试目的。
import pandas as pd
from io import BytesIO
from azure.storage.blob import ContainerClient
path = '/path_to_blob/..'
conn_string = <conn_string>
blob_name = f'{path}.parquet'
container = ContainerClient.from_connection_string(conn_str=conn_string,container_name=<name_of_container>)
blob_client = container.get_blob_client(blob=blob_name)
stream_downloader = blob_client.download_blob()
stream = BytesIO()
stream_downloader.readinto(stream)
processed_df = pd.read_parquet(stream,engine='pyarrow')
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。