如何解决使用哪些AWS服务来处理20TB的Parquet文件
我在s3存储桶上有20 TB的数据(镶木地板文件的集合)。我有一个非常简单的自定义算法(pandas + numpy + scikit-learn),我想将其应用于上述数据集。数据可以分为大约600个块(每个块约30 GB),我的算法可以在这些块上独立运行。该算法大约需要2个小时才能在每个块上运行。我想利用AWS服务执行以下步骤:
- 根据特定列的值将20 TB数据拆分为600个块
- 旋转多台(可能是600台?)计算机,然后一次将一个块发送到一台计算机上
- 在每台计算机上并行执行我的算法
每个阶段应使用哪些AWS服务?如何整合这些服务?谁能详细列出它们?
理想情况下,我希望算法最多运行24小时。
解决方法
这听起来像是运行Apache Spark on Amazon EMR - Big Data Platform - Amazon Web Services的确切用例。它旨在为Amazon S3中存储的数据提供大规模并行处理。
此外,它应该能够并行处理数据文件,而不必拆分它们。
我建议您观看:AWS re:Invent 2019: Deep dive into running Apache Spark on Amazon EMR (ANT308-R1) - YouTube
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。