A卡的锅?世界第一超算Frontier,启动至今无法连续工作一天

机器之心报道

编辑:泽南、小舟

Frontier 上线给科学家提供算力的日期已经推迟到了明年。

在全球范围内,很多机构都在争相构建 E 级(每秒百亿亿次)超级计算机,性能指数级跨越的超算预计会在人工智能、医疗、气象等领域发挥重大作用,是超级电脑工程的重要里程碑。

世界第一台 E 级超算是美国橡树岭国家实验室(ORNL)的「Frontier」,它也是当前全球超算 TOP500 榜单的第一名,但虽说性能领先,Frontier 却远远无法达到超算应有的效率。

近日,一些海外媒体接连报道称,当前世界最快的超算的硬件出现了大量故障,机器甚至无法运行一整天。

ORNL Frontier 目前最多只能产生 60% 即 1 FP64 ExaFLOPS 的算力,而该系统旨在提供 1.685 FP64 ExaFLOPS。虽然官方还没有就具体问题给出任何消息,但一些信息正被曝光。

在最新一期,2022 年 6 月的 TOP500 榜单中,Frontier 位列第一名,其标称的速度是 1.685 FP64 ExaFLOPS。

橡树岭实验室的 Frontier 是业界首个使用 AMD 的 64 核 EPYC Trento 处理器、Instinct MI250X 计算 GPU 和 Hewlett Packard Enterprise(HPE)的 Slingshot 互连,能以 21 兆瓦功率提供高达 1.685 FP64 ExaFLOPS 峰值性能的系统。HPE 构建了该系统并使用了 Cray EX 架构,它专为横向扩展应用程序设计,适用于超高速超级计算机。

虽然从表面上看 Frontier 性能强大,并且系统硬件部分已经交付,但当前面临的问题似乎一直让机器无法保持正常运转,并且无法稳定提供即使是不及标称的 1 FP64 ExaFLOPS 的性能供研究人员使用。

OLCF 项目主管 Justin Whitt 表示:「我们正在解决硬件问题,并确保找出关键问题所在。目前看来主要是规模问题和应用程序的广度问题,系统运行的项目过大,很难让所有硬件协同运行,通常间隔几小时就会出现一次故障。」从某种意义上说,Frontier 是在超级计算机的期末考试上成绩不佳。

实际上,关于 Frontier 潜在硬件故障的流言已经出现了很长一段时间。InsideHPC 曾报道称有人说故障原因是系统遇到了 Slingshot 互连的问题。此外,还有人表示今年 AMD 的 Instinct MI250X 计算 GPU 的可靠性不如预期,并且具有更多流处理器和高时钟的 X 版本仅适用于特定客户。

Justin Whitt 没有证实该系统遇到了 Instinct 或 Slingshot 等任何特定问题,他只是强调该机器存在许多硬件问题。

OLCF 负责人表示:「很多挑战都集中在 GPU 上,GPU 是非常重要的硬件组成部分。但我们对 AMD 的产品尚且没有太多担忧。」

橡树岭国家实验室的 Frontier 超级计算机并不是唯一一个使用 HPE Cray EX 架构、 Slingshot 互连、AMD EPYC CPU 和 AMD Instinct 计算 GPU 的系统,芬兰的 Lumi 超级计算机(Cray EX , EPYC Milan, Instinct MI250X 计算 GPU) 能提供 550 PetaFLOPS 峰值性能,并已被 TOP 500 正式列为世界第三强大的超级计算机。也许对于此类使用上千万零件组成的超算来说,问题不是孤立的。

从官方论述来看,HPE 和 AMD 已在今年秋季提前向 ORNL 交付了新的 Frontier 系统。美国能源部 E 级超算项目的 Mike Bernhardt 表示,ORNL Frontier 的全面集成将从明年开始提供给研究人员,但并未引述对 Frontier 超级计算机的全面启动有任何担忧或问题。

在错过了原先设定的 Deadline 后,Frontier 超级计算机计划于 2023 年 1 月 1 日全面投入运行。

人们都在期待 E 级超算带来的研究成果,不过伴随世界第一而来的还有部分怀疑。一些专家认为,在 E 级计算的竞争中 Frontier 比不上中国的两个计算机系统,后者的运营商还没有向 TOP500 提交测试结果。外媒 the Nextplatform 曾表示,神威海洋之光(oceanlite,太湖之光的升级版)和天河 3 号超算在 2021 年 3 月就达到了持续的 E 级算力。

去年 11 月的全球超级计算大会 SC21 上,来自中国的超算应用团队因「超大规模量子随机电路实时模拟」成果获得戈登 · 贝尔奖。该团队表示,研究基于的新一代神威超级计算机可提供每秒 4.4 百亿亿次的持续计算性能,是超算领域全世界当时已知的最高混合精度浮点计算性能。

专家们表示,中美之间的紧张关系可能是中国没有向 TOP500 提交测试结果的原因。

参考内容:

https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure

https://www.top500.org/lists/top500/2022/06/

https://www.tsinghua.edu.cn/info/1173/89027.htm

原文地址:https://www.toutiao.com/article/7153134678034121256/

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


学习编程是顺着互联网的发展潮流,是一件好事。新手如何学习编程?其实不难,不过在学习编程之前你得先了解你的目的是什么?这个很重要,因为目的决定你的发展方向、决定你的发展速度。
IT行业是什么工作做什么?IT行业的工作有:产品策划类、页面设计类、前端与移动、开发与测试、营销推广类、数据运营类、运营维护类、游戏相关类等,根据不同的分类下面有细分了不同的岗位。
女生学Java好就业吗?女生适合学Java编程吗?目前有不少女生学习Java开发,但要结合自身的情况,先了解自己适不适合去学习Java,不要盲目的选择不适合自己的Java培训班进行学习。只要肯下功夫钻研,多看、多想、多练
Can’t connect to local MySQL server through socket \'/var/lib/mysql/mysql.sock问题 1.进入mysql路径
oracle基本命令 一、登录操作 1.管理员登录 # 管理员登录 sqlplus / as sysdba 2.普通用户登录
一、背景 因为项目中需要通北京网络,所以需要连vpn,但是服务器有时候会断掉,所以写个shell脚本每五分钟去判断是否连接,于是就有下面的shell脚本。
BETWEEN 操作符选取介于两个值之间的数据范围内的值。这些值可以是数值、文本或者日期。
假如你已经使用过苹果开发者中心上架app,你肯定知道在苹果开发者中心的web界面,无法直接提交ipa文件,而是需要使用第三方工具,将ipa文件上传到构建版本,开...
下面的 SQL 语句指定了两个别名,一个是 name 列的别名,一个是 country 列的别名。**提示:**如果列名称包含空格,要求使用双引号或方括号:
在使用H5混合开发的app打包后,需要将ipa文件上传到appstore进行发布,就需要去苹果开发者中心进行发布。​
+----+--------------+---------------------------+-------+---------+
数组的声明并不是声明一个个单独的变量,比如 number0、number1、...、number99,而是声明一个数组变量,比如 numbers,然后使用 nu...
第一步:到appuploader官网下载辅助工具和iCloud驱动,使用前面创建的AppID登录。
如需删除表中的列,请使用下面的语法(请注意,某些数据库系统不允许这种在数据库表中删除列的方式):
前不久在制作win11pe,制作了一版,1.26GB,太大了,不满意,想再裁剪下,发现这次dism mount正常,commit或discard巨慢,以前都很快...
赛门铁克各个版本概览:https://knowledge.broadcom.com/external/article?legacyId=tech163829
实测Python 3.6.6用pip 21.3.1,再高就报错了,Python 3.10.7用pip 22.3.1是可以的
Broadcom Corporation (博通公司,股票代号AVGO)是全球领先的有线和无线通信半导体公司。其产品实现向家庭、 办公室和移动环境以及在这些环境...
发现个问题,server2016上安装了c4d这些版本,低版本的正常显示窗格,但红色圈出的高版本c4d打开后不显示窗格,
TAT:https://cloud.tencent.com/document/product/1340