为什么 MapReduce 是这样命名的？

如何解决为什么 MapReduce 是这样命名的？

我是 Hadoop 的初学者。我试图理解为什么 MapReduce 是这样命名的。

据我所知，它基本上是先转换以过滤数据，然后将其聚合以产生一些输出。

为什么过滤或转换称为映射？这个操作怎么算作映射？

为什么那个聚合操作叫做reduce？在这里，至少我可以想象聚合会将输入数据集减少到有限数量的值。

我试图从语义角度理解 MapReduce 的含义。

解决方法

为了找到 MapReduce 术语背后的原因，我们必须回到构成这个特定编程范式的那些元素的根源。这意味着我们需要谈论（尽可能准确，少无聊）函数式编程。

简而言之，Wikipedia 的函数式编程是：

一种声明式编程范式，其中函数定义是将值映射到其他值的表达式树，而不是更新程序运行状态的一系列命令式语句。

这基本上意味着该模型的重点是函数的应用，而不是不是专注于对状态所做的更改的命令式编程。因此，通过使用函数式代码，执行中的函数不会真正依赖或操作其范围之外的数据（正如 here 所说的那样）。

“好吧，这与 MapReduce 有什么关系？”

嗯，MapReduce 直接受到函数式编程的启发，因为 Map 和 Reduce 函数是函数式编程中使用的基本函数。当然，MapReduce 还为执行添加了许多其他阶段，例如 Combine、Shuffle、Sort 等，但模型的核心思想源于上述函数式编程的思想。

关于映射，在函数意义上，它被描述为一个接收两个参数的函数，一个函数和一个值列表。 Map 函数本质上是在列表的每个值上实现该函数以返回结果的输出列表。您确实可以将其称为一种“过滤”，但是除了“过滤”它们之外，还可以通过更多方式来操作数据。 Map 函数的主要目标是将输入数据更改为所需的形式，以便接下来在 Reduce 函数中进行计算。

现在谈论Reduce，它遵循类似的方法。这里也给出了两个参数，一个函数和一个将要实现该函数的值列表。由于这里的值列表是来自 Map 函数输出的转换后的数据集合，剩下要做的就是处理它们并达到所需的结果。根据您对 MapReduce 作业步骤的抽象意义的了解，当您将 Reduce 函数描述为尝试聚合输入数据时，您就有了正确的想法。但是，该过程中“缺失”的一件事是如何以及基于什么聚合这些输入数据。如上所述，这就是 Map 函数的主要本质。

综上所述，我们可以理解，MapReduce 模型是以抽象实现的函数式编程的这两个基本功能命名的，因此该模型本质上遵循了后者的语义契约。

从 here、here、here 和 here 开始，您可以自行探索所有这些以及更多内容。

为什么 MapReduce 是这样命名的？

如何解决为什么 MapReduce 是这样命名的？

解决方法

相关推荐