8. Establish a single-number evaluation metric for your team to optimize 建立一个单一数字的评估指标MACHINE LE

为你的团队进行算法优化建立一个单一数字的评估指标

分类准确率是单一数字评估指标（single-number evaluation metric）的示例：你在开发集（或测试集）上运行运行一个分类器，然后得到一个正确分类的样本比例这样一个数字。根据给指标，如果分类器A获得97%的准确率，分类器B获得90%的准确率，则我们认为分类器A更好。

相比之下，查准率（Precision）和查全率（Recall）^【3】就不是一个单一数字的评估指标：它给出了两个数字来评估你的分类器性能。具有多个数字的评估指标使得比较算法更为困难。假设你的算法表现如下：

这里，两个分类器都没有显而易见地比另一个更优越，所以它不能马上引导你选择其中一个。

在开发期间，你的团队会尝试各种关于算法体系结构，模型参数，特征选择等方面的许多idea。使用单一数字的评估指标（single-number evaluation metric）（如精度），你可以根据其在这个指标上的效果快速对所有模型进行排序，从而快速决定哪一个work的最好。

如果你真的同时关心查准率（Precision）和查全率（Recall），我建议你使用一种方法将它们组合为单一的数字。例如，可以取Precision和Recall的平均值，最终得到单个数字。或者，你可以计算“F1度量（F1 score）”，它是一种基于其平均值的改善的方法，比简单地取平均值效果要好。^【4】

当你面临在一大堆分类器中做出选择时，使用单一数字的评估指标可以加快你做出决策。它可以给出所有尝试的idea的明确的优先排名，从而给出一个清晰的前进方向。

作为最后一个例子，假如你分别得到了你的猫分类器在四个主要市场（（i）美国，（ii）中国，（iii）印度和（iv）其他地区）的准确率。这里提供了四个指标。通过对这四个数据进行平均或加权平均，你将得到单个数字度量。取平均值或加权平均值是将多个指标合并为一个的最常见的方法之一。

————————————————————
^【3】一个猫的分类器的查准率（Precision）是指在开发集（或测试集）中检测出的所有有猫的图片中有多少比例是真正的有猫。它的查全率（Recall）指在开发集（或测试集）中所有真正有猫的图片有多少比例被检测出来了。在高查准率和高查全率之间通常存在权衡。

^【4】如果你想要了解更多关于F1度量（F1 score）的信息，请参阅https://en.wikipedia.org/wiki/F1_score 。它是基于Precision和Recall的”调和平均（harmonic mean）”定义的，其计算公式为 $\frac{2}{(1/Precision)+(1/Recall)}$ 。(译者注：个人认为原文中使用的是”geomentric mean”有误，故改为“harmonic mean”，如有错误欢迎指出。)

8. Establish a single-number evaluation metric for your team to optimize 建立一个单一数字的评估指标MACHINE LE

为你的团队进行算法优化建立一个单一数字的评估指标

相关推荐