如何解决如果多类分类器均匀分布错误分类,即使分类器不好,它是否也总是给出高 AUC?
我有一个多类分类问题,我在 400 个类中获得了非常高的 AUC 分数(>0.94),这对于如此大量的类来说出乎意料地高。肯定有问题。我有一个解释,但我需要有人来验证我的推理是否真的如此。
因此,如果我想使用 ROC,那么在多类问题的情况下,我需要对类标签进行二值化(因为 ROC 适用于二元类问题)。现在例如,如果我使用一对一配置(Hand 和 Till,2001),并且分类器将错误分类(误报和漏报)均匀地分布在许多(甚至所有)类中,我将不可避免地对于任何一对类别,都有少量的误报和少量的漏报。因此,较少的假阳性和假阴性将构成高真阳性率和低假阳性率,从而导致高 AUC。由于这并不意味着分类大部分是正确的,因此您在准确度、精确度或召回率方面的得分较低。我的推理有道理吗?
我的数据集是平衡的。我正在使用带有 roc_auc_score
配置的 sklearn 的 ovo
实现。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。