如何解决如何使用来自多个自变量的多个Z分数开发0-100综合或索引分数?
我对诸如human development index或economic freedom index之类的指数得分非常感兴趣,它们根据一系列不同的变量(例如新闻自由,财产权,等等)。我想用z分数为Python笔记本中的多列做到这一点。
我可以使用scipy来计算Z分数:
from scipy.stats import zscore
no_income_data_important_columns_only.apply(zscore)
并得到类似的信息:我知道这些z得分告诉我这些值相对于平均值有多高或低。但是现在我希望能够了解所有测量/列跨的每一行的高低...
我真的不知道如何使用所有Z分数来计算指数或综合得分(从0到100的范围)。我是将它们相乘还是加在一起,还是做其他一些事情来汇总它们?
解决方法
这仍然具有您先前发布时的致命概念缺陷。但是,您现在已经足够清楚地描述了问题,可以解决该问题。
Z评分仅是用于标准化数据的工具:将各种范围和偏差按相似的标度进行计算,以简化 real 处理步骤。解决您的中心问题:什么都不重要?
每个这样的“索引”仅是研究团队对重要,功能如何相互作用等的看法。您的帖子本质上要求我们盲目确定对阅读索引报告的人来说重要的是什么。显然,这是行不通的。
您必须确定您打算如何加权这些项目。请注意,您的Z得分只是每个要素的线性比例。这是否与某人的直觉自由地线性关联?如果一个实体控制和审查所有媒体,这是否会降低其他因素的影响? 100%的财产自由和无新闻自由与50%的自由相比如何?
在您决定这些因素如何相互影响以及它们与读者的感受如何相关之前,您的组织能力不足以解决您提出的问题。 您正在尝试将多维调查简化为线性指标。要拥有可重用的算法,您必须首先具有可重现的上下文(“设计模式”中Ralph E. Johnson的表述)。这不是可重现的上下文,并且您尚未研究您的特定用例。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。