如何解决在R中,如何估算低于检测极限的左删失数据?
这可能是一个简单的问题,但我无法解决。我有一个生物化学测试结果的数据框。由于检测的限制,某些测试(例如base_crp
)返回的值类似<3
。在继续之前,我需要估算这些数据。我想正确地做到这一点,所以不仅要替换。
我尝试使用zCompositions包中的multLN,但似乎认为所有<3
的值都是负的(错误说X contains negative values
)。似乎也没有太多的文档-这是一个晦涩的软件包吗?
我也查看了LODI,但它希望我为插补模型指定协变量-是否有选择这些变量的正确方法?无论如何,我选择了3个理论上相关性良好的代码,并使用了以下代码:
clmi.out <- clmi(formula = log(base_crp) ~ base_wcc + base_neut + base_lymph,df = all,lod = crplim,seed = 12345,n.imps = 5)
其中base_crp是我要修复的变量。我将所有NA,并插入了新列all$crplim <- "3"
。但是,这只是返回
Error in sprintf("%s must be numeric.") : too few arguments
。
即使我可以使LODI正常工作,也不确定它是否是正确的工具。我只是一个统计学背景不高的本科生,所以我不太了解自己在做什么-我只想要一些可以用数字填充列的东西,这样我就可以继续进行Pearson相关和线性回归等。我真的很感谢您的帮助。预先感谢。
解决方法
在此之前,我已经对CRP(C反应蛋白)水平进行了一些统计建模-以this peer-reviewed paper为例。 CRP具有近似对数正态分布,在所有测试适应症中,未选定人群的中位值通常约为3.5 mg / l(大多数健康人属于“ 丢失数据。低CRP数据 not 丢失。您已经知道它在一定范围内,因此,如果以这种方式进行估算,则会丢失信息。
合理的是,用回归值等的数值替换“
我可以从我在上面链接的研究中从10,000多个高灵敏度CRP测量样本中获得的数据告诉您,CRP
如果确实需要在缺失的CRP上具有合理的数值,则可以估算对数正态分布的下半部分。以下功能将为您提供与实际CRP测量值无法区分的数字:
impute_crp <- function(n)
{
x <- exp(rnorm(10 * n,1.355,1.45))
round(x[x < 3][seq(n)],1)
}
所以你可以做
impute_crp(10)
#> [1] 1.5 2.0 1.1 0.4 2.5 0.1 0.7 1.5 1.4 0.4
和
base_crp[base_crp == "<3"] <- impute_crp(length(which(base_crp == "<3"))
但是,您会注意到在我自己的CRP模型中根本没有使用插补。用检测阈值替换较低的值对于建模而言已经足够了-我很确定是否将“
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。