在Haskell中，Ruby的pnormaldist统计功能相当于什么？

如何解决在Haskell中，Ruby的pnormaldist统计功能相当于什么？

| 如此处所示：http://www.evanmiller.org/how-not-to-sort-by-average-rating.html 这是在Statistics2库中实现的Ruby代码本身：

# inverse of normal distribution ([2])
# Pr( (-\\infty,x] ) = qn -> x
def pnormaldist(qn)
  b = [1.570796288,0.03706987906,-0.8364353589e-3,-0.2250947176e-3,0.6841218299e-5,0.5824238515e-5,-0.104527497e-5,0.8360937017e-7,-0.3231081277e-8,0.3657763036e-10,0.6936233982e-12]

  if(qn < 0.0 || 1.0 < qn)
    $stderr.printf(\"Error : qn <= 0 or qn >= 1  in pnorm()!\\n\")
    return 0.0;
  end
  qn == 0.5 and return 0.0

  w1 = qn
  qn > 0.5 and w1 = 1.0 - w1
  w3 = -Math.log(4.0 * w1 * (1.0 - w1))
  w1 = b[0]
  1.upto 10 do |i|
    w1 += b[i] * w3**i;
  end
  qn > 0.5 and return Math.sqrt(w1 * w3)
  -Math.sqrt(w1 * w3)
end

解决方法

翻译起来很简单：

module PNormalDist where

pnormaldist :: (Ord a,Floating a) => a -> Either String a
pnormaldist qn
  | qn < 0 || 1 < qn = Left \"Error: qn must be in [0,1]\"
  | qn == 0.5        = Right 0.0
  | otherwise        = Right $
      let w3 = negate . log $ 4 * qn * (1 - qn)
          b = [ 1.570796288,0.03706987906,-0.8364353589e-3,-0.2250947176e-3,0.6841218299e-5,0.5824238515e-5,-0.104527497e-5,0.8360937017e-7,-0.3231081277e-8,0.3657763036e-10,0.6936233982e-12]
          w1 = sum . zipWith (*) b $ iterate (*w3) 1
      in (signum $ qn - 0.5) * sqrt (w1 * w3)

首先，让我们看一下ruby-它返回一个值，但有时会打印一条错误消息（给定不正确的参数时）。这不是很仓促，所以让我们的返回值为Either String a-如果给定的参数不正确，我们将返回带有错误消息的Left String，否则返回Right a。现在，我们检查顶部的两种情况： qn < 0 || 1 < qn = Left \"Error: qn must be in [0,1]\"-当qn超出范围时，这是错误情况。 qn == 0.5 = Right 0.0-这是红宝石支票qn == 0.5 and return * 0.0 接下来，我们在红宝石代码中定义“ 9”。但是我们稍后再重新定义它，这不是很红宝石。我们第一次存储在w1中的值是在w3的定义中立即使用的，那么为什么不跳过将其存储在w1中呢？我们甚至不需要执行qn > 0.5 and w1 = 1.0 - w1步骤，因为我们在w3的定义中使用乘积w1 * (1.0 - w1)。因此，我们跳过所有内容，直接进入定义w3 = negate . log $ 4 * qn * (1 - qn)。接下来是ѭ16的定义，它是从ruby代码直接得到的（ruby的数组文字语法是haskell的列表语法）。这是最棘手的位-定义w3的最终值。红宝石代码的作用

w1 = b[0]
1.upto 10 do |i|
  w1 += b[i] * w3**i;
end

所谓的折叠-将一组值（存储在ruby数组中）减少为一个值。我们可以使用Array#reduce在功能上（但仍以红宝石形式）重述：

w1 = b.zip(0..10).reduce(0) do |accum,(bval,i)|
  accum + bval * w3^i
end

注意如何使用标识the22ѭ将b[0]推入循环。现在我们可以直接将其移植到haskell，但这有点难看

w1 = foldl 0 (\\accum (bval,i) -> accum + bval * w3**i) $ zip b [0..10]

相反，我将其分解为几个步骤-首先，我们实际上并不需要i，我们只需要ѭ11power（从w3^0 == 1开始）的幂，所以让我们用iterate (*w3) 1来计算。然后，我们最终不需要它们的乘积，而不是将它们与b的元素压缩成对，因此我们可以将它们压缩到每对产品使用zipWith (*) b。现在我们的折叠功能真的很简单-我们只需要对产品进行汇总，就可以使用sum来完成。最后，根据qn大于或小于0.5，我们决定返回正负sqrt (w1 * w3)（我们已经知道这是不相等的）。因此，与其像红宝石代码那样在两个不同的位置计算平方根，我计算了一次，然后根据qn - 0.5的符号将其乘以+1或-1（signum只是返回值的符号）。 ,深入研究Hackage，有许多用于统计的库： hmatrix-gsl-stats-与GSL的纯绑定 hstatistics-更高级别的GSL接口 hstats-常用的统计方法统计-更常见的统计方法 statistics-linreg-基于另一个统计数据包的两个样本之间的线性回归。您需要一个版本pnormaldist，该版本为“返回normaldist（x）的P值”。 Statistics包中的Statistics.Distribution.Normal提供了许多操作正态分布的功能。 Statistics.Test.NonParametric包含许多与P值有关的事情。也许那里有什么可以满足您的需求？ ,hacker的erf包中现在提供了所需的功能。叫ѭ37。 ,这是我对node.js中Bernoulli参数的Wilson得分置信区间

wilson.normaldist = function(qn) {
    var b = [1.570796288,-0.0008364353589,-0.0002250947176,0.000006841218299,0.000005824238515,-0.00000104527497,0.00000008360937017,-0.000000003231081277,0.00000000003657763036,0.0000000000006936233982
    ];
    if (qn < 0.0 || 1.0 < qn) return 0;
    if (qn == 0.5) return 0;
    var w1 = qn;
    if (qn > 0.5) w1 = 1.0 - w1;
    var w3 = -Math.log(4.0 * w1 * (1.0 - w1));
    w1 = b[0];

    function loop(i) {
        w1 += b[i] * Math.pow(w3,i);
        if (i < b.length - 1) loop(++i);
    };
    loop(1);
    if (qn > 0.5) return Math.sqrt(w1 * w3);
    else return -Math.sqrt(w1 * w3);
}

wilson.rank = function(up_votes,down_votes) {
    var confidence = 0.95;
    var pos = up_votes;
    var n = up_votes + down_votes;
    if (n == 0) return 0;
    var z = this.normaldist(1 - (1 - confidence) / 2);
    var phat = 1.0 * pos / n;
    return ((phat + z * z / (2 * n) - z * Math.sqrt((phat * (1 - phat) + z * z / (4 * n)) / n)) / (1 + z * z / n)) * 10000;
}

,简要了解黑客行为并没有发现任何内容，因此建议您将ruby代码转换为Haskell。很简单。 ,Ruby代码未记录。没有说明该功能的功能。谁能知道它是否正确执行了预期的工作？我不会盲目地将该算法从一个实现复制并粘贴到另一个实现中（就像Ruby包的作者所做的那样）。引用中的引用以ѭ39给出，但这是悬而未决的。我们可以在_statistics2.c文件中的本机C代码的注释块中找到它。

/*
   statistics2.c
   distributions of statistics2
   by Shin-ichiro HARA
   2003.09.25
   Ref:
   [1] http://www.matsusaka-u.ac.jp/~okumura/algo/
   [2] http://www5.airnet.ne.jp/tomy/cpro/sslib11.htm
*/

非常草率的工作只能引用系数被抄写的C源代码，而不是公式的原始源代码。 [1]链接不再起作用；找不到服务器。幸运的是，我们要的是43英镑。这是日语的页面，其中包含用于各种功能的一些C代码。给出参考。我们要的是pnorm。在表中，该算法归因于戸田の近似式，这表示\“ Toda \'s Approximation \”。户田（Toda）在日本是一个普通的姓氏。需要更多侦探工作才能弄清这是谁。经过大量的努力，我们去了：纸（日文）：户田英雄和小野晴美（1993）对标准正态分布百分比点的极小极大逼近。该算法归因于Toda（我假设是与该论文的合著者相同），日期为1967年，第19页。似乎还不清楚。在Ruby软件包中使用它的可能原因是，它是在国内来源的源代码中找到的，引用的是国内学者的名字。

在Haskell中，Ruby的pnormaldist统计功能相当于什么？

如何解决在Haskell中，Ruby的pnormaldist统计功能相当于什么？

解决方法

相关推荐