如何解决DeleteDuplicates和Tally中的不稳定
| 在准备对“计数” Mathematica中的列表采用多少个不同值的答案时,我遇到了我不理解的DeleteDuplicates
和I1ѭ的不稳定(由于缺乏更好的术语)。
首先考虑:
a = {2.2000000000000005,2.2,2.1999999999999999};
a // InputForm
DeleteDuplicates@a // InputForm
Union@a // InputForm
Tally@a // InputForm
{2.2000000000000006`,2.2,2.1999999999999997`}
{2.2000000000000006`,2.2,2.1999999999999997`}
{2.1999999999999997`,2.2,2.2000000000000006`}
{{2.2000000000000006`,3}}
这是我在每种情况下所期望的。 Tally
会补偿微小的数值差异,并将每个元素都视为等效。 Union
和DeleteDuplicates
将所有元素视为唯一。 (据我所知,This1的这种行为没有记录,但是我以前已经使用过。)
现在,考虑一下这种复杂性:
a = {11/5,2.2000000000000005,2.1999999999999997};
a // InputForm
DeleteDuplicates@a // InputForm
Union@a // InputForm
Tally@a // InputForm
{11/5,2.2000000000000006,2.2,2.1999999999999997}
{11/5,2.2000000000000006,2.2}
{2.1999999999999997,2.2,11/5,2.2000000000000006}
{{11/5,1},{2.2000000000000006,1},{2.2,2}}
Union
的输出符合预期,但是,0ѭ和Tally
的结果令人惊讶。
为什么DeleteDuplicates
突然将2.1999999999999997
视为要消除的重复项?
为什么Tally
突然将2.2000000000000006
和2.2
区别开来?
与此相关,可以看出压缩数组影响affect1ѭ:
a = {2.2000000000000005,2.1999999999999999};
a // InputForm
Tally@a // InputForm
{2.2000000000000006,2.2,2.1999999999999997}
{{2.2000000000000006`,3}}
a = Developer`ToPackedArray@a;
a // InputForm
Tally@a // InputForm
{2.2000000000000006,2.2,2.1999999999999997}
{{2.2000000000000006`,1},{2.2,2}}
解决方法
表现出的行为似乎是由与浮点算术相关的常见问题加上正在讨论的某些函数中的某些可疑行为导致的。
SameQ不是等价关系
首先,请考虑一下“ 19”不是等价关系,因为它不是可传递的:
In[1]:= $a = {11/5,2.2000000000000005,2.2,2.1999999999999997};
In[2]:= SameQ[$a[[2]],$a[[3]]]
Out[2]= True
In[3]:= SameQ[$a[[3]],$a[[4]]]
Out[3]= True
In[4]:= SameQ[$a[[2]],$a[[4]]]
Out[4]= False (* !!! *)
因此,即使在转向其他功能之前,我们也面临着不稳定的行为。
此行为是由于SameQ
的记录规则所致,该规则规定两个实数如果“在最后一个二进制数中不同”则被视为“等于”:
In[5]:= {# // InputForm,Short@RealDigits[#,2][[1,-10;;]]} & /@ $a[[2;;4]] // TableForm
(* showing only the last ten binary digits for each *)
Out[5]//TableForm= 2.2000000000000006 {0,1,1}
2.2 {0,0}
2.1999999999999997 {0,1}
请注意,严格来说,$a[[3]]
和$a[[4]]
在最后两位二进制数中有所不同,但差异的大小是最低位的一位。
DeleteDuplicates并不真正使用SameQ
接下来,考虑文档指出ѭ25等于ѭ26。好吧,这是完全正确的-但可能并非您所期望的那样:
In[6]:= DeleteDuplicates[$a] // InputForm
Out[6]//InputForm= {11/5,2.2000000000000006,2.2}
In[7]:= DeleteDuplicates[$a,SameQ] // InputForm
Out[7]//InputForm= {11/5,2.2}
与所记录的相同...但是呢:
In[8]:= DeleteDuplicates[$a,SameQ[#1,#2]&] // InputForm
Out[8]//InputForm= {11/5,2.1999999999999997}
当比较函数显然是SameQ
而不是行为与SameQ
相同的函数时,看来DeleteDuplicates
会经过不同的逻辑分支。
提示是...困惑
Tally
表现出相似但不相同的不稳定行为:
In[9]:= Tally[$a] // InputForm
Out[9]//InputForm= {{11/5,1},{2.2000000000000006,{2.2,2}}
In[10]:= Tally[$a,SameQ] // InputForm
Out[10]//InputForm= {{11/5,2}}
In[11]:= Tally[$a,#2]&] // InputForm
Out[11]//InputForm= {{11/5,2}}
最后一个特别令人困惑,因为相同的数字在列表中以不同的计数出现了两次。
平等遭受类似的问题
现在,回到浮点相等的问题。 Equal
的票价比SameQ
的要好一些-但强调“小”。 Equal
会查看最后七个二进制数字,而不是最后一个二进制数字。但这并不能解决问题,但总是可以找到麻烦的情况:
In[12]:= $x1 = 0.19999999999999823;
$x2 = 0.2;
$x3 = 0.2000000000000018;
In[15]:= Equal[$x1,$x2]
Out[15]= True
In[16]:= Equal[$x2,$x3]
Out[16]= True
In[17]:= Equal[$x1,$x3]
Out[17]= False (* Oops *)
揭露小人
所有这些讨论的罪魁祸首是浮点实数格式。根本不可能使用有限格式完全保真地表示任意实数。这就是为什么Mathematica强调符号形式并尽一切可能尝试尽可能长时间地使用符号形式的表达式。如果发现数字形式是不可避免的,那么就必须涉入那种称为数字分析的沼泽,以理清所有涉及平等和不平等的极端情况。
可怜的SameQ
,Equal
,DeleteDuplicates
,Tally
和他们的所有朋友都没有机会。
,我认为,对于Tally
或DeleteDuplicates
带有默认值(基于类似SameQ
的)的比较函数和数值,一切依赖于实现细节,因为SameQ
在数值上没有明确定义的语义。您看到的是其他语言中通常称为“未定义行为”的内容。要获得可靠的结果,应该做的是使用
DeleteDuplicates[a,Equal]
要么
Tally[a,Equal]
对于Union
同样如此(尽管我不会使用Union
,因为显式测试会导致平方复杂性)。 OTOH,如果您想要因为要使用内部实现细节而希望了解它们,那么我只能说警告这可能造成弊大于利,尤其是因为这些实现可能因版本而异-即使假设您正确获取了某个特定版本的所有详细信息。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。