白话空间统计二十七:统计学七支柱之空间统计版本二聚合2

还记得a long long time ago 的青葱岁月……作为学渣的虾神最怕的就是各种(不擅长)的考试,虾神读书时候有个习惯,就拿到试卷之后,第一时间会把试卷翻到最后一页,去看最后一道大题。然后以最后一题来评判整个试卷的难度——具体的评判方法就是最后一题会不会做,如果会,说明这次考试及格应该木问题了,要是不会做,那么回去竹笋炒肉跑不掉了……

但是,大部分时候,同一份试卷,不同的梦想:




从虾神个人的惨痛经验来看,预先对某件事情进行总体性的判断,是灰常重要的。


那么作为一个分析人员,拿到数据的时候,肯定会给一个整体性的评价,比如每次虾神拿到一份数据,首先要干的事情自然就是把所能知道的统计方法都丢一遍上去:


然后,对于这份数据,领导问我的时候,虾神一般会给出一个概括性的描述,比如:


额……上面那张图片放错了,下面这个才是:




如果说,对一份属性数据进行整体性的聚合描述,用的是个各种“统计值”,那么对于空间数据要进行整体的描述,应该描述什么呢?

答案:首先是扩展自经典统计学中的各种中心、均值神马的,上篇文章已经说过了。

其次,就是空间统计学自身一个非常重要的概念:空间分布模式。什么叫分布模式,空间分布模式通常指的是带有位置属性的数据在一定的空间范围内的分布规律,如下所示:



最早的空间分布的研究方法,通常是采用样方分析来实现的——这个方法一度在各种空间统计学教程里面成为了hello world级的杀手锏。但时至今日,为什么在各种分析里面,很少出现样方分析的例子了呢,有的仅仅是用做入门说明。

样方分析的案例请看历史文章:
空间统计史话:元首的黑科技


不再使用样方分析来做空间分布模式的识别,主要是因为目前做空间模式的识别用了更好的方法,就是所谓的空间自相关的各种指数来对空间分布模式进行识别,最著名的,自然就是所谓的莫兰指数(moran‘s I)。

关于莫兰指数的文章,我写过很多,大家有兴趣去翻以前的内容:
白话空间统计之一:空间自相关
白话空间统计之三:Moran's I(莫兰指数)
白话空间统计番外:再谈莫兰指数(Moran's I)

当然,还有其他的方法,比如join count,查看以下文章:
全局空间自相关:Join Count

还有就是Geary's C这种和moran's I差不多的东西,主要来说,这些指数都是对一份数据进行全局性质的描述,如下:


那么如何来解读一份数据的空间分布模式呢?


下面还是用中国的数据来说问题:


这是虾神从国家统计局网站上获取的2000年-2016年,16年间中国各省GDP的分布情况,大致上来看,17年间各省的排名和区间,基本上没有多大变化,基本上是广东长期霸占No.1……(原谅我为了显目,用了辣眼睛的rainbow配色……大家将就着看吧)


我们怎么通过莫兰指数来揭示中国发展在空间分布上的变化呢?在ArcGIS里面很简单,直接采用全局空间自相关工具即可:


好吧,我截图的是ArcGIS Pro,大家有兴趣可以试用……很强大的东西。

接下去,对17年的moran's I进行计算……计算过程对于要重复点击17次鼠标这种事,虾神一般敬谢不敏,所以就直接采用Python实现了,代码如下:


结果如下:


解读莫兰指数的方法,以前已经说过了步骤如下:
首先,解读p-value——万恶的,被千万统计学家唾弃的P值……but,否定一个东西容易,但是要提出一个替代的理论,就千难万难了,所以到现在为止,大家一边骂,还得一边用。


p值代表随机的可能性,小于0.05,可以表示拒绝零假设了(说人话就是:不是瞎蒙的)。这里看起来,所有的年度数据,都拒绝零假设,表示都具有统计学意义,然后我们再来看莫兰指数的变化:


首先从整体上来看,中国各省份的GDP都呈现的是空间正相关,也就是说,出现了明显的聚集现象,GDP高的省份周边同样出现GDP高的省份的概率很大,有钱的省和有钱的省,穷省和穷省出现的是区域性聚集情况。套用新闻联播的术语,叫做“连片贫困区域”或者“连片发达区域”,这也是各省经济发展不均衡的主要表现。

其次,从2000年开始,中国各省GDP在空间分布上面的变化,整体是呈现下降的趋势,即这种区域性的聚集情况正在下降,但是从2015年开始,又重新开始上升……

从经济发展的理论上说,随机分布才是最完美的分布,随机表示每个区域的发展都是均衡的,所以从2000年到2014年这14年间,总体趋势下降是很有意义的,表示虽然依旧表现为严重的区域发展不平衡性,但是这种不平衡性确是逐年下降的



这里有几个很明显的波峰,如2008、2009年4万亿出台和2015年的去库存,正如经济学家们经常说的,每次重大经济放水都会发生严重的“虹吸”现象,大量的资金向大城市聚集,这种观点,从数据和分析上,就可以明显的看出来了。(待续未完)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


什么是设计模式一套被反复使用、多数人知晓的、经过分类编目的、代码 设计经验 的总结;使用设计模式是为了 可重用 代码、让代码 更容易 被他人理解、保证代码 可靠性;设计模式使代码编制  真正工程化;设计模式使软件工程的 基石脉络, 如同大厦的结构一样;并不直接用来完成代码的编写,而是 描述 在各种不同情况下,要怎么解决问题的一种方案;能使不稳定依赖于相对稳定、具体依赖于相对抽象,避免引
单一职责原则定义(Single Responsibility Principle,SRP)一个对象应该只包含 单一的职责,并且该职责被完整地封装在一个类中。Every  Object should have  a single responsibility, and that responsibility should be entirely encapsulated by t
动态代理和CGLib代理分不清吗,看看这篇文章,写的非常好,强烈推荐。原文截图*************************************************************************************************************************原文文本************
适配器模式将一个类的接口转换成客户期望的另一个接口,使得原本接口不兼容的类可以相互合作。
策略模式定义了一系列算法族,并封装在类中,它们之间可以互相替换,此模式让算法的变化独立于使用算法的客户。
设计模式讲的是如何编写可扩展、可维护、可读的高质量代码,它是针对软件开发中经常遇到的一些设计问题,总结出来的一套通用的解决方案。
模板方法模式在一个方法中定义一个算法的骨架,而将一些步骤延迟到子类中,使得子类可以在不改变算法结构的情况下,重新定义算法中的某些步骤。
迭代器模式提供了一种方法,用于遍历集合对象中的元素,而又不暴露其内部的细节。
外观模式又叫门面模式,它提供了一个统一的(高层)接口,用来访问子系统中的一群接口,使得子系统更容易使用。
单例模式(Singleton Design Pattern)保证一个类只能有一个实例,并提供一个全局访问点。
组合模式可以将对象组合成树形结构来表示“整体-部分”的层次结构,使得客户可以用一致的方式处理个别对象和对象组合。
装饰者模式能够更灵活的,动态的给对象添加其它功能,而不需要修改任何现有的底层代码。
观察者模式(Observer Design Pattern)定义了对象之间的一对多依赖,当对象状态改变的时候,所有依赖者都会自动收到通知。
代理模式为对象提供一个代理,来控制对该对象的访问。代理模式在不改变原始类代码的情况下,通过引入代理类来给原始类附加功能。
工厂模式(Factory Design Pattern)可细分为三种,分别是简单工厂,工厂方法和抽象工厂,它们都是为了更好的创建对象。
状态模式允许对象在内部状态改变时,改变它的行为,对象看起来好像改变了它的类。
命令模式将请求封装为对象,能够支持请求的排队执行、记录日志、撤销等功能。
备忘录模式(Memento Pattern)保存一个对象的某个状态,以便在适当的时候恢复对象。备忘录模式属于行为型模式。 基本介绍 **意图:**在不破坏封装性的前提下,捕获一个对象的内部状态,并在该
顾名思义,责任链模式(Chain of Responsibility Pattern)为请求创建了一个接收者对象的链。这种模式给予请求的类型,对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为
享元模式(Flyweight Pattern)(轻量级)(共享元素)主要用于减少创建对象的数量,以减少内存占用和提高性能。这种类型的设计模式属于结构型模式,它提供了减少对象数量从而改善应用所需的对象结