依赖自动统计对性能的影响

依赖自动统计对性能的影响

from: http://www.cnblogs.com/tom-fu/archive/2008/09/06/1285816.html

在使用索引对数据进行查询时,优化器考虑是执行索引扫描还是索引查找的依据是根据此索引相关的统计信息。但统计的步长不能超过200(DBCC SHOW_STATISTICS返回的第三部分结果),这在数据量很大的表中,使得统计信息的精度变得越来越不准确。当然,这个影响不会很致命,发生的机会也很少。关键是统计信息得不到及时更新的话,就会使优化器选择错误的执行计划了。

如果我们在事件探查器中发现很多的MISSING_COLUMN_STATISTICS事件时,可以把异步自动更新统计这个选项设置为True。以防止因为查询等待统计信息完成而超时,但这时的查询肯定会因为统计信息不准而选择错误的执行计划了。那么统计信息是在什么时候会被自动更新的呢?

在兼容视图sys.sysindexes中的rowmodctr列中记录了自上次更新统计之后发生变化的记录数,每个统计信息对会对应一行。对就记录数小于500的来说,当变化超过500时,才会触发自动更新。对于更大的表,更新发生在500+20%*表的记录数被修改后(增删改都计算在内)。基于这个更新的比例,如果我们只依赖于自动更新统计时,就会造成优化器选择错误的执行计划了。

下面我们通过一个例子来演示一下这种过于延迟的自动更新操作带来的查询性能的损失。Northwind数据库的Orders表的OrderDate建立一个非唯一非聚集索引。

-- 更新统计信息后观察相关的统计值及相应的视图信息
UPDATE STATISTICS dbo.Orders WITH FULLSCAN
DBCC SHOW_STATISTICS( ' dbo.Orders ' ,OrderDate)
-- rowmodctr这时为0,表示更新统计后没有记录被修改
SELECT id, [ name ] ,dpages,rowcnt,rowmodctr FROM sys.sysindexes WHERE id = OBJECT_ID (N ' dbo.Orders ' )
-- 新创建一个订单并观察现在的统计信息,这时系统并没有更新统计
INSERT INTO dbo.Orders(OrderDate) VALUES ( ' 2008-09-12 ' )
-- 这时我们看到统计信息中并没有'2008-09-12'的记录
DBCC SHOW_STATISTICS( ' dbo.Orders ' ,OrderDate)
-- rowmodctr字段变为1
SELECT id,rowmodctr FROM sys.sysindexes WHERE id = OBJECT_ID (N ' dbo.Orders ' )
-- 现在只有一条符合条件的记录,使用索引查找高效。OPTION(RECOMPILE)不保存缓存计划,防止后面的查询重用此计划。
SELECT * FROM dbo.Orders WHERE OrderDate = ' 2008-09-12 ' OPTION (RECOMPILE)
-- 不管新增或修改500个订单的定购日期,只运行任一操作以防止超过自动更新被触发时的阀值
--
UPDATETOP(500)dbo.OrdersSETOrderDate='2008-09-12'WHEREOrderDate<>'2008-09-12'
DECLARE @i int
SET @i = 500
WHILE ( @i > 0 )
BEGIN
INSERT INTO dbo.Orders(OrderDate) VALUES ( ' 2008-09-12 ' )
SET @i = @i - 1
END
-- 此时统计信息中照样不包括'2008-09-12',
DBCC SHOW_STATISTICS( ' dbo.Orders ' ,OrderDate)
-- OrderDate的rowmodctr字段变为501,如果你是更新OrderDate的话,只有对应的OrderDate行变为501
SELECT id,rowmodctr FROM sys.sysindexes WHERE id = OBJECT_ID (N ' dbo.Orders ' )

EXEC SP_SPACEUSED [ dbo.Orders ] ,true
GO
-- 此时已有很多符合条件的记录,但因统计信息没有及时更新导致错误的选择继续使用索引查找,从而造成过高的逻辑I/O
SELECT * FROM dbo.Orders WHERE OrderDate = ' 2008-09-12 ' OPTION (RECOMPILE)
-- 更新统计信息
UPDATE STATISTICS dbo.Orders WITH FULLSCAN
-- 此时正确的选择表扫描
SELECT * FROM dbo.Orders WHERE OrderDate = ' 2008-09-12 '
-- rowmodctr全被重置为0
SELECT id,rowmodctr FROM sys.sysindexes WHERE id = OBJECT_ID (N ' dbo.Orders ' )
-- 统计信息中包含了最新订单日期'2008-09-12'
DBCC SHOW_STATISTICS( ' dbo.Orders ' ,OrderDate)

从上面的实验结果看,适度的对一些经常被修改的表手工进行统计更新可以防止优化器生成错误的执行计划。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


什么是设计模式一套被反复使用、多数人知晓的、经过分类编目的、代码 设计经验 的总结;使用设计模式是为了 可重用 代码、让代码 更容易 被他人理解、保证代码 可靠性;设计模式使代码编制  真正工程化;设计模式使软件工程的 基石脉络, 如同大厦的结构一样;并不直接用来完成代码的编写,而是 描述 在各种不同情况下,要怎么解决问题的一种方案;能使不稳定依赖于相对稳定、具体依赖于相对抽象,避免引
单一职责原则定义(Single Responsibility Principle,SRP)一个对象应该只包含 单一的职责,并且该职责被完整地封装在一个类中。Every  Object should have  a single responsibility, and that responsibility should be entirely encapsulated by t
动态代理和CGLib代理分不清吗,看看这篇文章,写的非常好,强烈推荐。原文截图*************************************************************************************************************************原文文本************
适配器模式将一个类的接口转换成客户期望的另一个接口,使得原本接口不兼容的类可以相互合作。
策略模式定义了一系列算法族,并封装在类中,它们之间可以互相替换,此模式让算法的变化独立于使用算法的客户。
设计模式讲的是如何编写可扩展、可维护、可读的高质量代码,它是针对软件开发中经常遇到的一些设计问题,总结出来的一套通用的解决方案。
模板方法模式在一个方法中定义一个算法的骨架,而将一些步骤延迟到子类中,使得子类可以在不改变算法结构的情况下,重新定义算法中的某些步骤。
迭代器模式提供了一种方法,用于遍历集合对象中的元素,而又不暴露其内部的细节。
外观模式又叫门面模式,它提供了一个统一的(高层)接口,用来访问子系统中的一群接口,使得子系统更容易使用。
单例模式(Singleton Design Pattern)保证一个类只能有一个实例,并提供一个全局访问点。
组合模式可以将对象组合成树形结构来表示“整体-部分”的层次结构,使得客户可以用一致的方式处理个别对象和对象组合。
装饰者模式能够更灵活的,动态的给对象添加其它功能,而不需要修改任何现有的底层代码。
观察者模式(Observer Design Pattern)定义了对象之间的一对多依赖,当对象状态改变的时候,所有依赖者都会自动收到通知。
代理模式为对象提供一个代理,来控制对该对象的访问。代理模式在不改变原始类代码的情况下,通过引入代理类来给原始类附加功能。
工厂模式(Factory Design Pattern)可细分为三种,分别是简单工厂,工厂方法和抽象工厂,它们都是为了更好的创建对象。
状态模式允许对象在内部状态改变时,改变它的行为,对象看起来好像改变了它的类。
命令模式将请求封装为对象,能够支持请求的排队执行、记录日志、撤销等功能。
备忘录模式(Memento Pattern)保存一个对象的某个状态,以便在适当的时候恢复对象。备忘录模式属于行为型模式。 基本介绍 **意图:**在不破坏封装性的前提下,捕获一个对象的内部状态,并在该
顾名思义,责任链模式(Chain of Responsibility Pattern)为请求创建了一个接收者对象的链。这种模式给予请求的类型,对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为
享元模式(Flyweight Pattern)(轻量级)(共享元素)主要用于减少创建对象的数量,以减少内存占用和提高性能。这种类型的设计模式属于结构型模式,它提供了减少对象数量从而改善应用所需的对象结