java – Quicksort-枢轴选择策略如何影响quicksort的整体Big-oh行为?

我提出了几个策略,但我不完全确定它们如何影响整体行为.我知道平均情况是O(NlogN),所以我认为这将是某个地方的答案.如果我只选择数组中的第一项作为快速排序的枢轴,我想把NlogN 1放入,但我不知道这是正确还是可接受?如果有人能够在这个主题上启发我会很棒.谢谢!

可能的策略:

a)数组是随机的:选择第一项,因为这是最具成本效益的选择.

b)数组主要是排序的:选择中间项,这​​样我们很可能会赞美每次拆分的二进制递归.

c)数组相对较大:选择数组中的第一个,中间和最后一个索引并进行比较,选择最小的索引以确保避免最坏的情况.

d)使用随机生成的索引执行’c’,以使选择更不确定.

最佳答案
您应该知道的一个重要事实是,在一系列不同的元素中,随机选择分区的快速排序将以O(n lg n)运行.有很多很好的证明,the one on Wikipedia实际上有很好的讨论.如果你愿意采用一种稍微不那么正式的证据,这种证据主要是数学上合理的,那么直觉如下.每当我们选择一个支点时,让我们说一个“好”的支点是一个支点,它给我们至少75%/ 25%的分割;也就是说,它大于至少25%的元素和至多75%的元素.我们希望限制在算法终止之前我们可以获得此类数据的次数.假设我们得到这种k分裂,并考虑以这种方式生成的最大子问题的大小.它的大小最多为(3/4)kn,因为在每次迭代时我们都会消除至少四分之一的元素.如果我们考虑k = log3 / 4(1 / n)= log4 / 3n的特定情况,那么选择k个好枢轴之后的最大子问题的大小将为1,并且递归将停止.这意味着如果我们选择获得O(lg n)好的枢轴,则递归将终止.但是在每次迭代中,获得这样一个支点的可能性是多少?好吧,如果我们随机选择枢轴,那么它有50%的可能性在50%的元素中间,所以在期望我们选择两个随机枢轴之前我们得到一个好的支点.选择一个支点的每一步都花费O(n)时间,因此我们应该花费大约O(n)的时间才能获得每个好的支点.由于我们获得了大多数O(lg n)好的枢轴,因此整体运行时间在期望值上为O(n lg n).

上述讨论中的一个重要细节是,如果用任何常数分裂代替75%/ 25%分裂 – 比如,(100-k%)/ k%分裂 – 过度渐近分析是相同的.平均而言,你会得到快速排序O(n lg n)时间.

我之所以提到这个证明的原因是它为你提供了一个很好的框架来思考如何在快速排序中选择一个支点.如果您可以在每个迭代中选择一个非常靠近中间的轴,则可以保证O(n lg n)运行时.如果你不能保证你会在任何迭代上得到一个好的支点,但是可以说在期望它只需要一个恒定的迭代次数才能得到一个好的支点,那么你也可以保证O(n lg n)预期运行时间

鉴于此,让我们来看看你提出的支点方案.对于(a),如果数组是随机的,则选择第一个元素作为数据透视表与在每个步骤选择一个随机数据透视图基本相同,因此通过上面的分析,您将获得期望的O(n lg n)运行时.对于(b),如果您知道数组主要是排序的,那么选择中位数是一个很好的策略.原因是如果我们可以说每个元素与排序序列中的位置“非常接近”,那么你可以创建一个参数,你选择的每个数据透视都是一个很好的支点,给你O(n lg n你想要的运行时间. (术语“非常接近”在数学上并不精确,但我认为如果你愿意,你可以在没有太多困难的情况下将其正式化).

至于(c)和(d),在这两者中,(d)是唯一一个保证在期望中获得O(n lg n)的人.如果确定性地选择某些元素作为枢轴使用,那么您的算法将容易受到确定性序列的影响,这些序列可以将其简化为O(n2)行为.实际上有一篇关于这个的真正有趣的论文叫做McIlroy的“A Killer Adversary for Quicksort”,描述了你如何通过使用恶意比较函数来获取任何确定性快速排序并为其构建病态最坏情况输入.您几乎肯定希望在任何真正的快速实施中避免这种情况,因为否则恶意用户可以通过输入这些杀手序列来强制您的程序在二次时间内排序并因此挂起来对您的代码发起DoS攻击.另一方面,因为(d)随机选取其样本点,所以它不容易受到这种攻击,因为在任何序列上,枢轴的选择是随机的.

有趣的是,对于(d),虽然选择三个随机元素并取中位数并没有什么坏处,但你不需要这样做.早期的证据足以证明你可以通过一个随机的枢轴选择得到O(n lg n).我实际上不知道选择三个随机值的中位数是否会提高快速排序算法的性能,但是因为快速排序总是Ω(n lg n),所以它肯定不会比仅选择随机元素更渐进.支点.

我希望这有点帮助 – 我真的很喜欢快速排序算法和构建良好的快速排序实现所涉及的所有设计决策.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


本文从从Bitcask存储模型讲起,谈轻量级KV系统设计与实现。从来没有最好的K-V系统,只有最适合应用业务实际场景的系统,做任何的方案选择,要结合业务当前的实际情况综合权衡,有所取有所舍。
内部的放到gitlab pages的博客,需要统计PV,不蒜子不能准确统计,原因在于gitlab的host设置了strict-origin-when-cross-origin, 导致不蒜子不能正确获取referer,从而PV只能统计到网站的PV。 为了方便统计页面的PV,这里简单的写了一个java程
PCM 自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。 采样率 采样频率,也称为采样速度或者采样率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数
本文介绍如何离线生成sst并在线加载,提供一种用rocksdb建立分布式kv系统替换mongodb的思路
验证用户输入是否正确是我们应用程序中的常见功能。Spring提供了`@Valid`和@`Validated`两个注解来实现验证功能,本文详细介绍 [@Valid]和[@Validated]注解的区别 。
引入pdf2dom <dependency> <groupId>net.sf.cssbox</groupId> <artifactId>pdf2dom</artifactId> <version>1.8</version&
grafana 是一款非常优秀的可视化报表工具,有设计精良的可视化工具,今天来聊一聊如何将grafana集成到自己的应用中。 原理是: grafana允许iframe访问,开启auth.proxy, java 后端鉴权后代理grafana 前端通过iframe访问后端代理过的grafana graf
介绍 Call Graph是一款IDEA插件,用于可视化基于IntelliJ平台的IDE的函数调用图。 这个插件的目标是让代码更容易理解,有助于读懂和调试代码。当前只支持Java。针对Typescript、Javascript或Python工具,可以使用作者的另外一款工具Codemap(https:
原理 通过线程安全findAndModify 实现锁 实现 定义锁存储对象: /** * mongodb 分布式锁 */ @Data @NoArgsConstructor @AllArgsConstructor @Document(collection = "distributed-loc
Singleton 单例模式 单例模式是确保每个应用程序只存在一个实例的机制。默认情况下,Spring将所有bean创建为单例。 你用@Autowired获取的bean,全局唯一。 @RestController public class LibraryController { @Autowired
pipeline 分布式任务调度器 目标: 基于docker的布式任务调度器, 比quartzs,xxl-job 更强大的分布式任务调度器。 可以将要执行的任务打包为docker镜像,或者选择已有镜像,自定义脚本程序,通过pipeline框架来实现调度。 开源地址: https://github.c
python训练的模型,转换为onnx模型后,用python代码可以方便进行推理,但是java代码如何实现呢? 首先ONNX 推理,可以使用`onnxruntime` ```xml com.microsoft.onnxruntime onnxruntime 1.15.1 ``` 另外,训练的模型需要
要获取内网地址,可以尝试连接到10.255.255.255:1。如果连接成功,获取本地套接字的地址信息就是当前的内网IP。 python实现: ```python import socket def extract_ip(): st = socket.socket(socket.AF_INET, s
为什么要有索引 gremlin 其实是一个逐级过滤的运行机制,比如下面的一个简单的gremlin查询语句: g.V().hasLabel("label").has("prop","value") 运行原理就是: 找出所有的顶点V 然后过滤出
最近在分析一个应用中的某个接口的耗时情况时,发现一个看起来极其普通的对象创建操作,竟然每次需要消耗 8ms 左右时间,分析后发现这个对象可以通过对象池模式进行优化,优化后此步耗时仅有 0.01ms。
点赞再看,动力无限。Hello world : ) 微信搜「 程序猿阿朗 」。 本文 Github.com/niumoo/JavaNotes 和 未读代码网站 已经收录,有很多知识点和系列文章。 此篇文章介绍 Java JMX 技术的相关概念和具体的使用方式。 当前文章属于Java 性能分析优化系列
如何将Java JAR 转化为 win/mac/linux 独立可执行程序?不需要预装 JRE 运行?
点赞再看,动力无限。 微信搜「 程序猿阿朗 」。 本文 Github.com/niumoo/JavaNotes 和 未读代码博客 已经收录,有很多知识点和系列文章。 Java 19 在2022 年 9 月 20 日正式发布,Java 19 不是一个长期支持版本,直到 2023 年 3 月它将被 JD
点赞再看,动力无限。Hello world : ) 微信搜「 程序猿阿朗 」。 本文 Github.com/niumoo/JavaNotes 和 未读代码博客 已经收录,有很多知识点和系列文章。 前言 Java 反编译,一听可能觉得高深莫测,其实反编译并不是什么特别高级的操作,Java 对于 Cla
JSON 对于开发者并不陌生,如今的 WEB 服务、移动应用、甚至物联网大多都是以 **JSON** 作为数据交换的格式。学习 JSON 格式的操作工具对开发者来说是必不可少的。这篇文章将介绍如何使用 **Jackson** 开源工具库对 JSON 进行常见操作。