c – 装配性能调整

我正在编写一个编译器(比别的更有趣),但是我想尝试尽可能的高效.例如,我被告知,在英特尔架构上,使用除EAX之外的任何注册表进行数学计算会产生一个代价(大概是因为它交换到EAX来做实际的数学计算).这里至少有一个来源说明了可能性(http://www.swansontec.com/sregisters.html).

我想验证和测量这些性能特征的差异.所以我写了这个程序在C:

#include "stdafx.h"
#include <intrin.h>
#include <iostream>

using namespace std;

int _tmain(int argc,_TCHAR* argv[])
{
    __int64 startval;
    __int64 stopval;
    unsigned int value; // Keep the value to keep from it being optomized out

    startval = __rdtsc(); // Get the CPU Tick Counter using assembly RDTSC opcode

    // Simple Math: a = (a << 3) + 0x0054E9
    _asm {
        mov ebx,0x1E532 // Seed
        shl ebx,3
        add ebx,0x0054E9
        mov value,ebx
    }

    stopval = __rdtsc();
    __int64 val = (stopval - startval);
    cout << "Result: " << value << " -> " << val << endl;

    int i;
    cin >> i;

    return 0;
}

我尝试这个代码交换eax和ebx,但我没有得到一个“稳定”的数字.我希望测试是确定性的(每次都是同一个数字),因为它的测试很短,因此在测试过程中不太可能发生上下文切换.因为它没有统计学差异,但数字如此波动,所以不可能做出这个决定.即使我拿了大量样本,这个数字仍然是不可能变化的.

我也想测试xor eax,eax vs mov eax,但有同样的问题.

有没有办法在Windows(或其他任何地方)进行这些类型的性能测试?当我习惯为我的TI-Calc编程Z80时,我有一个工具,我可以选择一些程序集,它会告诉我执行代码有多少个时钟周期 – 这可以不用我们的新风格的现代处理器吗?

编辑:有很多答案表明运行循环百万次.要澄清,这实际上使事情变得更糟. CPU更可能进行上下文切换,测试成为关于所有内容的一切,但我正在测试.

解决方法

为了甚至希望在RDTSC给出的水平上具有可重复性,确定性的时序,您需要采取一些额外的步骤.首先,RDTSC不是一个串行化指令,所以它可以按顺序执行,通常会在上面的代码段中使其无意义.

你通常想使用串行化指令,然后使用RDTSC,然后是有问题的代码,另一个串行化指令和第二个RDTSC.

在用户模式下几乎只有可用的序列化指令是CPUID.然而,这又增加了一个小小的皱纹:IntelID记录了CPUID需要不同的执行时间 – 前两个执行速度可能比其他更慢.

因此,您的代码的正常计时顺序将是这样的:

XOR EAX,EAX
CPUID
XOR EAX,EAX
CPUID            ; Intel says by the third execution,the timing will be stable.
RDTSC            ; read the clock
push eax         ; save the start time
push edx

    mov ebx,0x1E532 // Seed // execute test sequence
    shl ebx,3
    add ebx,0x0054E9
    mov value,ebx

XOR EAX,EAX      ; serialize
CPUID   
rdtsc             ; get end time
pop ecx           ; get start time back
pop ebp
sub eax,ebp      ; find end-start
sbb edx,ecx

我们开始接近,但最后一点很难处理在大多数编译器上使用内联代码:还可能会从跨越缓存行中产生一些影响,因此您通常希望强制将代码与16对齐字节(段)边界.任何体面的汇编程序都会支持,但编译器中的内联汇编通常不会.

说完这一切,我想你在浪费你的时间.你可以猜到,我在这个级别做了相当数量的时间安排,我相当肯定你听说过的是一个完全的神话.实际上,所有最近的x86 CPU都使用一套所谓的“重命名寄存器”.为了缩短故事时间,这意味着您用于注册表的名称并不重要 – CPU对于实际操作使用了更大的一组寄存器(例如,英特尔约为40个),因此在EBX与EAX中放置一个值对于CPU在内部真正使用的寄存器几乎没有影响.可以映射到任何重命名寄存器,主要取决于哪个重命名寄存器在指令序列启动时恰好是空闲的.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读315次。之前用C语言编过链表,这几天突然想用C++编一下链表,搞了大半天才搞出来,所以就赶紧整理一下记录下来,省的万一时间长了找不到代码哈哈。一、链表代码1、Node.h文件代码#pragma onceclass Node{public: int ID; char alph; Node* next; Node(int ID,char alph); ~Node();private:..._if(current->id==id)
文章浏览阅读219次。碰到问题就要记录下来,防止遗忘吧。文章目录一、VS中的命令行参数二、内联函数和宏三、初始化和赋值一、VS中的命令行参数今天在运行代码的时候,碰都了下面的情况: // 解析命令行参数 if (pcl::console::find_argument (argc, argv, "-h") >= 0) { printUsage (argv[0]); return 0; }..._"if (pcl::console::find_argument(argc, argv, "-f") >= 0)怎么输入参数"
文章浏览阅读1.8k次,点赞11次,收藏37次。因为自己对决策树的机制非常的好奇,所以就研究了一下决策树的ID3算法,在这也做一篇笔记记录一下过程。文章目录一、什么是决策树?二、信息增益2.1信息熵2.1.1定义2.1.2演变2.2信息增益三、ID3算法实现四、小结一、什么是决策树?这个问题是我从一开始就有的疑问,什么是决策树?在看了一些资料之后,因为没有看到书上给出具体定义,所以按照我自己的理解决策树就是通过一个个“决策”而构建的一种树状结构,而且决策树的整个处理机制非常类似于我们人类在面临决策问题时的处理机制,这也可能就是其名字的由来。决_c++id3
文章浏览阅读492次。C++ 设计模式之策略模式
文章浏览阅读683次。我也算是个C++的小白,对于C++中的谓语我第一时间就想到了C#中的委托,但两者又不尽相同,所以想写一篇笔记记录一下。文章目录一、什么是谓语?二、使用谓语一、什么是谓语?谓语是一个可调用的表达式,其返回的结果可以作为条件的值,在C++中其实就是向算法传递函数。这和C#中的委托的概念其实是一样的,都是将函数作为参数进行传递。C++标准库中的谓语主要有两类:一元谓语和二元谓语,也就是有的算法只能..._谓语句 c++
文章浏览阅读225次。又看了一遍操作符的东西,感觉之前对操作符的理解还停留在很浅的认知上(仅仅会用哈哈),所以做一下笔记来加深一下印象。文章目录一、为什么会有操作符重载?二、操作符重载作用的对象一、为什么会有操作符重载?如果要回答这个问题,我们其实应该仔细想一下如果没有操作符重载会怎样呢?这其实很容易就联想到了C语言,因为他就没有操作符重载这一说。虽然C语言中没有类class这一概念,但是他有着和类及其相似的结构..._6-6 我的朋友 - c/c++ 操作符重载分数 15作者 海洋饼干叔叔单位 重庆大学实现frie
文章浏览阅读216次。因为之前碰到了很多关于C++上的问题,现在整理并记录一下。文章目录一、引用一、引用在C++中,引用就是给对象起了另一个名字,也就是“对象别名”。感觉和什么东西很相似,仔细一想不就是类型别名“typedef”吗哈哈。它其实是和原对象形成了一种绑定的一种关系,..._vc++6.0报错:returning address of local
文章浏览阅读565次。因为一直好奇预处理器的工作机制,所以就查了查书,做一下自己看完书之后的笔记。文章目录一、预处理器的作用一、预处理器的作用_c语言预处理器作用
文章浏览阅读1.8k次,点赞3次,收藏10次。最近特别查阅了一下关于C++文件的输入/输出的资料,整理了一下就写一下笔记。文章目录一、什么是流二、什么是缓冲区三、代码实现文件IO3.1 使用文件流对象读取数据3.2重定向一、什么是流当前的计算机具有很多种设备,但是无论是哪种设备都要与数据和信息进行打交道,所以这就牵扯到设备与数据之间的I/O操作。而每种设备又有着不同的特性和操作协议,由于过于复杂,所以我们一般是不会和这些通信细节打交道的..._c++ inpath
文章浏览阅读4.8k次,点赞6次,收藏29次。因为要使用到C++的动态链接库,所以就特意网上找了一下资料实现了一下。文章目录一、lib与dll文件二、创建dll文件三、dll隐式链接四、显式链接五、小结一、lib与dll文件之前我一直以为动态链接库就是指dll文件,这也是C#给我造成的一种印象,因为在C#中建立的类库文件都是dll文件,而且只要简单引用就可以了,但是C++却并不是这样的,这可能是因为C#隐藏了一些细节的缘故吧。在C++中共有两种库模式,一种是包含lib和dll两种文件,这种情况下其中的lib文件包含了函数所在的dll文件和dl_c++调用动态链接库
文章浏览阅读973次。因为遇到了一这个操作符的问题,所以记录一下出现的问题*~*。一、问题描述二、产生原因因为也是第一次出现这个问题,所以就到网上查了一些资料和书籍,现在倒也大概理解这个错误出现的原因了。有时候举个例子可能更容易理解为啥会出现这个错误,就拿一本书中的例子来说一下,如下所示:template<class T> class NamedObject { public: NamedObject(std::string& nameVal, const T objectVal) __copy_assign报错
C语言中的单向链表可以解决数组和结构体在使用时的内存连续性问题,同时还能动态地调整长度。本文介绍了单向链表的结构和基本操作,并给出了一个简单的示例代码。
文章浏览阅读2.3k次。区分'0'、"0"、0、''_0和
文章浏览阅读5.8k次,点赞4次,收藏8次。C语言函数指针详解,微剖本质_c语言指针函数
数组指针和指针数组是代码中常见的定义形式。虽然它们的语法类似,但含义完全不同。对于一维数组而言,数组名即为首元素的地址,不需要取址即可赋值给指针。而对于二维数组,数组名代表首行元素的地址,可以看作是一个指针数组,需要使用取址操作。
文章浏览阅读297次。总结刚入门的新同学C语言编程常见的低级错误
文章浏览阅读1.5w次,点赞12次,收藏70次。C语言 数组指针详解_c语言数组指针
文章浏览阅读306次。cJson常用接口总结并测试_用于测试的json接口
本篇文章和大家了解一下C语言中pthread_exit()函数实现终止线程的方法。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。多线程编程中,线程...
本教程操作系统:windows10系统、c99版本、DELL G3电脑。 C语言是一门强大的编程语言,它允许我们对不同的数据类型进行各种运算和操作。但是有时候,我们需要将一个数据类型转换为另一个数据类型。这就是强制类型转