SSE指令介绍及其C、C++应用

2016-02-19 14:26 12 1 收藏

今天图老师小编给大家精心推荐个SSE指令介绍及其C、C++应用教程,一起来看看过程究竟如何进行吧!喜欢还请点个赞哦~

【 tulaoshi.com - 编程语言 】

  SSE是英特尔提出的即MMX之后新一代(当然是几年前了)CPU指令集,最早应用在PIII系列CPU上。现在已经得到了Intel PIII、P4、Celeon、Xeon、AMD Athlon、duron等系列CPU的支持。而更新的SSE2指令集仅得到了P4系列CPU的支持,这也是为什么这篇文章是讲SSE而不是SSE2的原因之一。另一个原因就是SSE和SSE2的指令系统是非常相似的,SSE2比SSE多的仅是少量的额外浮点处理功能、64位浮点数运算支持和64位整数运算支持。

  SSE为什么会比传统的浮点运算更快呢?因为它使用了128位的存储单元,这对于32位的浮点数来讲,是可以存下4个的,也就是说,SSE中的所有计算都是一次性针对4个浮点数来完成的,这种批处理当然就会带来效率的提升。我们再来回顾一下SSE的全称:Stream SIMD Extentions(流SIMD扩展)。SIMD就是single instruction multiple data,连起来就是“数据流单指令多数据扩展”,从名字我们就可以更好的理解SSE是如何工作的了。

  虽然SSE从理论上来讲要比传统的浮点运算会快,但是他所受的限制也很多,首先,虽然他执行一次相当于四次,会比传统的浮点运算执行4次的速度要快,但是他执行一次的速度却并没有想象中的那么快,所以要体现SSE的速度,必须有Stream做前提,就是大量的流数据,这样才能发挥SIMD的强大作用。其次,SSE支持的数据类型是4个32位(共计128位)浮点数集合,就是C、C++语言中的float[4],并且必须是以16位字节边界对齐的(稍后会以代码来进行阐释,关于边界对齐的概念,读者可以参考论坛上的其它文章,都会有很详细的解答,我这里就恕不赘述了)。因此这也给输入和输出带来了不少的麻烦,实际上主要影响SSE发挥性能的就是不停的对数据进行复制以适用应它的数据格式。

  我是一个C++程序员,对汇编并不很熟,但我又想用SSE来优化我的程序,我该怎么做呢?幸好VC++.net为我们提供了很方便的指令C函数级的封装和C格式数据类型,我们只需像平时写C++代码一样定义变量、调用函数就可以很好的应用SSE指令了。

  当然了,我们需要包含一个头文件,这里面包括了我们需要的数据类型和函数的声明:

 #include xmmintrin.h 

  SSE运算的标准数据类型只有一个,就是:

__m128,它是这样定义的:

 typedef struct __declspec(intrin_type) __declspec(align(16)) __m128 {

   float m128_f32[4];

} __m128;
 

  简化一下,就是:

 struct __m128

{

   float m128_f32[4];

}; 

  比如要定义一个__m128变量,并为它赋四个float整数,可以这样写:

 __m128 S1 = { 1.0f, 2.0f, 3,0f, 4,0f };
 
  要改变其中第2个(基数为0)元素时可以这样写:

 S1.m128_f32[2] = 6.0f; 

  令外我们还会用到几个赋值的指令,它可以让我们更方便的使用这个数据结构:

 S1 = _mm_set_ps1( 2.0f ); 

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/bianchengyuyan/)

  它会让S1.m128_f32中的四个元素全部赋予2.0f,这样会比你一个一个赋值要快的多。

 S1 = _mm_setzero_ps(); 

  这会让S1中的所有4个浮点数都置零。

  还有一些其它的赋值指令,但执行起来还没有自己逐个赋值来的快,只做为一些特殊用途,如果你想了解更多的信息,可以参考MSDN - VisualC++参考 - C/C++Language - C++Language Reference - Compiler Intrinsics - MMX, SSE, and SSE2 Intrinsics - Stream SIMD Extensions(SSE)章节。

  一般来讲,所有SSE指令函数都有3个部分组成,中间用下划线隔开:

 _mm_set_ps1 

  mm表示多媒体扩展指令集

  set表示此函数的含义缩写

  ps1表示该函数对结果变量的影响,由两个字母组成,第一个字母表示对结果变量的影响方式,p表示把结果做为指向一组数据的指针,每一个元素都将参与运算,S表示只将结果变量中的第一个元素参与运算;第二个字母表示参与运算的数据类型。s表示32位浮点数,d表示64位浮点数,i32表示32位定点数,i64表示64位定点数,由于SSE只支持32位浮点数的运算,所以你可能会在这些指令封装函数中找不到包含非s修饰符的,但你可以在MMX和SSE2的指令集中去认识它们。

  接下来我举一个例子来说明SSE的指令函数是如何使用的,必须要说明的是我以下的代码都是在VC7.1的平台上写的,不保证对其它如Dev-C++、Borland C++等开发平台的完全兼容。

  为了方便对比速度,我会用常归方法和SSE优化两种写法写出,并会用一个测试速度的类CTimer来进行计时。

  这个算法是对一组float值进行放大,函数ScaleValue1是使用SSE指令优化的,函数ScaleValue2则没有。我们用10000个元素的float数组数据来测试这两个算法,每个算法运算10000遍,下面是测试程序和结果:

 #include xmmintrin.h

#include windows.h 

 class CTimer

{

public:

       __forceinline CTimer( void )

       {

              QueryPerformanceFrequency( &m_Frequency );

              QueryPerformanceCounter( &m_StartCount );

       }

       __forceinline void Reset( void )

       {

              QueryPerformanceCounter( &m_StartCount );

       }

       __forceinline double End( void )

       {

              static __int64 nCurCount;

              QueryPerformanceCounter( (PLARGE_INTEGER)&nCurCount );

              return double( nCurCount * ( *(__int64*)&m_StartCount ) ) / double( *(__int64*)&m_Frequency );

       }

private:

       LARGE_INTEGER m_Frequency;

       LARGE_INTEGER m_StartCount;

};

void ScaleValue1( float *pArray, DWORD dwCount, float fScale )

{

       DWORD dwGroupCount = dwCount / 4;

       __m128 e_Scale = _mm_set_ps1( fScale );

       for ( DWORD i = 0; i dwGroupCount; i++ )

       {

              *(__m128*)( pArray + i * 4 ) = _mm_mul_ps( *(__m128*)( pArray + i * 4 ), e_Scale );

       }

}

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/bianchengyuyan/)

void ScaleValue2( float *pArray, DWORD dwCount, float fScale )

{

       for ( DWORD i = 0; i dwCount; i++ )

       {

              pArray[i] *= fScale;

       }

}

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/bianchengyuyan/)

#define ARRAYCOUNT 10000

int __cdecl main()

{

       float __declspec(align(16)) Array[ARRAYCOUNT];

       memset( Array, 0, sizeof(float) * ARRAYCOUNT );

       CTimer t;

       double dTime;

       t.Reset();

      for ( int i = 0; i 100000; i++ )

       {

              ScaleValue1( Array, ARRAYCOUNT, 1000.0f );

       }

       dTime = t.End();

       cout "Use SSE:" dTime "秒" endl;

       t.Reset();

       for ( int i = 0; i 100000; i++ )

       {

              ScaleValue2( Array, ARRAYCOUNT, 1000.0f );

       }

       dTime = t.End();

       cout "Not Use SSE:" dTime "秒" endl;

       system( "pause" );

       return 0;

}

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/bianchengyuyan/)

Use SSE:0.997817

Not Use SSE:2.84963

  这里要注意一下,我使用了__declspec(align(16))做为数组定义的修释符,这表示该数组是以16字节为边界对齐的,因为SSE指令只能支持这种格式的内存数据。

  我们在这里看到了SSE算法的强大,相信它会成为多媒体程序员手中用来对付无穷尽流媒体数据的一把利剑。我后面还会写一些关于SSE算法更复杂应用的文章,敬请关注,感谢您抽时间阅读!

来源:http://www.tulaoshi.com/n/20160219/1606965.html

延伸阅读
到目前为止,看到的递归函数都是直接调用自己。虽然大多数的递归函数都符合这一形式,但其实递归的定义更为广泛,如果某个函数被细分成了几个子函数,那么可以在更深的嵌套层次上应用递归调用。例如:如果函数 f 调用函数 g ,而函数 g 反过来又调用函数 f ,这些函数的调用仍然被看作是递归。这种类型的 递归被成为交互递归 下面通过判断一个...
    作者:伊利贵 张虹 2001年01月05日 14:48 现在,对于一个正在进行项目开发的公司来说,选择一门Windows下的开发语言已经不再像以前那么容易。C++曾经是商业开发最好的选择,但是现在,开发者们已经没有时间,也没有耐心一遍遍重复“编写代码——编译——排错”这样一个无休止的循环,也不再想去一次次地修补多年前编制...
下面的是学C++时要注重的。 1.把C++当成一门新的语言学习(和C没啥关系!真的。); 2.看《Thinking In C++》,不要看《C++变成死相》; 3.看《The C++ Programming Language》和《Inside The C++ Object Model》,不要因为他们很难而我们自己是初学者所以就不看; 4.不要被VC、BCB、BC、MC、TC等词汇所迷惑——他...
Stephan Lavavej提出了一个非常有趣也很尖锐的问题:“C++的未来在哪里?” 这个问题是有解的。没有哪个语言会成为永恒,不是吗?(尽管C语言现在依旧生气勃勃)我不希望C++在2017年,或者甚至在2057年也依然那么有活力。在计算机行业,50年已经是一个几乎不可思议的时间了;虽然到今年为止,晶体管已有60年的历史。所以,在我问“C++的未来在哪...
    富有活力的语言需要不断改变和成长,C++也不例外。在本文中,Bjarne Stroustrup提出了自己对C++的设计和演化的看法。 !-- frame contents -- !-- /frame contents -- 为了让编译器、工具和类库实现者跟上节奏,让用户吸收标准C++所支持的编程技术,在早有预计的、沉寂了几年之后,委员会再次考虑...

经验教程

544

收藏

57
微博分享 QQ分享 QQ空间 手机页面 收藏网站 回到头部