Algorithm 版 (精华区)

发信人: zjliu (fly), 信区: Algorithm
标  题: SP上程序并行实现两种方式的比较
发信站: 哈工大紫丁香 (Sat Jun 22 22:20:22 2002) , 转信

发信人: pink (为了老板一句话), 信区: HPC
标  题: SP上程序并行实现两种方式的比较
发信站: 南京大学小百合站 (Sat Jun 22 15:48:36 2002), 站内信件

为了满足数值预报发展的需要,国家气象中心引进了IBM公司生产的新的SP计算机。SP计
算机是
共享主存的分布式计算机,节点内采用共享主存,节点间采用分布式主存。国家气象中心

安装的
SP计算机共带有10个计算节点、2个I/O节点,每个计算节点上有8个CPU,系统峰值速度达

76GFLOPS,
内存总量26GB。系统软件包括并行操作环境,提供两级并行化工具:基于共享主存的并行

软件
Open MP和基于消息传递(分布式主存)的并行软件MPI、PVM。
为了有效利用SP计算机提供的计算资源,了解SP上Open MP和MPI并行情况,我们用有限区

分析系统
进行了一点测试。有限区分析程序的并行实现相当简单,其并行计算方案采用传统的区域

划分方法,
对分析区域的经纬度进行等分,将整个分析区域分成若干个子区域,分配到不同的计算处

理器上进
行计算。目前有限区分析并行程序已实现基于Open MP和MPI的双重并行,可进行节点内并

行、节点
间并行以及两者的混合并行计算,可自由选择计算所需的处理机数目。
按照程序并行方式的不同,分别给出下列各表,其中表一、表二使用同一计算节点测试,

标  题: SP上程序并行实现两种方式的比较
发信站: 南京大学小百合站 (Sat Jun 22 15:48:36 2002), 站内信件

为了满足数值预报发展的需要,国家气象中心引进了IBM公司生产的新的SP计算机。SP计
算机是
共享主存的分布式计算机,节点内采用共享主存,节点间采用分布式主存。国家气象中心

安装的
SP计算机共带有10个计算节点、2个I/O节点,每个计算节点上有8个CPU,系统峰值速度达

76GFLOPS,
内存总量26GB。系统软件包括并行操作环境,提供两级并行化工具:基于共享主存的并行

软件
Open MP和基于消息传递(分布式主存)的并行软件MPI、PVM。
为了有效利用SP计算机提供的计算资源,了解SP上Open MP和MPI并行情况,我们用有限区

分析系统
进行了一点测试。有限区分析程序的并行实现相当简单,其并行计算方案采用传统的区域

划分方法,
对分析区域的经纬度进行等分,将整个分析区域分成若干个子区域,分配到不同的计算处

理器上进
行计算。目前有限区分析并行程序已实现基于Open MP和MPI的双重并行,可进行节点内并

行、节点
间并行以及两者的混合并行计算,可自由选择计算所需的处理机数目。
按照程序并行方式的不同,分别给出下列各表,其中表一、表二使用同一计算节点测试,

表中线程
数指Open MP使用的CPU数目,任务数指单节点上MPI使用的CPU数:

表一:一个节点上用Open MP并行(单位 秒)
线程数 时间
1
2
4
6
8
时间
2113.9
1127.9
686.5
502.0
438.8

表二:一个节点上用MPI并行(单位 秒)
任务数
1
2
4
表中线程
数指Open MP使用的CPU数目,任务数指单节点上MPI使用的CPU数:

表一:一个节点上用Open MP并行(单位 秒)
线程数 时间
1
2
4
6
8
时间
2113.9
1127.9
686.5
502.0
438.8

表二:一个节点上用MPI并行(单位 秒)
任务数
1
2
4
6
8
时间
1764.8
963.8
584.4
424.0
394.4

表三:外循环用Open MP并行,内循环用MPI并行(单位 秒,每个节点上使用一个MPI任务

线程数
节点数
1
2
4
6
8
1
2094.2
1107.6
678.4
493.6
6
8
时间
1764.8
963.8
584.4
424.0
394.4

表三:外循环用Open MP并行,内循环用MPI并行(单位 秒,每个节点上使用一个MPI任务

线程数
节点数
1
2
4
6
8
1
2094.2
1107.6
678.4
493.6
427.4
2
1142.3
640.7
425.2
322.2
260.7
4
662.9
394.2
263.1
200.6
170.5
6
460.0
290.5
191.9
166.3
130.3
8
391.5
237.8
427.4
2
1142.3
640.7
425.2
322.2
260.7
4
662.9
394.2
263.1
200.6
170.5
6
460.0
290.5
191.9
166.3
130.3
8
391.5
237.8
161.9
131.2
117.7
表四:外循环用MPI并行,使用多个节点、多个CPU(单位 秒)
任务数
节点数
1
2
4
6
8
1
1787.3
945.2
575.3
422.9
344.1
2
954.2
574.8
334.4
249.0
161.9
131.2
117.7
表四:外循环用MPI并行,使用多个节点、多个CPU(单位 秒)
任务数
节点数
1
2
4
6
8
1
1787.3
945.2
575.3
422.9
344.1
2
954.2
574.8
334.4
249.0
239.7
4
579.9
328.1
223.6
156.8
143.8
6
421.7
242.1
154.1
135.7
122.9
8
329.3
210.3
141.0
118.6
103.9

由于有限区分析并行程序通讯开销很小,以上所有测试均使用IP协议。
从测试中可以看出:Open MP编程比较容易,但在相同条件下系统开销较MPI大。为了较好

239.7
4
579.9
328.1
223.6
156.8
143.8
6
421.7
242.1
154.1
135.7
122.9
8
329.3
210.3
141.0
118.6
103.9

由于有限区分析并行程序通讯开销很小,以上所有测试均使用IP协议。
从测试中可以看出:Open MP编程比较容易,但在相同条件下系统开销较MPI大。为了较好

使用Open MP和MPI,应对并行程序方案进行详细的分析、综合、选择。

--
努力提高中华民族的整体素质是每一位炎黄子孙的责任

※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.119.52.117]




--

※ 来源:.哈工大紫丁香 http://bbs.hit.edu.cn [FROM: 202.118.229.86]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.079毫秒