西电新技术讲座课程大作业-并行核外矩量法

合集下载

并行核外高阶矩量法分析机载天线受扰特性

第14卷第6期太赫兹科学与电子信息学报Vo1．14，No．6 2016年12月 Journal of Terahertz Science and Electronic Information Technology Dec．，2016文章编号：2095-4980(2016)06-0910-04并行核外高阶矩量法分析机载天线受扰特性左胜，李艳艳，张玉(西安电子科技大学天线与微波技术重点实验室，陕西西安 710071)摘要：利用核外算法，将计算机硬盘动态的纳入矩量法求解过程打破内存的限制，同时采用并行计算技术加速矩量法的求解过程。

通过某飞机的双站雷达散射截面(RCS)计算，验证了核外算法的正确性。

最后，将并行核外高阶矩量法用于机载伞形印刷振子天线阵列辐射特性分析，结果表明，该方法可充分利用计算机的硬盘，扩大矩量法可求解问题的规模。

关键词：高阶矩量法；核外算法；硬盘；机载天线中图分类号：TN820文献标志码：A doi：10.11805/TKYDA201606.0910Analysis of the disturbed characteristics of airborne antenna using theparallel out-of-core higher-order MoMZUO Sheng，LI Yanyan，ZHANG Yu(National Key Laboratory of Antennas and Microwaves Technology，Xidian University，Xi’an Shaanxi 710071，China)Abstract：The out-of-core algorithm which dynamically adds hard disks to the solving process of moments(MoM) is utilized to break the memory limitation, and the parallel computing technique is adoptedto accelerate the solving process of MoM. The computation of aircrafts’ bistatic Radar Cross-Section(RCS)verifies the validity of out-of-core algorithm. The parallel out-of-core higher-order MoM is utilized toanalyze the radiation characteristics of airborne umbrella printing oscillator antenna array. The resultsshow that the method can extend the scale of the problems that can be solved by using MoM through takingfull advantages of computers’ hard disks.Keywords：higher-order MoM；out-of-core algorithm；hard disks；airborne antenna飞机平台对所安装的各种天线的电磁特性会造成显著影响，如天线增益降低、波束指向漂移、波束宽度变化、副瓣电平增大等指标恶化[1]，进而影响天线的正常工作。

深腾1800系统MPI并行矩量法分析线天线

深腾1800系统MPI并行矩量法分析线天线
刘洋;陈国春
【期刊名称】《山西电子技术》
【年(卷),期】2009(000)001
【摘要】针对目前用矩量法分析电大尺寸物体的辐射和散射时,计算量过大,耗时太长,使分析与优化遇到实质性的困难.研究MPI结合矩量法的并行技术,用并行雅可比迭代法求解矩量法矩阵方程的并行实现过程,测试了其在深腾1800系统中并行矩量法的性能.
【总页数】2页(P43-44)
【作者】刘洋;陈国春
【作者单位】兰州交通大学,电子与信息工程学院,甘肃,兰州,730070;兰州交通大学,电子与信息工程学院,甘肃,兰州,730070
【正文语种】中文
【中图分类】TN82
【相关文献】
1.线天线矩量法分析中积分方程的选取 [J], 刘建厂
2.PC集群MPI并行矩量法研究复杂目标的电磁散射 [J], 郭立新;王安琪;韩旭彪
3.PC集群MPI并行矩量法分析复杂平台多天线特性 [J], 张玉;王楠;梁昌洪
4.PC集群系统中MPI并行矩量法研究 [J], 张玉;王萌;梁昌洪;谢拥军
5.MPI并行矩量法计算二维粗糙面波束电磁散射 [J], 郭立新;麻军;王蕊;刘晓勇
因版权原因，仅展示原文概要，查看原文内容请购买。

一种可扩展异构并行核外高阶矩量法研究_左胜_陈岩_张玉_赵勋旺_林中朝

2017 年 2 月第 44 卷第 1 期西安电子科技大学学报（自然科学版） JOURNAL OF XIDIAN UNIVERSITYFeb.2017 Vol.44 No.1doi：10.3969/j.issn.1001-2400.2017.01.026一种可扩展异构并行核外高阶矩量法研究左胜，陈岩，张玉，赵勋旺，林中朝(西安电子科技大学天线与微波技术重点实验室，陕西西安 710071）摘要：为了实现异构并行矩量法可跨节点，研究了 CPU/GPU 与 CPU/MIC 分布式异构平台上矩量法并行编程模型。

利用 GPU 通用编程标准 CUDA 中提供的 CONTEXT 技术、 MIC 中环境变量的概念，提出了一种适用于 CPU/GPU 与 CPU/MIC 的通用异构并行编程模型，满足了异构并行矩量法可跨节点对静态负载均衡的要求。

数值结果表明，基于该并行编程模型设计的异构并行矩量法程序，可获得理想的加速比并具有良好的可扩展性。

关键词：矩量法；异构平台；并行编程模型；可扩展性中图分类号：TN820 文献标识码：A 文章编号：1001-2400(2017)01-0160-07Study of scalable heterogeneous parallel out-of-core higher order method of momentsZUO Sheng, CHEN Yan, ZHANG Yu, ZHAO Xunwang, LIN Zhongchao(National Key Laboratory of Antennas and Microwaves Technology, Xidian Univ., Xi’an 710071, China) Abstract: To achieve the across-nodes technology of heterogeneous parallel method of moments (MoM), a parallel MoM programming model is studied on CPU/GPU and CPU/MIC heterogeneous platforms. By utilizing the CONTEXT technology in CUDA which is the GPU common programming criterions, and the concept of environment variables in MIC, a general heterogeneous parallel programming model for CPU/GPU and CPU/MIC is proposed, which meets the static load-balancing for the across-nodes heterogeneous parallel MoM. Numerical results show that the heterogeneous parallel MoM codes based on the proposed parallel programming model can obtain ideal speedup and good scalability. Key Words: method of moments; heterogeneous platforms; parallel programming model; scalabilityCPU（Central Processing Unit，中央处理器）/GPU（Graphic Processing Unit，图形处理器）[1]异构矩量法是国内外研究的一个热点问题，近年来，陆续有一些相关的研究成果发布。

计算电磁学中的超大规模并行矩量法

计算电磁学中的超大规模并行矩量法超大规模并行矩量法是一种在电磁学领域中用于求解大规模问题的数值计算方法。

它基于矩量法的基本原理，利用并行计算的优势，可以高效地求解复杂的电磁问题。

电磁学是研究电磁场与电磁波传播规律的学科，广泛应用于通信、雷达、天线设计等领域。

在电磁学中，我们常常需要求解电磁场在空间中的分布和传播特性。

然而，由于电磁问题的复杂性，传统的解析方法往往难以求得精确的解，因此数值计算方法成为解决电磁问题的有效手段之一。

矩量法是一种常用的数值计算方法，它将电磁问题转化为求解矩量方程组的问题。

矩量法的基本思想是将电磁场分解为一系列基函数的线性组合，并通过求解线性方程组得到基函数的系数。

然后利用这些系数可以计算任意位置的电磁场分布。

然而，随着电磁问题的规模不断增大，传统的矩量法在计算效率和存储需求方面面临着巨大的挑战。

为了解决这一问题，超大规模并行矩量法应运而生。

超大规模并行矩量法通过利用并行计算的能力，将电磁问题划分为多个子问题，并在不同的计算节点上同时求解。

这种并行计算的方法大大提高了计算效率，使得可以处理更加复杂的电磁问题。

在超大规模并行矩量法中，通常采用的是分域矩量法。

它将整个计算区域划分为多个小区域，每个小区域对应一个计算节点。

然后在每个小区域内使用矩量法求解局部电磁场分布，再利用边界条件将各个小区域的解耦合起来。

这样，就可以通过协调各个计算节点的计算结果，得到整个计算区域的电磁场分布。

为了实现超大规模并行矩量法，需要借助高性能计算平台和并行计算技术。

高性能计算平台可以提供大量的计算资源和存储空间，以满足超大规模电磁问题的计算需求。

而并行计算技术则可以将计算任务划分为多个子任务，并在多个计算节点上同时进行计算，从而提高计算效率。

超大规模并行矩量法是一种在电磁学中用于求解大规模问题的数值计算方法。

它通过利用并行计算的能力，将电磁问题划分为多个子问题，并在不同的计算节点上同时求解，从而提高了计算效率。

大规模并行 RW G矩量法矩阵填充优化

大规模并行 RW G矩量法矩阵填充优化
陈岩;张玉;王永;赵勋旺;林中朝
【期刊名称】《西安电子科技大学学报（自然科学版）》
【年(卷),期】2016(043)005
【摘要】针对并行RWG矩量法进程间冗余积分问题，通过优化网格编号提出了一种高效的并行矩阵填充方案。

在矩阵块循环分布并行策略基础上，对三角形公共边进行重新编号，使得需要相同三角形积分的矩阵元素分布在同一进程上，从而大幅度地减少进程间的冗余积分计算。

数值结果表明，该并行矩阵填充方案消除了绝大部分的进程间冗余积分，提高了并行矩阵填充的效率。

【总页数】6页(P46-51)
【作者】陈岩;张玉;王永;赵勋旺;林中朝
【作者单位】西安电子科技大学天线与微波技术重点实验室，陕西西安 710071;西安电子科技大学天线与微波技术重点实验室，陕西西安 710071;西安电子科技大学天线与微波技术重点实验室，陕西西安 710071;西安电子科技大学天线与微波技术重点实验室，陕西西安 710071;西安电子科技大学天线与微波技术重点实验室，陕西西安 710071
【正文语种】中文
【中图分类】TN820
【相关文献】
1.大规模并行高阶矩量法的容错算法研究 [J], 陈岩;林中朝;张玉;赵勋旺
2.基于全级C阶矩模型并行流数预测的广域大数据吞吐量优化 [J], 李芝;龙敏
3.基于KNL众核处理器平台的并行矩量法性能优化 [J], 顾宗静;赵勋旺;刘莹玉;林中朝;张玉;赵玉萍
4.基于国产众核超级计算机的6×105核并行矩量法 [J], 顾宗静;吴昊翔;赵勋旺;林中朝;张玉;张崎
5.电大尺寸复杂目标散射问题的并行矩量法分析 [J], 韩星星
因版权原因，仅展示原文概要，查看原文内容请购买。

MPI并行矩量法计算二维粗糙面波束电磁散射

ＣａｃｌｔｏｆＥＭａｃｔｅｉｇｆｏｗｏｄｉｅｓｏａｏｇｕｆｃｙｌｕａｉｎｏｂｅｍｓａｔｒｎｒｍｔ — ｍｎｉｎｌｒｕｈｓｒａｅｂｐｒｌｅｏＭｓｄｏＰＩｐｌｔｏｍａａｌｌＭｂａｅｎＭａｆｒ
ＧＵｏ — ｉＩｉｘｎ，ＭＡｎ，ＷＡＮＧｉＩＸｉｏｙｎＪｕＲｕ，ＬＵａ — ｏｇ
（ｃｏｌＪＳｉｎｅＳｈｏ ’ ｃｅｃ，ＸｉｉｎＵｎｖｏｄａｉ．，Ｘｉｎ７０７ ’ １０１，Ｃｈｎ）ｉａ
Ａｂｔａｔｓｒｃ：Ｆｉｉｅｉｐｌｅｒｓｏｓ（Ｒ）ｆｔｒｔｅｒｎａｔＦｏｒｅｒｎｆｒｍｅｈｄａｅｆｓｌｐｌｄｎｔｍｕｓｅｐｎｅＦＩｉｅｈｏｙａｄｆｓｕｉｒｔａｓｏｍｔｏｒｉｔｙａｐｉｌｒｅ
第３２卷
第９期
系统工程与电子技术
ＳｙｓｅｓＥｎｇｉｅｉｇａｅｔｏｃｔｍｎｅｒｎｎｄＥｌｃｒｎｉｓ
Ｖｏ１．３２ＮＯ．９Ｓｅｅｂｅ０１ｐｔｍｒ２０
２１ＯＯ年９月
文章编号：０１５６２１）９１４５１００Ｘ（０００～８１０
关键词：无线电物理；电磁散射；矩量法；糙面；并行计算；Ｐ集群；息传递接口粗Ｃ信
中图分类号：Ｔ１Ｎ０１文献标志码：ＡＤ：０３６／．ｓｎ１００Ｘ．０００．２ｏＩ１．９９ｊｉ．０卜５６２１．９１ｓ

西安电子科技大学雷达对抗原理第一次大作业

雷达对抗原理大作业学校：西安电子科技大学专业：信息对抗指导老师：魏青学号/ 学生：雷达侦查中的测频介绍与仿真如今，战争的现代水平空前提高，电子战渗透到战争的各个方面。

军事高技术的发展，使电子对抗的范围不断扩大，并逐步突破了原有的战役战斗范畴，扩展到整个战争领域。

海湾战争、科索沃战争、阿富汗战争、伊拉克战争和最近的利比亚战争都表明，电子对抗在现代战争中有着极其重要的作用。

电子对抗不仅在战时大量使用，在和平时期侦察卫星、侦察飞机、侦察船和地面侦察站不停地监视着对方的电磁辐射，以探明阵地布置、军事集结和调动；也不断收集对方电磁设备的性能参数，以期在战前进行模拟的对抗试验，确保在战争中有效地压制对方的电子设备。

侦察是对抗的基础。

电子侦察的基本任务是截获、分析对方的辐射信号，测量信号的到达方向、频率、信号调制特性，最终目的是识别辐射源的属性，以便有针对性的对抗。

自电子对抗出现后的60多年来，电子技术的飞跃发展引起了雷达、通信、导航等技术的飞速发展。

使对电子侦察设备同时处理多信号的能力、快速反映能力及信号特征处理能力的要求是越来越高。

但是现在雷达参数的搜索变化，给信号的分选、识别带来很大困难。

所幸大多数辐射源是慢运动或固定的，因此刹用到达角这一参数将来自很大空域内的辐射源进行分离，然后对各个辐射源分析，成了现代电子侦察的一个特点。

图1典型雷达接收机原理框图对雷达信号测频的重要性载波频率是雷达的基本、重要特征，具有相对稳定性，使信号分选、识别、干扰的基本依据。

对雷达信号测频的主要技术指标a. 测频时间定义：从信号到达至测频输出所需时间，是确定或随机的。

要求：瞬时测频，即在雷达脉冲持续时间内完成载波频率测量。

重要性：直接影响侦察系统的截获概率和截获时间。

频域截获概率：即频率搜索概率，单个脉冲的频率搜索概率定义为（△ f r 测频接收机瞬时带宽，f2-f1是测频范围，即侦察频率范围）1.概述S 聞一测向大线 I輻射鴻播述7 宿号处理*辐射源的属性 +辎射源的参數＞威帥等级截获时间：达到给定的截获概率所需的时间，如果采用瞬时测频接收机，则单个脉冲的截获时间为hri二厂尸十5（其中Tr是脉冲重复周期，t th是侦察系统的通过时间）b. 测频范围、瞬时带宽、频率分辨力和测频精度测频范围：测频系统最大可测的雷达信号的频率范围；瞬时带宽：测频系统在任一瞬间可以测量的雷达信号的频率范围；频率分辨力：测频系统所能分开的两个同时到达信号的最小频率差；测频精度：把测频误差的均方根误差称为测频精度；晶体视频接收机：测频范围等于瞬时带宽，频率截获概率= 1,但频率分辨率很低，等于瞬时带宽。

FEKO算法描述

FEKO 算法描述（MoM 和MLFMM ）矩量法（MoM ）1、矩量法的一般方法矩量法是一种基于积分方程的严格的数值方法，其精度主要取决于目标几何建模精度和正确的基权函数的选择及阻抗元素的计算。

其思想主要是将几何目标剖分离散，在其上定义合适的基函数，然后建立积分方程，用权函数检验从而产生一个矩阵方程，求解该矩阵方程，即可得到几何目标上的电流分布，从而其它近远场信息可从该电流分布求得。

下面以电场积分方程求解理想导体的电磁散射问题为例，简要介绍矩量法的一般方法。

由麦克斯维方程组和理想导体的边界条件可以推导出，表面电场积分方程（EFIE ）如下：tan tan (), on .inc j A E r S (1)其中，A 为矢量磁位，ψ为标量电位，表达形式分别如下： ''||'0||4)()('ds r r e r J r A r r jk S -=--⎰πμ (2) ''||'0||4)(1)('ds r r e r r r r jk S -=ψ--⎰πσε (3)定义基函数系列n J ，将电流展开为∑=≈N n n n J I J 1(4)其中n I 为与第n 个基函数相关的的电流展开系数。

为了将积分方程离散成为矩阵方程，采用伽略金匹配方法，选取与基函数相同的函数系列作为权函数，表示为g ，对式(3-1)求内积得>>=<ψ∇<+><m inc m m J E J J A j ,,,ω (5) 将式(3-4)代入式(3-5)，得到包含N 个未知量的N 个线性方程，可以写成][]][[e m n mn V I Z = (6)其中，][mn Z 为N N ⨯的矩阵，][n I 和][e mV 均为1⨯N 的向量，][n I 为电流系数，][e mV 为激励向量，N 为未知量数目。

其形式分别如下：tan m e inc m m S V J E ds =⎰ (7) 001()m m mn m n s m n S S Z j J a ds J ds j ωμψωε=+∇⎰⎰ (8)上式中，'||'''()()4||n jk r r n n S e a r J r ds r r π--=-⎰ (9) '||''''()[()]4||n jk r r n s n S e r J r ds r r ψπ--=∇-⎰ (10)矩阵方程(6)建立之后，下一步就是该矩阵方程的求解。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

新技术讲座课程大作业报告并行核外矩量法学院：电子工程学院专业：电磁场与无线技术班级：1302061学号：姓名：电子邮件：日期： 2016 年 06 月21日成绩：指导教师：张玉摘要本文先简要介绍并行核外计算的发展现状与并行计算的核心思想及其评估方法中加速比的概念，再详写核内LU分解的推导过程并由此推广到并行核内LU分解，最后引出并行核外LU分解算法。

并行核内矩量法与并行核外矩量法比较是本文核心，以求导体球的散射模型为例，比较并行核内矩量法与并行核外矩量法，发现并行核外矩量法比并行核内矩量法填充阶段时间消耗多2-3倍，并且二者的加速比均不理想。

同时也发现并行核外矩量法在填充阶段所消耗的时间比并行核内矩量法多了不到一倍，结合在大规模电磁计算中计算机内存的重要性，得出并行核外矩量法在大规模计算中以少量的的额外时间消耗换来计算机内存的合理利用的结论。

总而言之，为了突破计算机内存大小的限制，并行核外矩量法为实际的工程电磁计算提供了一种综合效率较高的选择方案。

关键词：并行核外矩量法加速比计算机内存工程电磁计算一、并行核外计算发展现状计电磁学发展至今，应用范围越来越广，近些年来更是在电大尺寸平台中得到了快速发展。

由于电大尺寸平台下所解决的问题复杂，研究目标不论是形状还是环境都很繁杂。

在采用矩量法分析后，虽然可以得到很高的精度，但却面临着庞大的矩阵规模。

引入机群处理后，设计并行计算来处理需要很大的内存，种种原因的折衷结果就是引入核外空间存储该矩阵，然后分块读取和处理，最后计算出所需的各类参数，引出目标体相应的特性。

二、并行计算2.1并行计算简介并行计算（parallel computing ）是将某一个运算任务进行分解，，然后将分解后所得的子任务交给各个很多处理器进行运算处理。

在运算过程中，每个处理器之间实时进行数据通信和协同运算，并完成了子任务。

在这一基础上，整个运算的速度大大提高，求解计算速度效率显著增强，计算的规模可以成倍增加。

通过并行计算的定义可以看出，并行计算至少需要两台以上的计算机同时运行，且每台计算机之间可以实时进行数据交换；待处理的运算任务可以被划分成多个子任务，并且，每个子运算任务可以并行在各个计算机处理器上同时计算，还要有固定的程序对各个处理器上的数据编程处理，汇总运算结果，最终达到并行计算的目的。

2.2并行算法评估评估手段有很多，这里重点介绍加速比的概念：在处理器资源独享的情况下，单个处理器进行计算所需的时间比多个处理器在相同环境下处理同一个任务时所需时间的比值，称为加速比公式定义为加速比（P 个处理器）：1p 2t S t （2-1）其中1t 是指单个处理器完成真个运算任务所需的时间，2t 是指P 个处理器在并行算法下运算同一个任务所需要的时间。

三、并行核内与核外LU分解3.1矩阵方程我们首先关注小型运算问题。

并行计算的数值分析，包括设计矩量法（MOM）时需要进行的矩阵填充和其后的矩阵分解，也涉及核内或者核外的问题。

在使用并行路两发程序进行电磁场积分方程的运算时，执行过程中会产生如下的矩阵方程：（3-1）AX B其中，A为M*M的矩阵，且M和未知量相关，当索要计算的目标模型和跑分的尺寸确定后，未知数是能够计算出来的，A表示阻抗矩阵；X为M*1的向量，时所需要求解的电流矩阵（向量）；B也是M*1的向量，表示在激励电磁波或者所加载激励源作用下模型表面产生的电压矩阵。

求解过程中如果A矩阵的规模太大，计算机内存RAM存储不下，也就处理不了，所以需要将硬盘的空间开辟出来用以存储这个巨大规模的矩阵，也就是之前提及的核外技术。

这种和外处理方式放在并行环境下结合矩量法处理电磁场计算问题，就是本论文所需要讨论的采用并行核外MOM方法求解电磁场积分方程的问题。

存储问题依靠核外技术加以解决，求解矩阵方程的问题，由于所产生的矩阵是稠密矩阵，所以在这里选用直接求解的LU分解技术。

因为LU方法起源于核内算法，所以下面将逐步介绍LU分解过程中矩阵的填充分布和求解方法。

3.2核内LU分解求解式（3-1）的方程，需要先将A矩阵进行LU分解。

这是非常重要的矩阵求解方法之一，LU分解是将A矩阵分解为两个三角矩阵的乘积，这两个矩阵分别为上三角矩阵和下三角矩阵，如图所示。

分解方法很多，最知己的方法是每次将下三角矩阵的某一行和上三角矩阵的某一列填充到内存中：图3.1 核内LU分解步骤式3-1可以表示为（3-2）第一次填充时（3-3）（3-4）进行到第r次时因为 (3-5)所以可以得出（3-6）可以总结出：U矩阵的计算中，进行到第r行时，其第j个元素需要用该元素本值减去两个向量的乘积。

它们的一个向量为U矩阵中第1行到第r行的第j 列元素，另一个向量是L矩阵中第一列到第r列的第r行元素。

同样地，可以得出（3-7）式（3-7）表示：L矩阵的第i行计算中，其第r个元素也需要用该元素本值减U。

其中的一个向量是L矩阵中第一行到第i行的去两个向量的乘积，然后除以rr第i列元素，另一个向量是U矩阵中第1列到第r列的第r列元素。

上述的LU分解完成后，式（3-1）表示的矩阵方程变为：（3-8）其中：（3-9）(3-10)上面两个矩阵方程（3-9）和（3-10）的求解过程比较简单，计算速度也很快。

如果计算（3-1）所示的矩阵方程时，A 矩阵过于巨大，可以讲A 矩阵分块，然后对分块后的A 矩阵进行块LU 分解。

所以式（3-1）可以表示成（3-11）其中，11A ,11L ,11U 都是K*K 矩阵；[0]是空矩阵。

于是可以得到下面的矩阵方程：（3-12）（3-13）（3-14）其中，每一个分块矩阵的计算可以根据前面（3-3）到（3-10）所述的方法进行LU 分解。

当然A 矩阵也可以分成很多块，而不止上面所讨论的4块，原理是相同的。

LAPACK 提供了求解式（3-1）矩阵方程的连续算法，在对上面所讨论的核内LU 算法进行并行扩展或，可以在并行计算机群众获得高性能，即为并行核内LU 分解。

如果对CPU 之外的硬盘区加以利用，即可成为并行核外LU 分解，下面将以并行核内LU 分解为基础，简要介绍并行核外LU 分解。

3.3并行核外LU 分解3.3.1核外算法所谓核外技指的是将数据先放在硬盘上，等用的时候再读取出来，每次一点，分批进行，处理完后再写入硬盘，等用的时候重复前面的步骤。

而核外算法就是基于核外技术设计的算法结构，其主要目的是处理一些超大规模矩阵方程，不论是直接求解（例如LU分解），或是间接求解（例如迭代解）都需要超大内存，甚至达到TB级别，给算法的设计和程序的编写调试带来诸多不便。

又由于硬盘相对比较廉价，因此使用硬盘代替内存来存储计算过程中所产生的超大规模矩阵显得十分必要，将开发成本降到可以接受的范围。

核外技术由于纯运算速度快，所以大部分时间都浪费在了数据存储和交换上。

希望随着算法的不断优化，存储交换技术的不断进步，将来内存和硬盘之间数据的交换变的越来越快，促使看、核外算法进一步完善。

3.3.2 核外存储核外存储是按照数据所占空间大小对矩阵分块完成的，如图3.2所示图3.2核外存储矩阵划分单核运行时，核外矩阵填充可以轻松地完成。

然而，当多个核进行运算时，核外的填充是一块一块地进行分布式填充，这样矩阵的填充就被设计成上面的模式，以便避免多余的运算而得到更好的并行效率。

3.3.3核外LU分解假设核外矩阵的填充完成后，进而需要进行的操作及时和外LU分解，当前的理论普遍认为，矩阵相乘运算最有计算方法是通过矩阵分块形式来完成的。

参照式（3-1），通过LU所分解矩阵元素的分布形成和其相应的乘法法则将核外LU分解为两种形式，left-looking和right-looking。

如图所示：图3.3left-looking LU分解图3.4right-looking LU分解图3.3和图3.4分别描绘两个3*3矩阵块运用LU算法是其数据是如何入到内存进行处理的，其中阴影部分代表将要读入内存进行计算的行或者列。

图中列的计算需要用不到之前的LU分解得到的列：图中行和列的计算后需要更新右下角A.33如此进行，使用两个LU分解形式，最终都将得到整个矩阵的分解结果，从而实现核外算法。

left-looking和right-looking两种形式得核外LU分解方法相比，从运算时读取和写入的数据来看，left-looking的相对较少。

因此大多数情况下用left-looking形式的LU分解方法，而且在矩阵写入硬盘之前阻抗矩阵是经过主元确定处理的。

left-looking核外LU分解用到的有BLAS库中的GEMM函数和LAPACK库中的GETRF 函数。

如果要进行并行核外的LU 分解，其函数得到ScaLAPACK 库中的PxGETRF 等，同时得调用LAREAD 函数和LAWRITE 函数进行读写。

四、并行核外矩量法相比于并行核内矩量法的优越性我们所研究的并行核外矩量法，顾名思义，包含并行与核外两个关键点，并行计算的速度要大于单核计算的速度，但是核外矩量法真的要优于核内矩量法吗？或者说它有多大的优越性，下面我们将用一个例子进行比较4.1 导体球体的散射自由空间中有如图所示的半径1m 的导体球，在600MHz 的平面波激励下，计算其双站RCS 。

入社电磁平面波为jkz =xe E ，且该球面破分为9.812个三角形，未知数有14.718个。

并行核外矩量法（OC ）和并行核内矩量法（IC ）的RCS结果与Mie 级数的解析结果对比如图和图所示，可见三个结果几乎完全吻合，验证了两种并行算法的正确性。

图4.1 导体球模型及电磁平面波图4.2半径1m导体球核内外算法XOZ面散射场对比4.2不同块大小的测试在并行LU分解算法中，为了实现负载均衡，需要将矩阵采用快循环方式存储。

块的大小（BlockSize）将影响矩阵读写速度，从而影响算法的计算速度。

在核内算法中，块大小影响内存读写矩阵的速度；而在核外算法中，块大小影响文件读写矩阵的速度。

对于导体球模型，在4*6=24核内进程网格情况下，测试不同块大小时的计算时间。

根据图4.3和4.4所示，课件不论是核内的计算时间还是核外的计算时间都在块大小取128时达到最小值，因此本例后续计算中均将块大小设置为128进行测试图4.3 并行核内块大小测试结果图4.4并行核外块大小测试结果4.3进程网格的测试在并行LU分解算法中，将所有进程排列成二维的锦城网格（Process Grid）。

不同的进程网格计算效率可能有很大差别。

同样以导体球为例，将块大小设置为128，取总核数为24。

将24个核分成不同的进程网格进行测试，如图4.5和4.6所示。

可见当锦城网格接近正方形时，核内程序和核外程序的计算时间都是最少的。