高性能计算应用专题-中国计算机学会信息网  

  以超级计算为工具的计算科学,已经渗透到科学研究与工程设计的各个层面,成为一个具有战略意义的新兴学科。计算科学已成为理论和实验之外,人类进行科学探索和工程研究的第三种手段。为此,美国总统信息技术顾问委员会PITAC在2005年6月向总统布什提交的题为《计算科学:确保美国的竞争优势》的报告中,建议美国政府制定长期计划,对计算科学进行长期资助,确保美国的竞争优势和国家安全。该委员会认为计算科学是21世纪最为重要的技术领域之一,因为它对整个社会的进步是不可或缺的。

  随着天河一号A和曙光星云等国产千万亿次CPU+GPU异构超级计算机的陆续上线,并分别夺取TOP500世界第一和世界第二的好成绩,国产超级计算应用软件的研制水平和性能水平也取得了突飞猛进的发展,体现了计算平台的超前发展对应用的拉动作用。目前,国产超级计算应用能够利用的处理器核心数已经接近10万处理器核,但尚未突破10万核,且此类应用大部分都属于测试性应用;而国际上实际可有效利用的处理器核数已经突破40万处理器核,且出现了不少突破性的模拟成果和科学新发现。但是,不管国内还是国外,到目前为止,还很少有能够利用千万亿次超级计算机的全部处理器和GPU核的异构并行计算取得突破性应用成果的应用程序出现,CPU+GPU异构并行应用软件的开发面临瓶颈,亟需尽快取得突破。如何在不断突破处理器核心数可扩展性的前提下,尽快利用全机的CPU+GPU异构并行取得实际的突破性模拟应用成果,是当前国际计算科学领域面临的一个难题,亟需通过多方联合攻关,予以突破。

  本期高性能计算应用专题,我们从2012年全国高性能计算学术年会的投稿中精选出几篇关于GPU异构并行算法与应用软件开发方面的优秀文章,力图通过这几篇文章反映我国超级计算应用软件的发展水平,促进同行间的交流。
本期执行主编
张云泉
  中国科学院软件研究所并行软件与计算科学实验室执行主任,博士生导师。主要研究方向为大型并行数值软件、并行程序设计和性能评价、并行计算和并行编程模型等。中国软件行业协会常务理事,中国计算机学会理事。中国高性能计算机TOP100排行榜的主要组织者和发布者。
 
技术动态专题回顾:
 
云计算(专题第10期)
智能终端技术(专题第9期)
中文信息处理(专题第8期)
人工智能(专题第7期)
国家科学技术奖(专题第6期)
优博(专题第5期)
CNCC(专题第4期)
王选奖(专题第3期)
乔布斯(专题第2期)
文化遗产数字化(专题第1期)



        • 发展超算中心核心应用的浅析
        • 高精度气动模拟在天河1A-HN超级计算机系统上的CPU/GPU异构并行实现
        • 超大规模并行计算容错恢复的实现和挑战
        • 大规模数据并行可视化与交互环境
        • 基于大型场景的高精度成像并行光线追踪算法
        • 基于GPU的高性能稀疏矩阵向量乘及CG求解器优化
        • 迭代编译--一种面向高性能计算程序性能优化的新技术
        • 雅可比迭代的CPU/GPU并行计算及在CFD中的应用
        • 基于GPU的生物序列比对工具比较与评价
        • 基于CUDA的暗原色先验去雾算法并行实现与优化

     发展超算中心核心应用的浅析
作者:党岗,程志全 日期:2012年8月
超级计算在“高、精、尖”的前沿科学、工程研究之中广泛应用。但由于我国超算中心大多采用“地方政府投资、以市场为导向开展应用”的建设思路,与国际知名超算中心的运作模式相比,我国超算中心的应用领域范围和应用模式具有很大差异,核心应用导向往往不是高端的计算密集型应用,而是常常追求服务密集型应用。本文初步探讨了国内超算中心核心应用所面临的挑战,提出了超算中心核心应用服务地方建设的几点建议。
<全文>   <回到顶部>


     高精度气动模拟在天河1A-HN超级计算机系统上的CPU/GPU异构并行实现
作者:曹维,王正华,徐传福,李宗哲,姚路,刘化勇 日期:2012年8月
本文在CPU/GPU 异构并行体系结构下,就三维Navier-Stokes方程求解的高阶精度多块结构网格气动模拟计算流体力学(Computational Fluid Dynamics, CFD)程序的异构并行计算方法进行了研究,并在国家超级计算长沙中心的“天河1A-HN”上加以实现。该CFD程序时间格式为显式三步龙格-库塔法,空间格式为高阶steger-warming迎风格式。该CFD并行程序在“天河1A-HN”平台上实现了MPI+CUDA两级并行,测试结果表明相比单个Intel Xeon X5670核,采用MPI并行能获得79.7%的并行效率,采用32个节点的MPI+CUDA并行加速比最高为77.3倍。
<全文>   <回到顶部>


     超大规模并行计算容错恢复的实现和挑战
作者:贺军,柴华 日期:2012年8月
本文介绍和比较当前超大规模并行计算的一些容错与恢复的方法,描述IBM 高性能并行计算的Checkpoint/Restart 技术架构。同时探讨了并行计算的容错和恢复在超大规模集群架构下所面临的问题和挑战,以及结合并行计算编程模型的实现,阐述其与容错/恢复机制之间的关联。
<全文>   <回到顶部>


     大规模数据并行可视化与交互环境
作者:沈恩亚,王攀,李思昆,蔡勋,曾亮,王文珂 日期:2012年8月
随着超级计算机计算能力的不断提高,依赖于超级计算机的数值模拟等计算所生成的数据规模越来越大。常用的可视化系统已经无法有效处理大规模数据,直接导致相关研究人员无法有效分析所计算的结果。为此,本文基于天河-1A超级计算机,利用ParaView开源平台构建、开发了面向计算流体力学的大规模数据并行可视化环境CPVE。CPVE不仅具有完善而实用的大规模三维定常和非定常流场数据预处理与特征提取、体绘制、几何图形(流线、等值面等)绘制、纹理绘制等可视化与交互功能,而且,根据领域专业特点以及三维场景可视化的需求,基于三维力传感器交互设备Falcon开发了三维交互模式,提供了有效的三维交互手段。将该环境应用于不同类型、不同规模的三维流场数值模拟数据可视化,结果表明该环境具有高效性、先进性和实用性。
<全文>   <回到顶部>


     基于大型场景的高精度成像并行光线追踪算法
作者:吴长茂,张云泉,郑海桥,杨聪俐,骆涛,邱振戈,谢金华 日期:2012年8月
光线跟踪(RayTracing),也称为光迹追踪,是计算机图形学的核心算法之一,用于从三维场景生成逼真的二维图像。追踪光线是计算密集型操作,同时二维图像的每个像素需要投射一条甚至多条光线与场景求交,导致光线追踪计算量大效率低。对于大型场景的高精度成像问题情况变得更加糟糕。本文针对大型场景的高精度光线追踪成像耗时大效率低的问题,提出了一种分布式并行渲染的光线追踪算法。在32个CPU核上最高取得了30.7的加速比,算法具有良好的效率和扩展性。
<全文>   <回到顶部>


     基于GPU的高性能稀疏矩阵向量乘及CG求解器优化
作者:王迎瑞,任江勇,田荣 日期:2012年8月
以有限元/有限差分等为代表的一类数值方法,总体矩阵常常具有“带状”、稀疏的特点。本文针对“带状”稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法“bDIA”。基于nVidia的GTX280系列GPU进行测试,测试数据显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法可以达到单双精度浮点效率均有1倍以上的提高,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。
<全文>   <回到顶部>


     迭代编译--一种面向高性能计算程序性能优化的新技术
作者:陆平静,李宝,庞征斌,车永刚 日期:2012年8月
高性能计算是支撑国家实力持续发展的关键技术之一。论文首先分析高性能计算面临的问题,指出传统高性能计算程序性能优化技术的不足。接着介绍了面向高性能计算程序性能优化的新方法—迭代编译优化。迭代编译优化作为提高机器实用性能的有效手段,对高性能计算至关重要,迭代编译优化技术的研究逐渐成为高性能计算领域的研究热点。最后给出了总结,并针对迭代编译优化开销较大这一问题给出了未来工作方向。
<全文>   <回到顶部>


     雅可比迭代的CPU/GPU并行计算及在CFD中的应用
作者:李大力,张理论,徐传福,刘巍 日期:2012年8月
本研究从CFD 实际应用背景出发,综合多核与众核的特点,采用OpenMP线程嵌套以实现CPU/GPU的协同并行计算,实现了雅可比迭代法的GPU加速以及OpenMP/CUDA混合并行算法,并将其用于结构网格气动外流场的数值模拟。对单区200万结构网格数据,右端项、左端项矩阵及矩阵求逆、雅可比迭代等核心计算部分的GPU并行分别取得了11.35、13.83和8.34倍的加速比,整个求解过程取得了9.86倍的加速比;对200万4区结构网格数据,整个求解过程的GPU并行加速比为5.56,CPU/GPU协同并行的加速比为7.49。
<全文>   <回到顶部>


     基于GPU的生物序列比对工具比较与评价
作者:刘阳,毛逸清,李江域,王小磊,赵东升 日期:2012年8月
生物序列比对是生物信息学研究中最基本的研究方法。随着生物序列数据的快速增长,大批量序列比对变得极为耗时。针对这个问题,许多已有的高性能计算技术开始用于加速序列比对过程,这些技术中包括云计算,GPU计算等。已有的基于GPU的生物序列比对工具过分强调速度提升,但是缺少对准确度,性能功耗比,性价比和编程复杂度等方面的考虑。本文通过文献分析的方法,从以上四个角度详细地比较了这些基于GPU的生物序列比对工具,并进一步分析了GPU用于生物序列比对的可用性。
<全文>   <回到顶部>


     基于CUDA的暗原色先验去雾算法并行实现与优化
作者:薛云刚,任巨,苏华友,文梅,张春元 日期:2012年8月
暗原色先验去雾算法是效果很好的去雾算法之一,但时间复杂度高的缺点限制了它的应用范围,本文基于CUDA编程对暗原色去雾算法在GPU上进行并行化实现与优化,极大的减少了算法的运行时间。通过对算法各部分数据划分和并行性挖掘,实现了基本的GPU并行程序,然后进行了优化,获得了20倍以上的性能加速。本文中将“指导滤波”引入暗原色先验去雾算法,消除了原去雾算法采用软抠图导致的内存需求大的缺点,减小了算法的计算量,并以此为基础,实现并行加速与优化。在并行化实现与优化的过程中,本文针对算法有些步骤的特点,对原算法或基本并行算法进行了改进,提出了新的选取大气光的方法和保留中间结果的并行累加方法,减少了相应部分的计算量,拓展了并行性。
<全文>   <回到顶部>


 

CCF《技术动态》编辑部,info@ccf.org.cn,电话:010-62562503-20    


版权所有 中国计算机学会 技术支持:北京中科辅龙计算机技术股份有限公司
联系电话:(+86)10 6256 2503 邮件:ccf@ccf.org.cn  网站分辨率建议:1024×768
京ICP备13000930号-4  京公网安备11010802017125号