158 articles – 1990 Notices  [english version]
HAL : inria-00597576, version 2

Voir la fiche concise  BibTeX,EndNote,...
Parallel Spherical Harmonic Transforms on heterogeneous architectures (GPUs/multi-core CPUs)
Szydlarski M., Esterie P., Falcou J., Grigori L., Stompor R.
Rapports (2012) 31 - http://hal.inria.fr/inria-00597576
Versions disponibles
Informatique/Calcul parallèle, distribué et partagé
Physique/Astrophysique/Cosmologie et astrophysique extra-galactique
Planète et Univers/Astrophysique/Cosmologie et astrophysique extra-galactique
Physique/Physique/Physique Atmosphérique et Océanique
Physique/Physique/Géophysique
Planète et Univers/Sciences de la Terre/Géophysique
Sciences de l'environnement/Milieux et Changements globaux
Parallel Spherical Harmonic Transforms on heterogeneous architectures (GPUs/multi-core CPUs)
Mikolaj Szydlarski ()1, Pierre Esterie ()2, Joel Falcou ()2, Laura Grigori ()1, R. Stompor ()3
1 :  INRIA Saclay - Ile de France - GRAND-LARGE
http://grand-large.lri.fr/index.php/Main_Page
INRIA – CNRS : UMR8623 – Université Paris XI - Paris Sud
PCRI - Université de Paris-Sud, Bâtiment 650, 91405 ORSAY Cedex
France
2 :  LRI - Laboratoire de Recherche en Informatique
http://www.lri.fr/
CNRS : UMR8623 – Université Paris Sud
LRI - Bâtiments 650-660 Université Paris-Sud 91405 Orsay Cedex
France
3 :  APC - UMR 7164 - AstroParticule et Cosmologie
http://www.apc.univ-paris7.fr/
CNRS : UMR7164 – IN2P3 – Observatoire de Paris – Université Paris VII - Paris Diderot – CEA : DSM/IRFU
APC - UMR 7164, Université Paris Diderot, 10 rue Alice Domon et Léonie Duquet, case postale 7020, F-75205 Paris Cedex 13
France
APC - ADAMIS
Spherical Harmonic Transforms (SHT) are at the heart of many scientific and practical applications ranging from climate modelling to cosmological observations. In many of these areas new, cutting-edge science goals have been recently proposed requiring simulations and analyses of experimental or observational data at very high resolutions and of unprecedented volumes. Both these aspects pose formidable challenge for the currently existing implementations of the transforms. This paper describes parallel algorithms for computing the SHTs with two variants of intra-node parallelism appropriate for novel supercomputer architectures, multi-core processors and Graphic Processing Units (GPU) and discusses their performance tests, alone and embedded within a top-level, MPI-based parallelization layer ported from the S$^2$HAT library, in terms of their accuracy, overall efficiency and scalability. We show that our inverse SHTs with GeForce 400 Series GPUs equipped with latest CUDA architecture ("Fermi") outperforms the state of the art implementation for a multi-core processor executed on a current Intel Core i7-2600K. Furthermore, we show that an MPI/CUDA version of the inverse transform run on a cluster of 128 NVIDIA Tesla S1070 is as much as 3 times faster than the hybrid MPI/OpenMP version executed on the same number of quad-core processors Intel Nahalem for problem sizes motivated by our target applications. For the direct transforms, the performance is however found to be at the best comparable. Here we discuss in detail optimizations of two major steps involved in the transforms calculation, demonstrating how the overall performance efficiency can be obtained, and elucidating the sources of the dichotomy between the direct and the inverse operations
Les transformations en harmoniques sphériques (SHT) sont au cœur de nombreuses applications scientifiques et pratiques allant de la modélisation du climat aux observations cosmologiques. Ces domaines nécessitent des simulations et des analyses de données expérimentales engendrant des larges volumes de données. Ceci représente un défi important pour les implémentations actuelles des transformations en harmoniques sphériques. Ce papier décrit la mise en œuvre multi CPU-GPU d'une SHT inverse, basée sur une programmation hybride, combinant MPI et CUDA. Nous comparons les performances de la version multi GPU par rapport à une version hybride MPI / OpenMP de la même transformation. Nous constatons qu'une NVIDIA Tesla S1070 peut exécuter la SHT 3 fois plus rapidement que la version MPI / OpenMP exécutée sur un processeur quad-core (Intel Nehalem cadencé à 2,93 GHz) . De plus, en raison d'un très bon passage à l'échelle des deux versions, 128 cartes Tesla donnent d'aussi bonnes performances que 256 processeurs à 12 coeurs (AMD Op te ron 2,1 GHz).
Anglais

Rapport de recherche
31
Rapports
15/05/2012

Spherical Harmonic Transforms – hybrid architectures – hybrid programming – OpenMP – CUDA – Multi-GPU – CMB
RR-7635
13542
Liste des fichiers attachés à ce document :
TEX
Logo-INRIA-couleur.pdf(6.7 KB)
Logo-INRIA-couleur.ps(35.1 KB)
Logo-INRIA-picto.pdf(5.3 KB)
Logo-INRIA-picto.ps(24.4 KB)
logo_saclay.eps(327.6 KB)
logo_saclay.pdf(22.5 KB)
rap-rech1.pdf(6.5 KB)
rap-rech1.ps(19.5 KB)
RR.sty(20.7 KB)
s2hat_jpaper_inria_format.tex(5.3 KB)
s2hat_midas.bib(30.7 KB)
figures
alm2map_libpsht_err.png(108.7 KB)
alm_distribution.png(46 KB)
cuda_thread.png(60.3 KB)
f8_map_example.png(981.2 KB)
finall.png(76.7 KB)
gpu_map.png(904.6 KB)
heterogeneus.png(30 KB)
map_diff.png(1.6 MB)
mt_thread.png(71.5 KB)
nproc_fixed_nside.png(40.4 KB)
nside_fixed_nproc.png(41.1 KB)
recurence_vrs_fft.png(113.8 KB)
ref_map.png(904.6 KB)
res_alm2map.png(303.2 KB)
res_map2alm.png(318 KB)
rings_distribution.png(870.7 KB)
scale_all_cpu.png(87.3 KB)
scale_all_gpu.png(105.6 KB)
scale_all_nside.png(85.9 KB)
scale_fft_vrs_cufft.png(84.1 KB)
scale_sup.png(52.1 KB)
sections
acknowledgment.tex(625 B)
background.tex(64.7 KB)
conclusions.tex(1.6 KB)
experimental.tex(19.3 KB)
introduction.tex(12.4 KB)
PDF
s2hat_jpaper_inria_format.pdf(7.5 MB)