en fr A framework for efficient execution on GPU and CPU GPU systems Un framework pour lexécution efficace dapplications sur GPU et CPU GPU Report as inadecuate




en fr A framework for efficient execution on GPU and CPU GPU systems Un framework pour lexécution efficace dapplications sur GPU et CPU GPU - Download this document for free, or read online. Document in PDF available to download.

1 CAMUS - Compilation pour les Architectures MUlti-coeurS Inria Nancy - Grand Est, ICube - Laboratoire des sciences de l-ingénieur, de l-informatique et de l-imagerie

Abstract : Technological limitations faced by the semi-conductor manufacturers in the early 2000-s restricted the increase in performance of the sequential computation units. Nowadays, the trend is to increase the number of processor cores per socket and to progressively use the GPU cards for highly parallel computations. Complexity of the recent architectures makes it difficult to statically predict the performance of a program. We describe a reliable and accurate parallel loop nests execution time prediction method on GPUs based on three stages: static code generation, offline profiling, and online prediction. In addition, we present two techniques to fully exploit the computing resources at disposal on a system. The first technique consists in jointly using CPU and GPU for executing a code. In order to achieve higher performance, it is mandatory to consider load balance, in particular by predicting execution time. The runtime uses the profiling results and the scheduler computes the execution times and adjusts the load distributed to the processors. The second technique, puts CPU and GPU in a competition: instances of the considered code are simultaneously executed on CPU and GPU. The winner of the competition notifies its completion to the other instance, implying the termination of the latter.

Résumé : Les verrous technologiques rencontrés par les fabricants de semi-conducteurs au début des années deux-mille ont abrogé la flambée des performances des unités de calculs séquentielles. La tendance actuelle est à la multiplication du nombre de cœurs de processeur par socket et à l-utilisation progressive des cartes GPU pour des calculs hautement parallèles. La complexité des architectures récentes rend difficile l-estimation statique des performances d-un programme. Nous décrivons une méthode fiable et précise de prédiction du temps d-exécution de nids de boucles parallèles sur GPU basée sur trois étapes : la génération de code, le profilage offline et la prédiction online. En outre, nous présentons deux techniques pour exploiter l-ensemble des ressources disponibles d-un système pour la performance. La première consiste en l-utilisation conjointe des CPUs et GPUs pour l-exécution d-un code. Afin de préserver les performances il est nécessaire de considérer la répartition de charge, notamment en prédisant les temps d-exécution. Le runtime utilise les résultats du profilage et un ordonnanceur calcule des temps d-exécution et ajuste la charge distribuée aux processeurs. La seconde technique présentée met le CPU et le GPU en compétition : des instances du code cible sont exécutées simultanément sur CPU et GPU. Le vainqueur de la compétition notifie sa complétion à l-autre instance, impliquant son arrêt.

en fr

Keywords : parallelization high performance computing GPGPU CUDA heterogeneous computing polyhedral model mathematical modeling execution time prediction performance prediction profiling runtime dynamic adaptive code selection multiversioning scheduling load balance between CPU and GPUs CPU + GPU CPU vs GPU energy saving virtual machine speculative parallelism

Mots-clés : compilation





Author: Jean-François Dollinger -

Source: https://hal.archives-ouvertes.fr/



DOWNLOAD PDF




Related documents