SC²S Colloquium - November 3, 2011

From Sccswiki
Jump to navigation Jump to search
Date: November 3, 2011
Room: 02.07.023
Time: 15:00 am, s.t.


Roman Karlstetter: Eine virtuelle Hierarchische-Basen-h-Version für PDE-Löser auf SIMD Beschleunigerkarten

Der zu beobachtende Trend, dass immer mehr Grafikprozessoren auch für gewöhnliche Berechnungen genutzt werden, wurde in den vergangenen Jahren durch das vermehrte Aufkommen von SIMD-Erweiterungen für normale CPUs ergänzt. Um die dadurch immer größere potentielle Rechenleistung auch ausnutzen zu können, müssen Anwendungen entsprechend angepasst werden. Insbesondere für rechenintensive Anwendungen wie die Simulation partieller Differentialgleichungen besteht ein großes Interesse, die verfügbare Leistung effizient auszunutzen und dadurch zu neuen wissenschaftlichen Erkenntnissen zu gelangen. Dazu muss jedoch diese Klasse von Problemen auf Grafikkarten umgesetzt werden. In dieser Arbeit beschreiben wir die Implementierung einer virtuellen Hierarchische-Basen-h-Version, die unter Verwendung von OpenCL versucht, der eben beschriebenen Entwicklung gerecht zu werden. Dabei ist es gelungen, ein erstes Proof-Of-Concept zu implementieren, mit welchem zum einen die Stabilität des zu Grunde liegenden Algorithmus verbessert, zum anderen aber auch die Konvergenzgeschwindigkeit erhöht werden konnte. In einem abschließenden Ausblick werden einige Möglichkeiten vorgestellt, deren Umsetzung auf eine weitere Verbesserung des Konzepts hoffen lässt.


Roland Wittmann: Blocking strategies for the parallel QR-decomposition

The talk presents a blocking strategy for the parallel QR-decomposition, which reduces the number of MPI messages in parallel execution and improves the cache efficiency of the operations. The algorithm has been developed for the dense symmetric eigensolver ELPA, where the QR-decomposition of many "tall and skinny" matrices is required. The competitiveness of the new QR-decomposition is demonstrated within the ELPA eigensolver on a BlueGene/P with up to 8192 cores and on a Power6 system with up to 2048 cores. Performance and scalability are compared to the ScaLAPACK routine PDGEQRF, as well as to the current implementation within the ELPA library based on non-blocked Householder transformations.


Johannes Weißl: Development of an efficient method for the simulation of molecular long-range interactions

Abstract (english):

The exact and efficient calculation of long-range interactions is the requirement for a multitude of experiments in molecular dynamics. An example are phase transitions of ionic micro crystals. There exist many efficient algorithms for the problem, but their fitness is dependent on the type of the simulation. In this work the two popular algorithm families (mesh and tree based) are compared, and ultimately a method for the MD-simulation program ``MarDyn is developed. The performance as well as the accuracy are analysed and an outlook for further research is given.

Zusammenfassung (deutsch):

Die genaue und effiziente Berechnung langreichweitiger Wechselwirkungen in der Molekulardynamik ist Voraussetzung für eine Vielzahl von Experimenten, etwa Phasenübergängen bei ionischen Mikrokristallen. Für die Lösung dieses Problems existieren mehrere effiziente Algorithmen, deren Eignung aber abhängig von der Art der Simulation sind. In dieser Arbeit werden die zwei bedeutendsten Algorithmenfamilien (Gitter- und Baum-basierte) verglichen, und schließlich ein Verfahren für das Simulationsprogramm "`MarDyn"' implementiert. Die Performance und Genauigkeit der Lösung wird analysiert und ein Ausblick auf eine weitere Entwicklung gegeben.