Tiger Team Projects
The following enumeration provides an overview of collaborations between members of the bwHPC-S5 team and scientists, i.e. tiger teams. To apply for support by a tiger team, click
Implementierung einer Checkpoint/Restart Infrastruktur mit Hilfe von criu
Eine Rechnung mit einem relativ hohen Basissatz (MP2/cc-pVTZ) für ein großes Molekül (20 bis 30 Atome) benötigt deutlich mehr als zwei Wochen Rechenzeit. Der in dem Programm eingebaute Checkpoint/Restart Mechanismus ist in diesem Fall nicht ausreichend, da dadurch zu viel Rechenzeit verloren geht. Der Grund hierfür ist, dass nicht der komplette Status des Programms im Checkpoint gespeichert wird und daher ein Teil der Rechnungen wiederholt werden muss. Diesen Nachteil kann man umgehen, indem man ein applikationsunabhängiges Checkpoint/Restart Programm verwendet, in diesem Fall criu. Dafür war es notwendig einen Workflow zu implementieren der das Programm rechtzeitig vor Jobablauf einfriert, benötigte Dateien im Lustre sichert und Checkpoints erstellt. Beim Restart muss das Verfahren im umgekehrter Reihenfolge ablaufen und sichergestellt sein, dass der Ablauf bei Chainjobs robust arbeitet. Darüber hinaus wurden Sicherheitsfeatures im criu daemon und den Wrapper Skripten entwickelt, die eine Privilege Escalation effektiv verhindern.
Mitglieder des Tiger-Teams: Dr. Rainer Rudert, Chemieinformationssysteme, Uni Ulm; Kompetenzzentrum für Chemie, Uni Ulm
Status: abgeschlossen.