logo inria

RR-4086 - A Two-Level Checkpoint Algorithm in a Highly-Available Parallel Single Level Store System

-----------------------
Morin, Christine - Lottiaux, Renaud - Kermarrec, Anne-Marie
Rapport de recherche de l'INRIA - Rennes , Equipe : PARIS
16 pages - Décembre 2000 - Document en anglais
Titre français : Un algorithme de point de reprise à deux niveaux pour la haute disponibilité dans un système à stockage uniforme des données
-----------------------
Abstract : A Parallel Single Level Store systems (PSLS) integrates a shared virtual memory and a parallel file system. Managing globally the data, they provide programmers of scientific applications with the attractive shared memory programming model combined with a large and efficient file system in a cluster. In this paper, we present a cheap and efficient two-level checkpointi- ng approach enabling a PSLS to tolerate failures.
The first level checkpointin- g algorithm is very efficient and saves data in memory but requires a large amount of memory space. When memories are saturated, an alternative algorithm, saving a checkpoint on disks is implemented. Performance results present the impact of different variants of the checkpointing algorithms.

Résumé : Les systèmes parallèles à stockage uniforme des données (PSLS) intègrent une mémoire virtuelle partagée et un système de gestion de fichiers parallèles- . Grâce à une gestion globale des données, ils offrent au programmeur le modèle de programmation par mémoire partagée combiné à un système de fichier à grande capacité de stockage et à haute performance. Dans cet article, nous présentons un système efficace de sauvegarde de points de reprise à deux niveaux, permettant d'introduire des mécanismes de tolérance aux fautes dans un PSLS. Grâce à une sauvegarde des données en mémoire, le premier niveau de point de reprise est très efficace, cependant il nécessite une grande quantité d'espace mémoire. Lorsque les mémoires sont saturées, un second algorithme sauvegarde un point de reprise permanent sur disques. Les résultats d'une évaluation des performances de différentes variantes de l'algorithme de sauvegarde de points de reprise sont présentés.
-----------------------
Key-Words : DISTRIBUTED SYSTEMS / FAULT TOLERANCE / SINGLE LEVEL STORE SYSTEM / SHARED VIRTUAL MEMORY / PARALLEL FILE SYSTEM
Mots-clés : SYSTEMES DISTRIBUES / TOLERANCE AUX FAUTES / STOCKAGE UNIFORME DES DONNEES / MEMOIRE VIRTUELLE PARTAGEE / SYSTEME DE GESTION DE FICHIERS PARALLELES
-----------------------