1) Généralités
Les Systèmes SP (Scalable PowerParallel) sont constitués d'un ensemble de systèmes
RS 6000 montés en armoire, appelés nœuds. Il y a 128 connecteurs sur un système RS 6000 SP. Un noeud fin occupe un connecteur, un nœud large occupe 2 connecteurs et un nœud haut, quatre.
Chaque nœud SP dispose de sa mémoire, de son système d'exploitation de connecteurs et de disques. Un réseau haut débit, appelé SP switch (avec un débit de 480 Mo/s maximum) permet de relier les nœuds entre eux. Le système SP utilise le logiciel
PSSP (Parallel System Support Programs) pour contrôler son environnement.
Le numéro de node se calcule de la manière suivante :
node_number = (frame_number -1) x 16 + slot_number
2) La Control Workstation (CWS)
Les systèmes SP utilisent une station de contrôle nommée CWS (Control WorkStation) pour gérer, surveiller et maintenir la frame SP et ses nœuds.
La CWS (nœud 0) doit être un RS/6000 utilisant AIX.
Les fonctions de la CWS sont : le contrôle et la gestion du hardware, le contrôle et la gestion du software, les services de boot et d'installation, la configuration centrale via SDR database (smitty enter_data).
Les "supervisor card" des nœuds sont chaînées avec la "supervisor card" de la frame qui utilise le lien série (RS-232) pour faire transiter le flux d'informations hardware vers la CWS. Les informations concernant l'administration système utilisent une connexion ethernet.
3) Principe Monitoring System
Comme éléments de la cws, nous pouvons lister :
processus
- responsable du dialogue avec le hardware
- transmet les commandes au hardware
- reçoit les changements d'états en provenance du hardware
- enregistre les changements d'états des nœuds dans un journal /spdata/sys1/spmon/hwevents
sous-systèmes
- hats sous-système de topologie et surveillance du réseau
- hags sous-système de synchronisation et d'échange entre les nœuds
- haem sous-système de gestion des évènements
arrêter / relancer les démons HA
syspar_ctrl -R
arrêter les démons HA
syspar_ctrl -D
démarrer les démons HA
syspar_ctrl -A
vérifier l'activation des groupes de services HA
lssrc -g haem
lssrc -g hats
lssrc -g hags
4) Parallel System Support Programs (PSSP)
PSSP est une sur-couche d'AIX permettant l'administration des systèmes SP et qui est accessible via
perspectives (management des taches système par manipulation d'objets graphiques).
# export DISPLAY=@IP:0
# perspectives &
5) Utilisation de kerberos
Les frames RS 6000 SP autorisent la configuration de
3 mécanismes d'authentification :
- standard (.rhosts)
- Kerberos v4
- Kerberos DEC v5
Kerberos est un démon qui autorise une communication sécurisée entre la station de contrôle et ses différents nœuds à l'aide d'un ticket d'authentification.
#
k4list : permet de connaître la validité d'un ticket
#
k4init root.admin : initialisation d'un ticket d'authentification
pwd = nom de la cws
#
k4destroy : suppression des tickets dans le cache
Les programmes qui utilisent kerberos : perspectives, spmon, rsh, rcp, sysctl, hmmon, hmcmds, hardmon, s1term
fichiers remarquables
/etc/krb.conf : fichier de configuration
/etc/krb.srvtab : fichier des services utilisés par kerberos
/etc/krb.realms : fichier du royaume (configuration du domaine)
si problème kerberos, vérifier :
- date (- de 5 minutes de décalage entre le client et le serveur)
- /var (kerberos ne peut pas utiliser sa base si /var full)
- la présence des démons (kerberos, kadmind)
- la présence des tickets (# k4list)
6) Commandes
AIX - SP2
|
Commandes |
Description |
hmcmds [options] command frame:slot | node | all |
commande de contrôle du hardware |
# hmcmds off 1 |
arrête électriquement le nœud 1 |
# hmcmds reset 1,5,7-15 |
reset les nœuds 1, 5 et 7 à 15 |
s1term frame slot |
initialise une connexion via le lien série sur un nœud (l'authentification kerberos doit être valide) |
# s1term -w 3 1
^x pour sortir d'une session RW
^c pour sortir d'une session read only |
connexion série en RW |
hmmon [-G][-q][-Q][-r|-s][-v var_nlist][-f file_name|slot_spec] |
gestion des frames et switchs |
# hmmon -G -s -Q 1:0 |
|
spmon [-query[-Monitor][-long]|-connect host_name| -Global|-help|-key{normal|secure|service}|-Key|-Led| -power{on|off}|-reset| -mux{i|1|2|3}|-open|-diagnostics] [[-target]target_value...] |
utilitaire de gestion de la frame et des nœuds |
# spmon -power off node5 |
|
# spmon -d |
série de diagnostics |
# spmon -L frame1/node5 |
LEDS du nœud 5 |
spled [-G][-n title][-p][-r pollrate][-b background color][-l][-h] |
informations sur les codes LED d'un nœud |
# export DISPLAY=@IP:0 |
|
# spled & |
|
splstdata {-A|-n|-s|-b|-a|-u|-v |-g |-h|-i|-d|-x} [-G][{start_frame start_slot {node_count|rest}|-N node_group|-l node_list}] |
fournit des informations sur les données de la base SDR (smitty list_data) |
# rlogin cwsname -l username
# splsdata -n
# s1term -w FrameID SlotID
ou
# spmon -open nodex |
Procédure pour se connecter à une console via une CWS |
# more /etc/SDR_dest_info |
nom de la station de contrôle + @IP à partir d'un nœud |
Procédure de prise de DUMP sur nœud SP2
|
Commandes |
Description |
# rlogin cws_name -l username |
se connecter sur la cws |
# splstdata -n |
trouver slot/node/frame |
# export DISPLAY=@IP:0 |
exporter son display |
# spled & |
lancer spled |
# spmon -reset nodeX |
|
# sysdumpdev -L |
forcer le dump du nœud X |
# smitty dump
Copy a System Dump from a Dump Device to a File
Copy Dump image to /var/adm/ras/dump_file_copy |
|
# snap -ac |
création de /tmp/ibmsupt/snap.pax.Z |
DUMP status code
|
0c0 The dump completed successfully
0c1 An I/O error occurred while taking the dump
0c2 A user-initiated dump is in progress
0c4 The dump device was too small but the dump may still be usable. If zero bytes are written and 0c4 is displayed, it means the dump device was large enough but the system was hung and not able to initiate a dump
0c5 An internal error occurred while taking the dump
0c6 Prompts you to make the secondary dump device available
0c7 The dump facility is waiting for a response from the NFS (Network File Server)
0c8 No dump device is defined
0c9 A system-initiated dump is in progress
0cc The dump facility has switched to the secondary dump device |