Grisen backup server

From ITG
Jump to: navigation, search

Contents

Backup

Grisen har en masse diskplads. Nogle gange bruges den som ekstra backup, under Blå Sommer mest til billeder, video og andet som fylder.

Overvågning

Grisen håndterer overvågning af hosts, routere, services, lokalnet og connectivity på og for DDS Holmen.

På Grisen er installeret Nagios som jævnligt (med få minutters mellemrum) checker om services og hosts kan nåes og det sker inden for en rimelig tid; i modsat fald sendes alerts via email til listen nagios snabel-a list.dds.dk og SMS til relevante personer.

Alerts sendes kun i tidsrummene

mandag  07:30-23:00
tirsdag 07:30-23:00
onsdag  07:30-23:00
torsdag 07:30-23:00
fredag  07:30-23:00
lørdag  09:00-23:00
søndag  09:00-23:00

(belært af en flap'ende host natten til onsdag :-))

Login til Nagios er username=nagiosadmin og password=nagios med stort N og firetal istedet for a. Det er med andre ord ikke specielt hemmeligt, og man er velkommen til at klikke rundt men lad nu være med at pille ved ting du ikke burde pille ved, ellers lukker vi bare af igen :-)

Jeg vil med på email-listen / SMS

Send en email til nagios-subscribe snabel-a list.dds.dk og kontakt Anders vedr. SMS alerts.

Jeg har en service/host/dims jeg gerne vil have overvåget

Læs på Nagios' hjemmeside og se om der ikke findes en plugin dertil. Hvis ikke finder vi nok ud af det alligevel - tag fat i Anders så finder vi ud af det.

Opsætning ligger i: /usr/local/nagios/etc

Efter ændringer, genstart med: /etc/init.d/nagios reload

Auto(gen)start af webservere

På baloo (hotel.dds.dk) og dingo (dds.dk, spejder.dk) overvåges apache2 dæmonen af monit, som ved for højt load, for lang responstid, for mange fork()'s eller regulært crash vil vende apache2 og sende email til itglist(snaffela)spejder.dk når det sker. Se /etc/monit/monitrc for detaljer.

På både dingo og baloo er monit sat til at checke en gang i minuttet (kan ændres i /etc/default/monit, cf. CHECK_INTERVALS=60)

Cacti

http://grisen.dds.dk/cacti/

Brugere:

  • admin/cacti
  • itg/itg
  • guest/guest

Kendt problem ved boot

  • Hvad skal man gøre, hvis disk check fejler?

(boot system)

bla... bla...

/dev/hdb1 has gone 249 days without being checked, check forced.

Error allocating icount structure: Memory allocation failed e2fsck: aborted

Prompt text now is: "... give Root PW for maintance or bla...bla..."

(type root password)

Prompt now is:

(Repair filesystem) 1 #

First command:

swapon -a

Prompt now is:

(Repair filesystem) 2 #

Second command:

e2fsck -p /dev/hdb1

Some time passes - up to hours - and you may get the question:

Found bla..bla.. Do you want to fix it? (Y/n)

Answer Y if you have backups. If not, you are in trouble.

Mvsh. Ænkå

Personal tools