Tolerancja błędów

Tolerancja błędu (lub „winy niewrażliwość”) odnosi się do sposobu projektowania, który pozwala system nadal działać, ewentualnie w obniżonej sposób (mówimy także w „ trybie awaryjnym ”), a nie spada całkowicie na dół, gdy jeden z jego komponenty nie działają już prawidłowo.

Wyrażenie to jest powszechnie używane w odniesieniu do badanych systemów komputerowych , tak aby w przypadku częściowej awarii pozostały mniej lub bardziej sprawne, to znaczy możliwie ze zmniejszeniem przepustowości lub zwiększeniem czasu odpowiedzi. Innymi słowy, system nie przestaje działać, niezależnie od tego, czy występuje awaria sprzętu, czy awaria oprogramowania.

Przykładem poza IT jest pojazd silnikowy zaprojektowany tak, aby zawsze był sprawny, nawet jeśli jedna z jego opon jest przebita.

Kryteria tolerancji błędów

Żadna maszyna , nawet w elektronice i IT , nie jest w 100% niezawodna ani niezniszczalna. Producent, lub też niezależne laboratorium badawcze, określa po testach wskazujących na mniej lub bardziej intensywne użytkowanie, kryterium tolerancji na awarie maszyny.

Kryterium to wyraża się albo w średniej liczbie godzin między awariami ( MTBF w języku angielskim lub średni czas między awariami ) lub w liczbie godzin pracy przed końcem żywotności maszyny. Generalnie jest z tym związany inny parametr, MTTR ( średni czas naprawy ), czyli średni czas do naprawy . Połączenie tych dwóch ustala przewidywalną stopę dostępności .

Dostępność odpowiada . ${\ Displaystyle {\ Frac {MTBF} {MTBF + MTTR}}}$

Stopnie ciężkości awarii

wyraźna awaria lub zamknięcie w przypadku awarii (w języku angielskim zatrzymanie awaryjne ): albo system działa normalnie (wyniki są poprawne), albo nic nie robi. To najprostszy rodzaj awarii;
awaria spowodowana pominięciem lub przejściową awarią : komunikaty są tracone na wejściu lub wyjściu lub w obu przypadkach. Uważa się, że jest to czasowa awaria o nieskończonym czasie trwania;
czasowa awaria : czas reakcji systemu przekracza wymagania specyfikacji;
Awaria bizantyjska : system daje losowe wyniki.

Klasyfikacja dostępności

Klasyfikacja systemów pod względem dostępności prowadzi najczęściej do 7 klas, od klasy nieuwzględnianej (system dostępny przez 90% czasu, a zatem niedostępny dłużej niż miesiąc w roku) do klasy ultra dostępnej (dostępnej 99,99999) .% czasu, a zatem niedostępne tylko przez 3 sekundy rocznie): te różne klasy odpowiadają liczbie 9 w odsetku czasu, w którym systemy tej klasy są dostępne.

Rodzaj	Niedostępność (w minutach rocznie)	Procentowa dostępność	Klasa
nie zarządzany	50000 (34 dni, 17 godzin i 20 minut)	90%	1
zarządzany	5000 (3 dni, 11 godzin i 20 minut)	99%	2
dobrze zarządzany	500 (8 godzin 20 minut)	99,9%	3
wadliwa tolerancja	50 (niecałą godzinę)	99,99%	4
duża dostępność	5 minut	99,999%	5
bardzo wysoka dostępność	0,5 (30 sekund)	99,9999%	6
bardzo wysoka dostępność	0,05 (3 sekundy)	99,99999%	7

Uwaga : rok trwa 8760 godzin lub 525 600 minut.

Metody

Te elementy tolerancyjny przyczepić . Jeśli z kolei każdy komponent może nadal działać, gdy jeden z jego składników podrzędnych ulegnie awarii, cały system może nadal działać. Niektóre samochody mają opony run flat lub przebite ( opony angielskie typu run-flat ), które zawierają wewnątrz solidną gumę, aby umożliwić im jazdę nawet po przebiciu komory powietrznej. Chociaż można ich używać tylko przez ograniczony czas i przy niskich prędkościach, są one jednak ogromnym ulepszeniem w stosunku do tradycyjnych opon.
Redundancji . Oznacza to posiadanie kopii zapasowej składnika, która automatycznie przejmuje kontrolę, gdy tylko składnik ulegnie awarii. Na przykład ciężkie ciężarówki mogą stracić oponę z niewielkimi konsekwencjami. Mają tak wiele opon, że żadna z nich nie ma zasadniczego znaczenia (z wyjątkiem przednich opon, które służą do kierowania).

Niedogodności

Zalety systemu odpornego na uszkodzenia są oczywiste, ale co z wadami?

Zakłócenia w wykrywaniu usterek . Posłużmy się przykładem samochodu zdolnego do jazdy pomimo przebicia opony, kierowca może nie wiedzieć, że jego koło wyposażone w system odporny na usterki właśnie pękło. Często zajmuje się tym oddzielny automatyczny system wykrywania usterek. W przypadku opony czujnik monitoruje utratę ciśnienia powietrza i ostrzega kierowcę. Drugim pojęciem alternatywy jest ręczne wykrywanie usterek, polegające na ręcznym sprawdzaniu wszystkich opon na każdym przystanku.
Zredukowany priorytet usuwania usterek . Nawet jeśli kierowca jest świadomy usterki, posiadanie systemu odpornego na awarie zmniejsza potrzebę naprawy. Jeśli awaria nie zostanie naprawiona, ostatecznie doprowadzi to do awarii systemu, gdy komponent odporny na awarie ulegnie całkowitej awarii lub gdy wszystkie nadmiarowe komponenty również przestaną działać.
Trudność testowania W przypadku niektórych systemów odpornych na awarie, takich jak reaktory jądrowe, nie ma łatwego sposobu sprawdzenia, czy komponenty zapasowe działają. Najbardziej znanym przykładem jest katastrofa w Czarnobylu , w której awaryjny system chłodzenia został przetestowany poprzez wyłączenie głównego i dodatkowego systemu. System rezerwowy nie zadziałał, powodując stopienie się rdzenia i ucieczkę radioaktywnej chmury.
Koszt . Zarówno komponenty odporne na awarie, jak i nadmiarowe mają tendencję do zwiększania kosztów. Może to być koszt czysto ekonomiczny lub obejmować również inne parametry, takie jak waga. Na przykład załogowe loty kosmiczne mają tak wiele redundantnych systemów i komponentów odpornych na awarie, że ich waga jest znacznie zwiększona w porównaniu z systemami bezzałogowymi, które nie wymagają takiego samego poziomu bezpieczeństwa.

Kiedy stosować system odporności na uszkodzenia?

Z reguły nie chodzi o zaprojektowanie systemu, w którym każdy element jest niewrażliwy na awarie. Aby określić, które z komponentów powinny być odporne na uszkodzenia, można zadać następujące pytania:

Czy komponent naprawdę ma kluczowe znaczenie? W samochodzie radio nie ma zasadniczego znaczenia, więc ten element wymaga mniejszej odporności na awarie.
Jakie jest prawdopodobieństwo, że komponent ulegnie awarii? Niektóre elementy, takie jak wał napędowy samochodu, nie są podatne na awarie, a zatem nie muszą być odporne na awarie.
Ile kosztuje zaprojektowanie systemu odporności na awarie? Na przykład rozwiązanie polegające na wprowadzeniu silnika drugiego samochodu byłoby zbyt drogie i prowadziłoby do zbyt dużej masy i masy, aby można je było wziąć pod uwagę.

Przykładem elementu, który przeszedł wszystkie testy, jest system unieruchamiania pasażerów.

Zwykle nie myślimy o głównym systemie unieruchamiania pasażerów, którym jest grawitacja. Jeśli samochód przewróci się lub zostanie mocno zahamowany przy kilku g , ta podstawowa metoda unieruchomienia może nie działać. Unieruchomienie pasażerów podczas takiego wypadku jest kluczowe dla ich bezpieczeństwa, dlatego odpowiadamy na pierwszy test.

Wypadki, w wyniku których pasażerowie wysuwali się, były powszechne, zanim pojawiły się pasy, więc odpowiedź na drugi test jest udzielona.

Nadmiarowy system blokowania pasażerów, taki jak pasy bezpieczeństwa, jest niedrogi i ma bardzo niską wagę i masę, więc należy odpowiedzieć na trzeci test.

Z tego powodu dodanie pasów bezpieczeństwa do wszystkich samochodów to świetny pomysł. Dodatkowe systemy unieruchamiające, takie jak poduszka powietrzna pasażera (w angielskiej poduszce powietrznej ) są droższe i spełniają ten test z niższym marginesem. To jest powód, dla którego niedrogie samochody nie mają go tak dużo, jak inne.

Przykłady odporności na uszkodzenia

Odporność na awarie sprzętu może czasami wymagać usunięcia uszkodzonych części, a następnie zastąpienia ich nowymi częściami, podczas gdy system będzie działał. Taki pojedynczy system nadmiarowy jest określany jako „ jednopunktowy” i reprezentuje zdecydowaną większość systemów odpornych na awarie. W takich systemach średni wskaźnik awaryjności między awariami powinien być na tyle wysoki, aby administratorzy mieli czas na naprawę starego, zanim kopia zapasowa ulegnie awarii. Im dłuższy czas między awariami, tym jest łatwiej, ale nie jest to niezbędne w systemie odporności na awarie.

Niewrażliwość na awarie działa szczególnie dobrze w systemach komputerowych. Dlatego firma Tandem Computers używa maszyn „o prostej tolerancji” do tworzenia swoich systemów NonStop , których czas pracy (czas, który upłynął od ostatniego uruchomienia) (w języku angielskim ) jest mierzony w dziesięcioleciach. Firma Netflix stworzyła Chaos Monkey , program, który losowo wybiera serwer i neutralizuje go podczas zwykłych godzin aktywności, aby stale testować odporność swojego systemu.

Różnica między systemem odpornym na uszkodzenia a systemem z kilkoma błędami

Istnieje różnica między systemami odpornymi na awarie a systemami, które rzadko ulegają awariom. Na przykład przełączniki poprzeczne Western Electric miały wskaźnik awaryjności wynoszący dwie godziny w ciągu czterdziestu lat, a zatem były bardzo odporne na awarie. Ale ponieważ nadal zatrzymywali się, gdy wystąpiła awaria, nie byli więc całkowicie odporni na awarię.

Niezawodność operacyjna

Niezawodność działania (w języku angielskim niezawodność ) to możliwość polegania na świadczonych usługach. Zależy to od niezawodności działania zastosowanych komponentów.

Pochodzenie awarii

Pochodzenie błędów, które należy wziąć pod uwagę, może być różne:

błędy projektowania, programowania lub wprowadzania danych;
wypadki środowiskowe;
umyślna wrogość.

Stan błędu

Stan błędu wewnętrznego

Błąd wewnętrzny, spowodowany powyższymi okolicznościami, pozostaje wewnętrzny, o ile nie miał wpływu na zewnętrzne funkcjonowanie systemu. Ten błąd może pozostawać wewnętrzny przez długi czas (opóźnienie błędu), ale w krótkim lub długim okresie prowadzi do zewnętrznego stanu błędu przez awarię lub awarię.

Stan błędu zewnętrznego

Stan błędu zewnętrznego objawia się awarią, awarią w zakresie świadczonej usługi. System nie działa, jeśli w wyniku któregokolwiek z powyższych zjawisk nie spełnia żadnej ze swoich specyfikacji. Ogólnie widoczne są tylko zewnętrzne stany błędów: jak rozpoznać problem, który doprowadził do awarii?

Unikanie awarii

Unikanie awarii (w języku angielskim unikanie błędów ) to zestaw środków, które mają na celu uniknięcie awarii systemu. Dotyczy to w szczególności:

komponenty bardzo dobrej jakości (bardzo niezawodne);
bardzo dobry projekt oprogramowania, rozwój jakościowy ( inżynieria oprogramowania ).

Zobacz też

Linki zewnętrzne