Tolerancja błędów

Tolerancja błędu (lub „winy niewrażliwość”) odnosi się do sposobu projektowania, który pozwala system nadal działać, ewentualnie w obniżonej sposób (mówimy także w „  trybie awaryjnym  ”), a nie spada całkowicie na dół, gdy jeden z jego komponenty nie działają już prawidłowo.

Wyrażenie to jest powszechnie używane w odniesieniu do badanych systemów komputerowych , tak aby w przypadku częściowej awarii pozostały mniej lub bardziej sprawne, to znaczy możliwie ze zmniejszeniem przepustowości lub zwiększeniem czasu odpowiedzi. Innymi słowy, system nie przestaje działać, niezależnie od tego, czy występuje awaria sprzętu, czy awaria oprogramowania.

Przykładem poza IT jest pojazd silnikowy zaprojektowany tak, aby zawsze był sprawny, nawet jeśli jedna z jego opon jest przebita.

Kryteria tolerancji błędów

Żadna maszyna , nawet w elektronice i IT , nie jest w 100% niezawodna ani niezniszczalna. Producent, lub też niezależne laboratorium badawcze, określa po testach wskazujących na mniej lub bardziej intensywne użytkowanie, kryterium tolerancji na awarie maszyny.

Kryterium to wyraża się albo w średniej liczbie godzin między awariami ( MTBF w języku angielskim lub średni czas między awariami ) lub w liczbie godzin pracy przed końcem żywotności maszyny. Generalnie jest z tym związany inny parametr, MTTR ( średni czas naprawy ), czyli średni czas do naprawy . Połączenie tych dwóch ustala przewidywalną stopę dostępności .

Dostępność odpowiada .

Stopnie ciężkości awarii

  1. wyraźna awaria lub zamknięcie w przypadku awarii (w języku angielskim zatrzymanie awaryjne ): albo system działa normalnie (wyniki są poprawne), albo nic nie robi. To najprostszy rodzaj awarii;
  2. awaria spowodowana pominięciem lub przejściową awarią  : komunikaty są tracone na wejściu lub wyjściu lub w obu przypadkach. Uważa się, że jest to czasowa awaria o nieskończonym czasie trwania;
  3. czasowa awaria  : czas reakcji systemu przekracza wymagania specyfikacji;
  4. Awaria bizantyjska  : system daje losowe wyniki.

Klasyfikacja dostępności

Klasyfikacja systemów pod względem dostępności prowadzi najczęściej do 7 klas, od klasy nieuwzględnianej (system dostępny przez 90% czasu, a zatem niedostępny dłużej niż miesiąc w roku) do klasy ultra dostępnej (dostępnej 99,99999) .% czasu, a zatem niedostępne tylko przez 3 sekundy rocznie): te różne klasy odpowiadają liczbie 9 w odsetku czasu, w którym systemy tej klasy są dostępne.

Rodzaj Niedostępność (w minutach rocznie) Procentowa dostępność Klasa
nie zarządzany 50000 (34 dni, 17 godzin i 20 minut) 90% 1
zarządzany 5000 (3 dni, 11 godzin i 20 minut) 99% 2
dobrze zarządzany 500 (8 godzin 20 minut) 99,9% 3
wadliwa tolerancja 50 (niecałą godzinę) 99,99% 4
duża dostępność 5 minut 99,999% 5
bardzo wysoka dostępność 0,5 (30 sekund) 99,9999% 6
bardzo wysoka dostępność 0,05 (3 sekundy) 99,99999% 7

Uwaga  : rok trwa 8760 godzin lub 525 600 minut.

Metody

Niedogodności

Zalety systemu odpornego na uszkodzenia są oczywiste, ale co z wadami?

Kiedy stosować system odporności na uszkodzenia?

Z reguły nie chodzi o zaprojektowanie systemu, w którym każdy element jest niewrażliwy na awarie. Aby określić, które z komponentów powinny być odporne na uszkodzenia, można zadać następujące pytania:

Przykładem elementu, który przeszedł wszystkie testy, jest system unieruchamiania pasażerów.

Zwykle nie myślimy o głównym systemie unieruchamiania pasażerów, którym jest grawitacja. Jeśli samochód przewróci się lub zostanie mocno zahamowany przy kilku g , ta podstawowa metoda unieruchomienia może nie działać. Unieruchomienie pasażerów podczas takiego wypadku jest kluczowe dla ich bezpieczeństwa, dlatego odpowiadamy na pierwszy test.

Wypadki, w wyniku których pasażerowie wysuwali się, były powszechne, zanim pojawiły się pasy, więc odpowiedź na drugi test jest udzielona.

Nadmiarowy system blokowania pasażerów, taki jak pasy bezpieczeństwa, jest niedrogi i ma bardzo niską wagę i masę, więc należy odpowiedzieć na trzeci test.

Z tego powodu dodanie pasów bezpieczeństwa do wszystkich samochodów to świetny pomysł. Dodatkowe systemy unieruchamiające, takie jak poduszka powietrzna pasażera (w angielskiej poduszce powietrznej ) są droższe i spełniają ten test z niższym marginesem. To jest powód, dla którego niedrogie samochody nie mają go tak dużo, jak inne.

Przykłady odporności na uszkodzenia

Odporność na awarie sprzętu może czasami wymagać usunięcia uszkodzonych części, a następnie zastąpienia ich nowymi częściami, podczas gdy system będzie działał. Taki pojedynczy system nadmiarowy jest określany jako „ jednopunktowy” i reprezentuje zdecydowaną większość systemów odpornych na awarie. W takich systemach średni wskaźnik awaryjności między awariami powinien być na tyle wysoki, aby administratorzy mieli czas na naprawę starego, zanim kopia zapasowa ulegnie awarii. Im dłuższy czas między awariami, tym jest łatwiej, ale nie jest to niezbędne w systemie odporności na awarie.

Niewrażliwość na awarie działa szczególnie dobrze w systemach komputerowych. Dlatego firma Tandem Computers używa maszyn „o prostej tolerancji” do tworzenia swoich systemów NonStop , których czas pracy (czas, który upłynął od ostatniego uruchomienia) (w języku angielskim ) jest mierzony w dziesięcioleciach. Firma Netflix stworzyła Chaos Monkey , program, który losowo wybiera serwer i neutralizuje go podczas zwykłych godzin aktywności, aby stale testować odporność swojego systemu.

Różnica między systemem odpornym na uszkodzenia a systemem z kilkoma błędami

Istnieje różnica między systemami odpornymi na awarie a systemami, które rzadko ulegają awariom. Na przykład przełączniki poprzeczne Western Electric miały wskaźnik awaryjności wynoszący dwie godziny w ciągu czterdziestu lat, a zatem były bardzo odporne na awarie. Ale ponieważ nadal zatrzymywali się, gdy wystąpiła awaria, nie byli więc całkowicie odporni na awarię.

Niezawodność operacyjna

Niezawodność działania (w języku angielskim niezawodność ) to możliwość polegania na świadczonych usługach. Zależy to od niezawodności działania zastosowanych komponentów.

Pochodzenie awarii

Pochodzenie błędów, które należy wziąć pod uwagę, może być różne:

Stan błędu

Stan błędu wewnętrznego

Błąd wewnętrzny, spowodowany powyższymi okolicznościami, pozostaje wewnętrzny, o ile nie miał wpływu na zewnętrzne funkcjonowanie systemu. Ten błąd może pozostawać wewnętrzny przez długi czas (opóźnienie błędu), ale w krótkim lub długim okresie prowadzi do zewnętrznego stanu błędu przez awarię lub awarię.

Stan błędu zewnętrznego

Stan błędu zewnętrznego objawia się awarią, awarią w zakresie świadczonej usługi. System nie działa, jeśli w wyniku któregokolwiek z powyższych zjawisk nie spełnia żadnej ze swoich specyfikacji. Ogólnie widoczne są tylko zewnętrzne stany błędów: jak rozpoznać problem, który doprowadził do awarii?

Unikanie awarii

Unikanie awarii (w języku angielskim unikanie błędów ) to zestaw środków, które mają na celu uniknięcie awarii systemu. Dotyczy to w szczególności:

Zobacz też

Linki zewnętrzne

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">