Drzewo B

Drzewo B Przykład drzewa B 3-5

Odkrywcy lub wynalazcy	Rudolf Bayer , Edward M. McCreight
Data odkrycia	1972
Powiązany problem	Struktura danych
Struktura danych	Ukorzenione drzewo

Złożoność czasowa

Najgorszy przypadek	$O (\ log n)$ , , $O (\ log n)$ $O (\ log n)$
Średni	$O (\ log n)$ , , $O (\ log n)$ $O (\ log n)$

Złożoność przestrzeni

Najgorszy przypadek	$nie$
Średni	$nie$

W informatyce , o drzewo B (zwany także B-tree przez analogię do angielskiego terminu „ B-tree ”) to struktura danych w zrównoważonym drzewie . Drzewa B są głównie implementowane w mechanizmach zarządzania bazami danych i systemem plików . Przechowują dane w posortowanej formie i umożliwiają wykonywanie operacji wstawiania i usuwania w zawsze logarytmicznym czasie.

Zasada jest taka, aby węzły nadrzędne miały więcej niż dwa węzły potomne: jest to uogólnienie drzewa wyszukiwania binarnego . Zasada ta minimalizuje rozmiar wału i zmniejsza liczbę operacji wyważania. Ponadto drzewo B wyrasta z korzenia, w przeciwieństwie do binarnego drzewa badawczego, które wyrasta z liści.

Twórca drzew B, Rudolf Bayer , nie wyjaśnił znaczenia litery „B”. Najczęstszym wyjaśnieniem jest to, że B odpowiada angielskiemu terminowi „ zrównoważony ” (w języku francuskim: „zrównoważony”). Mogło jednak również pochodzić od „Bayer”, czyli od nazwiska twórcy, lub od „Boeing”, od nazwy firmy, dla której twórca pracował ( Boeing Scientific Research Labs ).

Pochodzenie

Drzewa B zostały wynalezione w 1970 roku przez Rudolfa Bayera i Edwarda M. McCreighta w laboratoriach badawczych Boeinga . Celem było umożliwienie zarządzania stronami indeksowymi plików danych, biorąc pod uwagę, że objętość indeksów może być tak duża, że tylko ułamek stron można załadować do pamięci RAM. Pierwszy artykuł opisujący mechanizm drzew B został napisany w lipcu i opublikowany wListopad 1970.

Struktura

Struktura ogólna

Oznaczone drzewo to drzewo (w sensie komputerowym terminu) tak, że każdy węzeł jest związany z etykietą lub klawisza (lub kilku etykiet klawiszy lub w przypadku drzew B) pochodzą z danego zbioru. Zatem formalnie oznaczone drzewo jest parą utworzoną z ukierunkowanego, acyklicznego i połączonego grafu oraz z funkcji etykietowania drzewa, która przypisuje każdemu węzłowi etykietę lub klucz. Wśród oznaczonych drzew drzewo B ma kilka dodatkowych, specyficznych właściwości.

Niech L i U będą dwiema naturalnymi liczbami całkowitymi niezerowymi takimi, że L ≤ U. Generalnie definiujemy drzewo LU B w następujący sposób: każdy węzeł, oprócz korzenia, ma co najmniej L - 1 kluczy (zwanych również elementami), maksymalna U - 1 kluczy i na większości dzieci u. Dla każdego węzła wewnętrznego - węzła, który nie jest liściem - liczba dzieci jest zawsze równa liczbie kluczy powiększonej o jeden. Jeśli n jest liczbą dzieci, to mówimy o n- węzeł. Drzewo LU zawiera tylko n-węzły o L ≤ n ≤ U. Często wybieramy konfigurację L = t i U = 2 × t: t nazywamy minimalnym stopniem drzewa B.

Ponadto konstrukcja wałów B zapewnia, że wałek B jest zawsze wyważony . Każdy klucz węzła wewnętrznego jest w rzeczywistości ograniczeniem, które odróżnia poddrzewa tego węzła. Na przykład, jeśli węzeł ma 3 dzieci - które stanowią odpowiednie korzenie trzech poddrzewa: lewego poddrzewa, środkowego poddrzewa i prawego poddrzewa - to ma 2 klucze oznaczone c 1 i c 2, które ograniczają klucze każdego poddrzewa: klucze lewego poddrzewa będą mniejsze niż c 1 ; klucze środkowego poddrzewa będą znajdować się między c 1 a c 2 ; klucze prawego poddrzewa będą większe niż c 2 .

Realizacja

Drzewo B jest implementowane przez zrootowane drzewo. Węzeł jest oznaczony przez: $x$

Liczba całkowita odpowiadająca liczbie kluczy zawartych w węźle . $nie$ $x$
$nie$ zanotowano klucze . ${\ displaystyle c_ {1}, \ ldots, c_ {n}}$
Wartość logiczna wskazująca, czy jest liściem, czy nie. $x$
${\ displaystyle n + 1}$ oznaczane wskaźniki związane z dziećmi o . Arkusz nie zawiera wskaźników. ${\ displaystyle p_ {1}, \ ldots, p_ {n + 1}}$ ${\ displaystyle f_ {1}, \ ldots, f_ {n + 1}}$ $x$

Ponadto drzewo B spełnia następujące właściwości:

Wszystkie liście mają tę samą głębokość, czyli wysokość drzewa. $godz$
Jeśli nie jest liściem: x{\ displaystyle x} $x$
- Dla , dla dowolnego klawisza syna : . ${\ Displaystyle 2 \ równoważnik i \ równoważnik n}$ $k$ ${\ displaystyle f_ {i}}$ ${\ displaystyle c_ {i-1} \ leq k \ leq c_ {i}}$
- dla dowolnego klawisza syna : . $k$ ${\ displaystyle f_ {1}}$ ${\ displaystyle k \ leq c_ {1}}$
- dla dowolnego klawisza syna : . $k$ ${\ displaystyle f_ {n + 1}}$ ${\ displaystyle c_ {n} \ leq k}$
Jeśli nie jest ani liściem, ani korzeniem, jest między L-1 a U-1. $x$ $nie$

Przykładowy węzeł w C ++ template<typename T, size_t L> struct Noeud { size_t n; // nombre de clés utilisées bool feuille; // si ce nœud est une feuille Noeud<T, L>* parent = nullptr; // connaître le parent peut être nécessaire dans certains algorithmes T cles[L]; // tableau des clés Noeud<T, L>* branches[L + 1]; // tableau des branches, si ce n'est pas une feuille };

W praktyce

W większości przypadków konfiguracja jest taka, że U = 2 L. Mówimy wtedy o drzewie B rzędu L.

Drzewo B rzędu t jest wtedy definiowane prościej przez drzewo, które spełnia następujące właściwości:

Każdy węzeł ma maksymalnie klucze. ${\ displaystyle 2t-1}$
Każdy węzeł, który nie jest ani głównym, ani liściem, ma przynajmniej klucze. $t-1$
Jeśli drzewo jest niepuste, korzeń również jest niepusty.
Węzeł, który ma k dzieci, zawiera k - 1 kluczy.
Wszystkie liście są na tej samej wysokości.

Operacje

Jak zobaczymy później, wysokość drzewa B jest logarytmiczna w liczbie elementów. Zatem operacje wyszukiwania, wstawiania i usuwania mogą być realizowane w O (log n) w najgorszym przypadku, gdzie n jest liczbą elementów.

Badania

Wyszukiwanie odbywa się w taki sam sposób, jak w drzewie wyszukiwania binarnego . Zaczynając od korzenia, przechodzimy przez drzewo rekurencyjnie; w każdym węźle wybieramy poddrzewo potomne, którego klucze znajdują się między tymi samymi granicami, co klucze klucza poszukiwanego za pomocą wyszukiwania dychotomicznego.

Pseudo kod fonction Rechercher(noeud, x): i = 0 tant que i < noeud.taille et x > noeud.cles[i]: i += 1 si noeud.feuille: retourner x == noeud.cles[i] sinon: si x == noeud.cles[i]: retourner Vrai sinon si i == noeud.taille et x > noeud.cles[noeud.taille - 1]: retourner Rechercher(noeud.branches[noeud.taille], x) sinon: retourner Rechercher(noeud.branches[i], x)

W wielu implementacjach równość ( ) między elementami jest zastępowana przez równoważność ( ). Dlatego należy uważać, aby używać typów danych, w których dwa równoważne elementy są uważane za równe. ${\ displaystyle a == b}$ ${\ Displaystyle \ neg (a <b) \ klin \ neg (b <a)}$

Wprowadzenie

Wstawienie wymaga najpierw znalezienia węzła, w którym należy wstawić nowy klucz, i wstawienia go. Reszta odbywa się rekurencyjnie, w zależności od tego, czy węzeł ma zbyt wiele kluczy: jeśli ma akceptowalną liczbę kluczy, nic się nie dzieje; w przeciwnym razie przekształcamy go w dwa węzły, z których każdy ma minimalną liczbę kluczy, a następnie ustawiamy środkowy klawisz „w górę”, który jest następnie wstawiany do węzła nadrzędnego. Ten ostatni może nagle zakończyć się nadmierną liczbą wątków; proces jest kontynuowany w ten sposób, aż do osiągnięcia korzenia. Jeśli ten jeden musi zostać podzielony, powoduje się, że „idź w górę” środkowy klucz w nowym katalogu głównym, który wygeneruje jako węzły potomne dwa węzły utworzone, zaczynając od starego, tak jak w poprzednim kroku. Aby operacja była możliwa, zauważamy, że U ≥ 2 L; w przeciwnym razie nowe węzły nie będą miały wystarczającej liczby kluczy.

Wariant polega na prewencyjnym rozstrzeliwaniu każdego „pełnego” węzła (posiadającego maksymalną liczbę kluczy) napotkanego podczas poszukiwania węzła, w którym nastąpi wstawienie. W ten sposób unikamy cofania się w górę drzewa, ponieważ zapewniamy, że ojciec węzła, który ma zostać podzielony na dwie części, może pomieścić dodatkowy klucz. Odpowiednik to niewielki wzrost średniej wysokości drzewa.

Pseudo kod fonction Inserer(x,c) n = nombre de clefs du noeud x Soit i tel que x.clef[i] > c ou i >= n Si x est une feuille : Inserer c dans x.clef a la i-ieme place Sinon: Si x.fils[i] est complet: Scinder x.fils[i] Si c > x.clef[i]: i := i+1 FinSi FinSi Inserer(x.fils[i],c) FinSi FinFonction

Usunięcie

Najpierw musimy znaleźć klucz, aby go usunąć i usunąć z węzła, który go zawiera.

Jeśli węzeł jest wewnętrzny, postępujemy w podobny sposób do drzew wyszukiwania binarnego, wyszukując skrajny lewy klucz k w prawym poddrzewie klucza do usunięcia lub skrajny prawy w lewym poddrzewie. Ten klucz k należy do liścia. Możesz zamienić go na klucz do usunięcia, który następnie usuniesz. Ponieważ należy do liścia, wracamy do następującego przypadku.
Jeśli węzeł jest liściem, to albo wciąż ma wystarczającą liczbę kluczy i algorytm się kończy, albo ma mniej niż L - 1 kluczy i jesteśmy w jednej z następujących dwóch sytuacji:
- jeden z jego braci po prawej lub po lewej ma wystarczającą liczbę kluczy, aby móc „przekazać” jeden do danego liścia: w tym przypadku ten klucz zastępuje klucz, który oddziela dwie poddrzewa w drzewie nadrzędnym, które pojawia się w danym arkuszu;
- lub żaden z jego braci nie ma wystarczającej liczby kluczy: w tym przypadku ojciec przekazuje jeden ze swoich kluczy jednemu z dwóch (lub jedynych) braci, aby liść połączył się z nim. Może to jednak doprowadzić do tego, że ojciec nie będzie miał już wystarczającej liczby kluczy. Następnie powtarzamy algorytm: jeśli węzeł ma brata z wystarczającą liczbą kluczy, najbliższy klucz zostanie wymieniony z kluczem ojca, a następnie klucz ojca i jego nowi potomkowie zostaną sprowadzeni z powrotem do węzła, który potrzebuje „klucza; w przeciwnym razie wykonujemy scalanie za pomocą klucza od ojca i tak dalej. Jeśli dojdziemy do korzenia i ma on mniej niż L elementów, łączymy jego dwoje dzieci, aby dać nowy korzeń.

Balansowy

Szczególnie po usunięciu drzewo można wyważyć. Ta operacja polega na sprawiedliwym rozłożeniu wartości w różnych węzłach drzewa i przywróceniu minimalnych właściwości wypełnienia węzłów.

Równowaga zaczyna się na poziomie liści i postępuje w kierunku korzenia, aż do korzenia. Redystrybucja obejmuje przeniesienie elementu z sąsiedniego węzła, który ma wystarczające wartości, do węzła, w którym ich brakuje. Ta redystrybucja nazywa się rotacją . Jeśli żaden sąsiad nie może podać wartości bez znajdowania się poniżej limitu, wadliwy węzeł musi zostać scalony z sąsiadem. Ta operacja powoduje utratę separatora w węźle nadrzędnym, ten może wtedy być deficytowy i musi zostać zrównoważony. Fuzja i redystrybucja rozprzestrzeniają się aż do korzenia, jedynego elementu, w którym tolerowany jest niedobór wartości.

Prosty algorytm równoważenia składa się z:

Jeśli lewy węzeł sąsiedni istnieje i ma wystarczającą liczbę wartości, aby móc je zaoferować, wykonaj obrót w lewo.
W przeciwnym razie, jeśli istnieje prawy węzeł sąsiedni i ma wystarczającą liczbę elementów, wykonaj obrót w prawo.
W przeciwnym razie wadliwy węzeł musi zostać scalony z jednym ze swoich sąsiadów w taki sposób, aby suma liczby ich kluczy plus 1 była mniejsza lub równa maksymalnej pojemności ( ). Dodatkowa wartość odpowiada separatorowi obecnemu w rodzicu. Ta operacja jest zawsze możliwe, jeśli z a lub odwrotnie, albo węzła bezpośrednio pod klucz limitu a węzłem dokładnie na granicy. twjallmisolwuvsgodzmi+twjallmirerojatmi+1≤U-1{\ Displaystyle size_ {po lewej} + size_ {po prawej} +1 \ równoważnik U-1} ${\ Displaystyle size_ {po lewej} + size_ {po prawej} +1 \ równoważnik U-1}$ U-1≥2×L{\ Displaystyle U-1 \ geq 2 \ razy L} ${\ Displaystyle U-1 \ geq 2 \ razy L}$ twjallmisolwuvsgodzmi=L-2{\ Displaystyle size_ {lewo} = L-2} ${\ Displaystyle size_ {lewo} = L-2}$ twjallmirerojatmi=L-1{\ Displaystyle size_ {po prawej} = L-1} ${\ Displaystyle size_ {po prawej} = L-1}$ L-1{\ displaystyle L-1} ${\ displaystyle L-1}$
1. skopiuj separator na końcu lewego węzła
2. dodaj wszystkie elementy prawego węzła na koniec lewego węzła
3. usuń prawy węzeł i usuń separator nadrzędny, a następnie sprawdź, czy zawiera wystarczającą liczbę elementów. Jeśli nie, zrównoważyć rodzica z sąsiadami.

Obrót w lewo

Obrót wycięcia w lewo między dwoma sąsiednimi węzłami jest wykonywany w

przenoszenie separatora, obecnego w rodzica, na końcu lewego węzła
przeniesienie pierwszego elementu prawego węzła jako separatora w rodzicu

Tego rodzaju operacji można również użyć do skompresowania drzewa: drzewo przeznaczone tylko do odczytu można opróżnić z maksymalnie niewykorzystanych gniazd pamięci, wypełniając jak najmniej węzłów.

Najgorsza wysokość skrzynki

Niech będzie liczbą kluczy zawartych w drzewie B.Wysokość drzewa spełnia nierówność: $NIE$ $godz$

{\ Displaystyle h \ leq \ log _ {L} \ lewo ({\ Frac {N + 1} {2}} \ prawo)}

Demonstracja

Korzeń drzewa zawiera co najmniej 1 węzeł, więc ma co najmniej 2 dzieci. Węzły o głębokości co najmniej 1 zawierają co najmniej klucze L-1 i L dzieci. Za pomocą indukcji pokazujemy bowiem, że poziom drzewa, czyli zbiór węzłów głębokości , zawiera co najmniej węzły, a zatem co najmniej klucze. Dlatego sprawdzana jest łączna liczba kluczy w drzewie: ${\ Displaystyle 1 \ równoważnik i \ równoważnik h}$ $ja$ $ja$ ${\ displaystyle 2L ^ {i-1}}$ ${\ Displaystyle 2L ^ {i-1} (L-1)}$

{\ Displaystyle N \ geq 1+ \ suma _ {i = 0} ^ {h-1} 2L ^ {i} (L-1) = 1 + 2 (L-1) {\ Frac {L ^ {h} -1} {L-1}} = 2L ^ {h} -1}

Więc i . ${\ Displaystyle N + 1 \ geq 2L ^ {h}}$ ${\ Displaystyle h \ leq \ log _ {L} \ lewo ({\ Frac {N + 1} {2}} \ prawo)}$

Uwagi

W 2-3-4 drzewa są struktury danych drzewa wykorzystywane bardziej B: odpowiadają one w rzeczywistości do 2-4 B-drzew lub drzewa B rzędu 2.
B-drzewa mają tę zaletę, że są zbalansowane (wszystkie liście są na tej samej wysokości), co pozwala uzyskać wzrost wysokości, a tym samym większą złożoność (w O (log n) ) dla bazy operacyjnej (wyszukiwanie, wstawianie, usuwanie) niż w przypadku klasycznego drzewa (gdzie wstawienie jest w O (h) , gdzie h jest wysokością drzewa, a więc potencjalnie w O (n) w zależności od wybranej implementacji).

Warianty

Szyb B + Tree (en) różni się nieco od drzewa B tym, że wszystkie dane są przechowywane tylko w liściu i są ze sobą połączone.

Istnieją również inne warianty, takie jak drzewo B * (en) .

Załączniki

(en) Rudolf Bayer , Binary B-Trees for Virtual Memory , ACM-SIGFIDET Workshop 1971 , San Diego, Kalifornia, sesja 5B, str. 219-235 .
(en) Rudolf Bayer i McCreight, EM Organisation and Maintenance of Large Ordered Indexes . Acta Informatica 1, 173-189, 1972 .

Bibliografia

R. Bayer i E. McCreight , „ Organizacja i utrzymanie dużych zamówionych indeksów ”, SIGFIDET '70: Proceedings of the 1970 ACM SIGFIDET (obecnie SIGMOD) Workshop on Data Description, Access and Control , Association for Computing Machinery ,Listopad 1970, s. 107-141 ( DOI 10.1145 / 1734663.1734671 )
(w) R. Bayer i E. McCreight , „ Organizacja i utrzymanie uporządkowanych indeksów szerokich ” , Proceedings of the 1970 ACM SIGFIDET (obecnie SIGMOD) Workshop on Data Description, Access and Control - SIGFIDET '70 , ACM Press,1970, s. 107 ( DOI 10.1145 / 1734663.1734671 , czytaj online , dostęp 21 września 2019 )
Drzewo LU B powinno brzmieć „Drzewo LU B”, ponieważ LU reprezentuje wyrażenie złożone , a nie odejmowanie dwóch liczb.
„L - 1” i „U - 1” są tutaj używane jako wyrażenia odejmowania.
(w) H.Cormen Thomas, Wprowadzenie do algorytmów 1989, strony 485-504.

Zobacz też

Linki zewnętrzne

(pl) cs.usfca.edu : animacja umożliwiająca wizualne wstawianie i usuwanie elementów w drzewie B
(it) (en) GUI B-tree : Spataro Fabrizio i Todaro Michelangelo - Emulatore Java BTree - BTree Java Emulator .
(pl) Slady.net : animacja w formie apletu Java umożliwiająca wizualne budowanie drzew B.