Podstawowe narzędzie wyszukiwania wyrównania lokalnego

PODMUCH

Opis obrazu CCDC132 Blast Results.png. Informacja
Opracowany przez Altschul SF, Gish W., Miller EW, Lipman DJ, NCBI
Ostatnia wersja 2.9.0+ (1 st kwiecień 2019)
Napisane w C i C++
System operacyjny Wpisz Unix , Linux , macOS i Microsoft Windows
Środowisko Wieloplatformowy
Czytaj formaty Wyjście XML BLAST ( d )
Pisemne formaty Wyjście XML BLAST ( d )
Rodzaj Narzędzie bioinformatyczne
Licencja Domena publiczna
Stronie internetowej blast.ncbi.nlm.nih.gov

BLAST (skrót od podstawowego narzędzia do wyszukiwania lokalnych wyrównań ) to heurystyczna metoda wyszukiwania stosowana w bioinformatyce . Pozwala to, aby znaleźć podobnych regionów dwóch lub więcej sekwencji z nukleotydów lub aminokwasów , oraz aby zapewnić wyrównanie regionów homologicznych.

Mając sekwencję wprowadzoną przez użytkownika, BLAST umożliwia szybkie odnalezienie w bazach danych wymienionych sekwencji posiadających obszary podobieństwa z sekwencją wejściową. Metoda ta służy do znajdowania funkcjonalnych lub ewolucyjnych zależności między sekwencjami i może pomóc w identyfikacji członków tej samej rodziny genów .

Historyczny

Program ten został opracowany przez Stephena Altschula, Warrena Gisha i Davida Lipmana w National Center for Biotechnology Information (NCBI). Oryginalna publikacja z października 1990 r., „  Podstawowe narzędzie wyszukiwania lokalnych wyrównań  ” , była cytowana ponad 90 000 razy, co czyni ją jedną z najczęściej cytowanych w świecie naukowym.

Zasada

BLAST przeszukuje bazę danych sekwencji pod kątem segmentów, które są lokalnie homologiczne do sekwencji zapytania dostarczonej przez użytkownika . BLAST wykorzystuje macierz podobieństwa do obliczania wyników dopasowania. Podaje punktację dla każdego znalezionego dopasowania i wykorzystuje ten wynik do statystycznej oceny istotności tego dopasowania (prawdopodobieństwo, że jest to przypadek).

Zasadę działania BLAST można podzielić na trzy etapy:

Tworzenie słownika k -uplet

Analizowana sekwencja jest najpierw cięta na nakładające się k- uplety. Zazwyczaj w sekwencji białkowej stosuje się czwórki aminokwasów . Segment sekwencji, taki jak FATCATY, jest na przykład podzielony na:

FATC, ATCA, TCAT, CATY

Każda z tych k- krotek jest następnie analizowana w celu zidentyfikowania wszystkich możliwych k-krotek, które dałyby wynik wyrównania większy niż wartość progowa ustawiona przez użytkownika. Aby obliczyć ten wynik przyrównania używamy macierz podobieństwa M ( , b ), często BLOSUM62 (z i b dwóch aminokwasom w porównaniu). Na przykład, jeśli weźmiemy wspomniany wyżej kwadruplet FATC, wynik uzyskany po zrównaniu go z samym sobą wynosi 24, jeśli użyjemy macierzy BLOSUM62:

wynik (FATC, FATC) = M (F, F) + M (A, A) + M (T, T) + M (C, C) = 6 + 4 + 5 + 9 = 24

Kilka innych czworaczków daje dobre wyniki wyrównania z FATC, na przykład YATC, FASC lub FSTC, które dają wyniki wyrównania większe niż 20:

wynik (FATC, YATC) = 21; wynik (FATC, FASC) = 20; wynik (FATC, FSTC) = 21

Z drugiej strony zdecydowana większość pozostałych czworaczków daje bardzo złe wyniki wyrównania, najczęściej negatywne. Jeśli ustawimy wysoki próg, na przykład 18 lub 20 w naszym przykładzie, będziemy mieli tylko kilka możliwych czworaczków, które dadzą wynik wyrównania większy niż ten próg.

BLAST będzie zatem, dla każdego k- upletów analizowanej sekwencji, stanowić słownik wszystkich możliwych k- upletów dających wynik większy niż próg. Słownik wskaże również pozycję w sekwencji referencyjnej, w której znajduje się oryginalny k- uplet. Po utworzeniu słownik ten zawiera listę wszystkich możliwych k- up, które umożliwiają uzyskanie początkowego wyniku wyrównania większego niż próg.

Poszukiwanie i rozszerzenie homologii

Po skonstruowaniu słownika wszystkich k- upletów o progowym wyniku homologii z sekwencją odniesienia, BLAST przeskanuje bank sekwencji do analizy, patrząc kolejno na wszystkie k- uplety, które tworzą każdą sekwencję. Za każdym razem sprawdza, czy w słowniku znajduje się k -uplet banku. Jeśli nie jest jego częścią, przechodzi do następnego. Jeśli występuje w słowniku, oznacza to, że pomiędzy sekwencją referencyjną a sekwencją analizowanej biblioteki znajduje się zarodek regionu homologicznego. Ta homologia ma minimalny wynik równy progowi ustalonemu w pierwszym kroku.

BLAST spróbuje następnie sprawdzić, czy ten homologiczny region rozciąga się poza początkowy k- uplet. Następnie spróbuje rozszerzyć region w górę iw dół, aby zobaczyć, czy wynik homologii wzrasta wraz z tą próbą rozszerzenia. Jeśli te dwie sekwencje rzeczywiście wykazują lokalną homologię wokół wyjściowej krotki k , wydłużenie doprowadzi do skutecznego zwiększenia wyniku, ponieważ nowe aminokwasy zostaną wyrównane. Jeżeli, przeciwnie, próba rozszerzenia nie umożliwia podwyższenia wyniku, ponieważ homologia nie jest kontynuowana, BLAST zatrzymuje się. Jeśli końcowy wynik po rozszerzeniu jest większy niż dany próg, wyrównanie jest zachowywane do ostatecznej analizy.

Proces ten przeprowadza się dla wszystkich k- upletów sekwencji obecnych w analizowanej bibliotece, która jest skanowana sekwencyjnie.

Analiza punktacji i ocena trafności

BLAST i jego wersje pochodne (patrz poniżej) stosuje się do wyszukiwania sekwencji homologicznych do sekwencji będącej przedmiotem zainteresowania, wprowadzonej przez użytkownika, w bazie danych sekwencji. Te bazy danych, takie jak GenBank czy UniProt , są bardzo duże, zwykle zawierają kilkaset milionów sekwencji. Wyczerpujące wyszukiwanie za pomocą BLAST generalnie zwraca kilkadziesiąt dopasowań z sekwencją będącą przedmiotem zainteresowania. Pytanie, które jest następnie stawiane, dotyczy biologicznego znaczenia tych dopasowań: czy dopasowanie jest po prostu wynikiem przypadku, ponieważ przeanalizowaliśmy bardzo dużą liczbę sekwencji, czy też jest to odzwierciedlenie rzeczywistej ochrony biologicznej?

Aby to zrobić, podczas wyszukiwania, BLAST przeprowadza analizę rozkładu wyników dopasowania między sekwencją będącą przedmiotem zainteresowania a biblioteką. Dopasowuje ten rozkład do teoretycznej funkcji gęstości , która pozwala mu obliczyć prawdopodobieństwo i matematyczne oczekiwanie znalezienia wyrównania dającego daną liczbę punktów w banku, tylko dzięki przypadkowi. Parametry tej funkcji gęstości zmieniają się w zależności od składu nukleotydów lub aminokwasów sekwencji i analizowanej biblioteki.

Zazwyczaj BLAST wskaże, dla każdego dopasowania, wartość tego oczekiwania zwaną E-value . W przypadku dopasowań istotnych biologicznie, wartość E przyjmuje wartości nieskończenie małe (od 10-10 do 10-200 ), co oznacza, że ​​jest wysoce nieprawdopodobne, aby uzyskany wynik dopasowania był przypadkowy.

Wariacje

Wykorzystane dane

Termin blast może być modyfikowany w zależności od charakteru sekwencji wejściowej i użytej bazy danych:

Algorytm

Od czasu jego powstania opracowano różne wersje algorytmu :

Uwagi i referencje

  1. Greg Gibson, Spencer V. Muse, Lionel Domenjoud, Raymond Cunin ( trad.  Lionel Domenjoud), Precis de genomique , Bruksela/Paryż, Uniwersytet De Boeck, 2004, 347  s. ( ISBN  2-8041-4334-1 ) , "2"
  2. (w) SF Altschul , W Gish , W Miller , EW Myers i DJ Lipman , „  Podstawowe narzędzie do wyszukiwania lokalnych wyrównań  ” , Journal of Molecular Biology , tom.  215 n O  3, 5 października 1990, s.  403-10 ( PMID  2231712 , podsumowanie )
  3. 20 000 razy
  4. Frédéric Dardel i François Képès , Bioinformatyka. Genomika i postgenomika , Palaiseau, Éditions de l'École Polytechnique,2002, 246  s. ( ISBN  2-7302-0927-1 , prezentacja online )

Zobacz również

Powiązane artykuły

Linki zewnętrzne