Podstawowe narzędzie wyszukiwania wyrównania lokalnego

PODMUCH

Informacja

Opracowany przez	Altschul SF, Gish W., Miller EW, Lipman DJ, NCBI
Ostatnia wersja	2.9.0+ (1 st kwiecień 2019)
Napisane w	C i C++
System operacyjny	Wpisz Unix , Linux , macOS i Microsoft Windows
Środowisko	Wieloplatformowy
Czytaj formaty	Wyjście XML BLAST ( d )
Pisemne formaty	Wyjście XML BLAST ( d )
Rodzaj	Narzędzie bioinformatyczne
Licencja	Domena publiczna
Stronie internetowej	blast.ncbi.nlm.nih.gov

BLAST (skrót od podstawowego narzędzia do wyszukiwania lokalnych wyrównań ) to heurystyczna metoda wyszukiwania stosowana w bioinformatyce . Pozwala to, aby znaleźć podobnych regionów dwóch lub więcej sekwencji z nukleotydów lub aminokwasów , oraz aby zapewnić wyrównanie regionów homologicznych.

Mając sekwencję wprowadzoną przez użytkownika, BLAST umożliwia szybkie odnalezienie w bazach danych wymienionych sekwencji posiadających obszary podobieństwa z sekwencją wejściową. Metoda ta służy do znajdowania funkcjonalnych lub ewolucyjnych zależności między sekwencjami i może pomóc w identyfikacji członków tej samej rodziny genów .

Historyczny

Program ten został opracowany przez Stephena Altschula, Warrena Gisha i Davida Lipmana w National Center for Biotechnology Information (NCBI). Oryginalna publikacja z października 1990 r., „ Podstawowe narzędzie wyszukiwania lokalnych wyrównań ” , była cytowana ponad 90 000 razy, co czyni ją jedną z najczęściej cytowanych w świecie naukowym.

Zasada

BLAST przeszukuje bazę danych sekwencji pod kątem segmentów, które są lokalnie homologiczne do sekwencji zapytania dostarczonej przez użytkownika . BLAST wykorzystuje macierz podobieństwa do obliczania wyników dopasowania. Podaje punktację dla każdego znalezionego dopasowania i wykorzystuje ten wynik do statystycznej oceny istotności tego dopasowania (prawdopodobieństwo, że jest to przypadek).

Zasadę działania BLAST można podzielić na trzy etapy:

rozłożenie sekwencji testowej na nakładające się segmenty o długości k ( k- upletów) i poszukiwanie każdego z nich dla wszystkich możliwych k- upletów o wyniku homologii większym niż dany próg. BLAST stanowi zatem słownik wszystkich k- krotek dających minimalną lokalną homologię;
skanowanie banku za pomocą tak utworzonego słownika. Ilekroć BLAST identyfikuje dopasowanie w bibliotece, próbuje przedłużyć homologię w górę iw dół początkowo znalezionego k- upletu;
po rozszerzeniu homologii ocenia na podstawie uzyskanego wyniku prawdopodobieństwo, że jest to spowodowane przypadkiem (a dokładniej jego matematycznym oczekiwaniem ).

Tworzenie słownika k -uplet

Analizowana sekwencja jest najpierw cięta na nakładające się k- uplety. Zazwyczaj w sekwencji białkowej stosuje się czwórki aminokwasów . Segment sekwencji, taki jak FATCATY, jest na przykład podzielony na:

FATC, ATCA, TCAT, CATY

Każda z tych k- krotek jest następnie analizowana w celu zidentyfikowania wszystkich możliwych k-krotek, które dałyby wynik wyrównania większy niż wartość progowa ustawiona przez użytkownika. Aby obliczyć ten wynik przyrównania używamy macierz podobieństwa M ( , b ), często BLOSUM62 (z i b dwóch aminokwasom w porównaniu). Na przykład, jeśli weźmiemy wspomniany wyżej kwadruplet FATC, wynik uzyskany po zrównaniu go z samym sobą wynosi 24, jeśli użyjemy macierzy BLOSUM62:

wynik (FATC, FATC) = M (F, F) + M (A, A) + M (T, T) + M (C, C) = 6 + 4 + 5 + 9 = 24

Kilka innych czworaczków daje dobre wyniki wyrównania z FATC, na przykład YATC, FASC lub FSTC, które dają wyniki wyrównania większe niż 20:

wynik (FATC, YATC) = 21; wynik (FATC, FASC) = 20; wynik (FATC, FSTC) = 21

Z drugiej strony zdecydowana większość pozostałych czworaczków daje bardzo złe wyniki wyrównania, najczęściej negatywne. Jeśli ustawimy wysoki próg, na przykład 18 lub 20 w naszym przykładzie, będziemy mieli tylko kilka możliwych czworaczków, które dadzą wynik wyrównania większy niż ten próg.

BLAST będzie zatem, dla każdego k- upletów analizowanej sekwencji, stanowić słownik wszystkich możliwych k- upletów dających wynik większy niż próg. Słownik wskaże również pozycję w sekwencji referencyjnej, w której znajduje się oryginalny k- uplet. Po utworzeniu słownik ten zawiera listę wszystkich możliwych k- up, które umożliwiają uzyskanie początkowego wyniku wyrównania większego niż próg.

Poszukiwanie i rozszerzenie homologii

Po skonstruowaniu słownika wszystkich k- upletów o progowym wyniku homologii z sekwencją odniesienia, BLAST przeskanuje bank sekwencji do analizy, patrząc kolejno na wszystkie k- uplety, które tworzą każdą sekwencję. Za każdym razem sprawdza, czy w słowniku znajduje się k -uplet banku. Jeśli nie jest jego częścią, przechodzi do następnego. Jeśli występuje w słowniku, oznacza to, że pomiędzy sekwencją referencyjną a sekwencją analizowanej biblioteki znajduje się zarodek regionu homologicznego. Ta homologia ma minimalny wynik równy progowi ustalonemu w pierwszym kroku.

BLAST spróbuje następnie sprawdzić, czy ten homologiczny region rozciąga się poza początkowy k- uplet. Następnie spróbuje rozszerzyć region w górę iw dół, aby zobaczyć, czy wynik homologii wzrasta wraz z tą próbą rozszerzenia. Jeśli te dwie sekwencje rzeczywiście wykazują lokalną homologię wokół wyjściowej krotki k , wydłużenie doprowadzi do skutecznego zwiększenia wyniku, ponieważ nowe aminokwasy zostaną wyrównane. Jeżeli, przeciwnie, próba rozszerzenia nie umożliwia podwyższenia wyniku, ponieważ homologia nie jest kontynuowana, BLAST zatrzymuje się. Jeśli końcowy wynik po rozszerzeniu jest większy niż dany próg, wyrównanie jest zachowywane do ostatecznej analizy.

Proces ten przeprowadza się dla wszystkich k- upletów sekwencji obecnych w analizowanej bibliotece, która jest skanowana sekwencyjnie.

Analiza punktacji i ocena trafności

BLAST i jego wersje pochodne (patrz poniżej) stosuje się do wyszukiwania sekwencji homologicznych do sekwencji będącej przedmiotem zainteresowania, wprowadzonej przez użytkownika, w bazie danych sekwencji. Te bazy danych, takie jak GenBank czy UniProt , są bardzo duże, zwykle zawierają kilkaset milionów sekwencji. Wyczerpujące wyszukiwanie za pomocą BLAST generalnie zwraca kilkadziesiąt dopasowań z sekwencją będącą przedmiotem zainteresowania. Pytanie, które jest następnie stawiane, dotyczy biologicznego znaczenia tych dopasowań: czy dopasowanie jest po prostu wynikiem przypadku, ponieważ przeanalizowaliśmy bardzo dużą liczbę sekwencji, czy też jest to odzwierciedlenie rzeczywistej ochrony biologicznej?

Aby to zrobić, podczas wyszukiwania, BLAST przeprowadza analizę rozkładu wyników dopasowania między sekwencją będącą przedmiotem zainteresowania a biblioteką. Dopasowuje ten rozkład do teoretycznej funkcji gęstości , która pozwala mu obliczyć prawdopodobieństwo i matematyczne oczekiwanie znalezienia wyrównania dającego daną liczbę punktów w banku, tylko dzięki przypadkowi. Parametry tej funkcji gęstości zmieniają się w zależności od składu nukleotydów lub aminokwasów sekwencji i analizowanej biblioteki.

Zazwyczaj BLAST wskaże, dla każdego dopasowania, wartość tego oczekiwania zwaną E-value . W przypadku dopasowań istotnych biologicznie, wartość E przyjmuje wartości nieskończenie małe (od 10-10 do 10-200 ), co oznacza, że jest wysoce nieprawdopodobne, aby uzyskany wynik dopasowania był przypadkowy.

Wariacje

Wykorzystane dane

Termin blast może być modyfikowany w zależności od charakteru sekwencji wejściowej i użytej bazy danych:

blastn, nukleotyd, sekwencja nukleotydowa wobec bazy danych sekwencji nukleotydowych;
blastp, białko, sekwencja białkowa względem bazy danych sekwencji białkowych;
blastx, sekwencja nukleotydowa przetłumaczona na sekwencję białkową w bazie danych sekwencji białkowych;
tblastn, sekwencja białkowa względem bazy danych sekwencji nukleotydowych przeniesionych na sekwencje białkowe;
tblastx, sekwencja nukleotydowa przetłumaczona na sekwencję białkową w stosunku do bazy danych sekwencji nukleotydowych przetłumaczonych na sekwencje białkowe.

Algorytm

Od czasu jego powstania opracowano różne wersje algorytmu :

BlastN, sekwencja nukleotydowa blast, powolna, ale umożliwia znalezienie podobieństw zlokalizowanych tylko na części sekwencji;
BlastP, wybuch sekwencji białkowej;
Megablast, szybki, pozwala znaleźć bardzo podobne sekwencje;
PSI-Blast (w zależności od pozycji iterowany BLAST ), Blast uruchamiał się kilka razy na iterację . W każdej iteracji sekwencja konsensusowa jest określana na podstawie wyników i używana jako sekwencja źródłowa dla następnej iteracji;
PHI-BLAST ( wzorcowy inicjowany Blast ), program wykorzystujący sekwencję białkową i wzorzec jako źródło , przy czym ten ostatni służy jako punkt wyjścia do poszukiwań podobieństwa z sekwencjami obecnymi w bazach danych.

Uwagi i referencje

Greg Gibson, Spencer V. Muse, Lionel Domenjoud, Raymond Cunin ( trad. Lionel Domenjoud), Precis de genomique , Bruksela/Paryż, Uniwersytet De Boeck, 2004, 347 s. ( ISBN 2-8041-4334-1 ) , "2"
(w) SF Altschul , W Gish , W Miller , EW Myers i DJ Lipman , „ Podstawowe narzędzie do wyszukiwania lokalnych wyrównań ” , Journal of Molecular Biology , tom. 215 n O 3, 5 października 1990, s. 403-10 ( PMID 2231712 , podsumowanie )
20 000 razy
Frédéric Dardel i François Képès , Bioinformatyka. Genomika i postgenomika , Palaiseau, Éditions de l'École Polytechnique,2002, 246 s. ( ISBN 2-7302-0927-1 , prezentacja online )

Zobacz również

Powiązane artykuły

Linki zewnętrzne

(pl) Oficjalna strona
(pl) " mpiBLAST Demo " ( Archiwum • Wikiwix • Archive.is • Google • Co robić? ) - wersja równoległa mpiBLAST