Gąsienicowy (w angielskiej internetowej robota lub pajęczynie , dosłownie Pająk w internecie ) to oprogramowanie , które automatycznie indeksuje Web . Jest on zazwyczaj przeznaczone do zbierania zasobów ( stron internetowych , zdjęć , filmów , dokumentów programu Word , PDF lub PostScript , itd.), Aby umożliwić danej wyszukiwarce „s indeksu .
Działając na tej samej zasadzie, niektóre złośliwe roboty ( spamboty ) są wykorzystywane do archiwizowania zasobów lub zbierania adresów e-mail w celu wysyłania wiadomości e-mail .
W języku francuskim od 2013 r. Crawler można zastąpić słowem collector .
Istnieją również kolekcjonerzy, którzy dokładnie analizują zawartość, aby odzyskać tylko część swoich informacji. Niektóre frameworki stworzone jako Scrapy istnieją do pisania takich robotów.
Aby zindeksować nowe zasoby, robot kontynuuje cyklicznie podążając za hiperłączami znalezionymi na stronie przestawnej. Następnie korzystne jest przechowywanie adresu URL każdego pobranego zasobu i dostosowanie częstotliwości odwiedzin do obserwowanej częstotliwości aktualizacji zasobu. Jeśli jednak robot postępuje zgodnie z regułami zawartymi w pliku robots.txt, wiele zasobów wymyka się tej rekurencyjnej eksploracji. Ten niezbadany zbiór zasobów nazywa się Deep Web lub Invisible Web.
Plik wykluczeń ( robots.txt) umieszczony w katalogu głównym witryny internetowej służy do przekazywania robotom listy zasobów do zignorowania. Ta konwencja pomaga zmniejszyć obciążenie serwera internetowego i uniknąć niepotrzebnych zasobów. Jednak niektóre boty nie przejmują się tym plikiem.
Dwie cechy sieci WWW utrudniają pracę robotowi indeksującemu: ilość danych i przepustowość . Ponieważ możliwości przetwarzania i przechowywania komputerów, a także liczba użytkowników Internetu znacznie wzrosły, wiąże się to z rozwojem narzędzi do obsługi stron typu Web 2.0, umożliwiających każdemu łatwe przesyłanie treści, liczby i złożoności dostępnych stron i obiektów multimedialnych. i ich modyfikacji, znacznie zwiększa się w pierwszej dekady XXI -tego wieku . Ponieważ przepustowość autoryzowana przez pasmo przepustowe nie osiągnęła równoważnego postępu, problemem jest przetwarzanie coraz większej ilości informacji przy stosunkowo ograniczonej przepustowości. Dlatego roboty muszą priorytetowo traktować pobieranie.
Zachowanie robota indeksującego wynika z połączenia następujących zasad:
W Web 3.0 określa nowe pożyczki i Badań zasadami technicznymi Internetu , które będą musiały polegać w części standardów Semantic Web . Boty Web 3.0 będą wykorzystywać metody indeksowania obejmujące inteligentniejsze skojarzenia człowiek-maszyna niż te stosowane obecnie.
Sieć semantyczna różni się od semantyki stosowanej w językach: podczas gdy semantyka językowa obejmuje znaczenie słów złożonych, a także relacje między wszystkimi słowami w języku, sieć semantyczna reprezentuje jedynie architekturę relacji i treści obecnych w sieci.