Wyszukiwarka jest aplikacja internetowa pozwala użytkownikowi na przeprowadzenie wyszukiwania w Internecie (lub przeszukiwanie Internetu ), to znaczy, aby znaleźć środki z zapytania składa się z warunkami. Zasoby mogą być w szczególności stron internetowych , że przedmioty z forów dyskusyjnych , te zdjęcia , to filmy , że pliki , książki, strony edukacyjne, aplikacje , z oprogramowania open source .
Zasadniczo działają one na ogół:
Niektóre strony internetowe oferują wyszukiwarkę jako główną funkcjonalność; sama witryna jest wtedy nazywana „wyszukiwarką”. Są to narzędzia badawcze w sieci bez ingerencji człowieka, co odróżnia je od katalogów . Opierają się one na „ robotach ”, zwanych również „ botami ”, „ pająkami ”, „ przeszukiwarkami ” lub „agentami”, które automatycznie przeglądają witryny w regularnych odstępach czasu w celu znalezienia nowych adresów ( adresów URL ). Śledzą hiperłącza, które łączą strony ze sobą, jedna po drugiej. Każda zidentyfikowana strona jest następnie indeksowana w bazie danych , do której internauci mogą uzyskać dostęp za pomocą słów kluczowych .
Poprzez nadużywanie języka nazywamy również „wyszukiwarkami” witryny oferujące katalogi witryn internetowych: w tym przypadku są to narzędzia badawcze opracowane przez osoby, które wymieniają i klasyfikują witryny uznane za godne zainteresowania, a nie roboty sieciowe.
Wyszukiwarki mają zastosowanie nie tylko w Internecie: niektóre wyszukiwarki to oprogramowanie instalowane na komputerze osobistym . Są to tak zwane silniki „desktopowe”, które łączą wyszukiwanie wśród plików przechowywanych na komputerze i wyszukiwanie wśród stron internetowych – np. Copernic Desktop Search, Windex Server itp.
Istnieją również metawyszukiwarki , czyli strony internetowe, w których to samo wyszukiwanie jest uruchamiane jednocześnie w kilku wyszukiwarkach, a wyniki są następnie łączone w celu zaprezentowania internautom .
Wyszukiwarki internetowe poprzedzają początki sieci pod koniec 1990 roku:
Wyszukiwarki czerpią inspirację z narzędzi do wyszukiwania dokumentów (opartych na odwróconych plikach , czyli plików indeksowych ) używanych na komputerach mainframe od lat 70., takich jak oprogramowanie STAIRS firmy IBM . Sposób uzupełniania ich baz danych jest jednak inny, ponieważ jest zorientowany na sieć . Ponadto rozróżnienie między danymi sformatowanymi („polami”) a wolnym tekstem już nie istnieje, chociaż od 2010 r. zaczęło się ono ponownie wprowadzać za pośrednictwem sieci semantycznej .
Historycznymi silnikami były Lycos (1994), Altavista (1995, pierwszy silnik 64-bitowy) i Backrub (1997), przodek Google .
Funkcjonowanie wyszukiwarki, jak każdego narzędzia badawczego , można podzielić na trzy główne procesy:
Moduły uzupełniające są często używane w połączeniu z trzema podstawowymi blokami konstrukcyjnymi wyszukiwarki. Najbardziej znane to:
Sprawdzanie pisowni: | Lematyzator: | Antysłownik: |
---|---|---|
Pozwala poprawić wprowadzone błędy errors
słowami prośby, upewniając się, że ich znaczenie, biorąc pod uwagę ich forma kanoniczna. |
Daje możliwość redukcji
szukaj słów do ich lematu dla rozszerzając tym samym ich zakres badawczy.
|
Służy do usuwania wszystkich
„puste” słowa (takie jak „of”, „the”, „the”) które są niedyskryminujące i przeszkadzają wynik wyszukiwania poprzez wprowadzenie szumu . Usuwanie odbywa się w indeksie i w prośby. |
W celu optymalizacji wyszukiwarek webmasterzy wstawiają meta - elementy (metatagi) na stronach internetowych , w nagłówku HTML (head). Informacje te umożliwiają optymalizację wyszukiwania informacji na stronach internetowych .
Witryny, które służą głównie badaniom, są finansowane ze sprzedaży technologii i reklam.
Finansowanie reklamy polega na prezentowaniu reklam odpowiadających słowom wyszukiwanym przez odwiedzającego. Reklamodawca kupuje słowa kluczowe: na przykład biuro podróży może kupić słowa kluczowe, takie jak „wakacje”, „hotel” i „plaża” lub „Cannes”, „Antibes” i „Nicea”, jeśli specjalizuje się w tym regionie. Zakup ten umożliwia uzyskanie referencji zwanej „płatną referencją” w celu odróżnienia od referencji zwanej „naturalną referencją”.
Wyszukiwarka może wyświetlać ogłoszenie na dwa sposoby: jako osobny insert lub jako część wyników wyszukiwania. Dla zwiedzającego osobna wkładka wygląda jak klasyczna reklama. Z drugiej strony integracja z wynikami szkodzi ich trafności i może mieć negatywny wpływ na postrzeganą jakość silnika. Z tego powodu nie wszystkie silniki sprzedają inwestycję w wyniki.
Wyszukiwarki to kwestia ekonomiczna. Wartość giełdowa holdingu Alphabet, którego właścicielem jest główna wyszukiwarka Google , wyniosła w kwietniu 2020 r. 831 miliardów dolarów.
Znaczenie stawek ekonomicznych generowało techniki nieuczciwego przekierowania wyszukiwarek w celu uzyskania „naturalnych” odsyłaczy, spamdexing (abusive referencing w języku francuskim).
Najpopularniejsze techniki spamdexingu to:
Obraźliwe techniki odsyłania są ścigane przez wydawców wyszukiwarek, które stanowią czarne listy, tymczasowe lub ostateczne.
Rozróżniamy spamdexing , nieuczciwą dywersję, od „SEO”, Search Engine Optimization ( optymalizacja dla wyszukiwarek w języku francuskim). Techniki SEO są sprzedawane przez wyspecjalizowane firmy.
Duże organizacje (firmy, administracje) na ogół dysponują dużą liczbą zasobów IT w dużym intranecie . Ponieważ ich zasoby nie są dostępne z Internetu , nie są one objęte wyszukiwarkami internetowymi. Muszą więc zainstalować własny silnik, jeśli chcą przeszukiwać swoje zasoby. Stanowią więc rynek dla twórców wyszukiwarek. Nazywa się to wyszukiwarką biznesową (patrz poniżej).
Zdarza się również, że publiczne strony internetowe korzystają z usług wyszukiwarki w celu rozszerzenia swojej oferty. Nazywa się to „SiteSearch”. Oprogramowanie to umożliwia wyszukiwanie treści w jednej lub kilku grupach witryn. Technologie te są w szczególności stosowane w witrynach z treścią i witrynach sprzedaży online. Cechą charakterystyczną tych narzędzi jest często złożoność wdrożenia i dostępne niezbędne zasoby techniczne.
Duże portale mogą również wykorzystywać technologię wyszukiwarek. Więc Yahoo! , specjalista od katalogów internetowych , przez kilka lat korzystał z technologii Google do wyszukiwania, aż w 2004 r. uruchomił własną wyszukiwarkę Yahoo Search Technology, której fundamenty wyszły z Altavista, Inktomi i Overture, firm założycieli wyszukiwarek i przejętych przez Yahoo! .
Coraz więcej producentów treści, zgodnie z zaleceniami W3C dotyczącymi sieci semantycznej , indeksuje swoje bazy danych metadanymi lub taksonomiami ( ontologiami ), aby umożliwić wyszukiwarkom przystosowanie się do analiz semantycznych .
Te formy komputerowego badania i analizy zbioru informacji to wciąż tylko potencjalności.
W porównaniu z wyszukiwaniami pełnotekstowymi wyszukiwania przeprowadzane w sieci semantycznej powinny być bardziej przyjazne dla użytkownika:
Ściśle mówiąc, nie ma jeszcze semantycznej wyszukiwarki, która umożliwiałaby zrozumienie pytania w języku naturalnym i dostosowanie odpowiedzi do znalezionych wyników.
Istnieją jednak próby znalezienia pośredniej odpowiedzi na tę problematykę znaczenia w poszukiwaniu informacji:
Stopniowa rezygnacja z drukowanych katalogów skłania użytkowników do przeprowadzania tych samych poszukiwań w Internecie „zawód + miejscowość”. W związku z tym w 2010 r. Google nabył plik firm (dla Francji i niektórych krajów), aby wykonać mieszankę danych internetowych i katalogowych, gdy żądania odpowiadają zlokalizowanej działalności. Ten nowy trend potwierdzają główne wyszukiwarki i pojawiają się nowe „narzędzia mieszane”. Yandex i Baidu nie przyjęły jeszcze tego modelu mieszania.
Według badania przeprowadzonego przez McKinsey & Co, tylko 65% francuskich MŚP było obecnych w Internecie w 2013 roku. Według innego badania , odsetek ten sięga 72% dla wolnych zawodów (prawnicy, dentyści, lekarze, notariusze, komornicy, pielęgniarki itp.).
Wyszukiwarki, które z definicji zbierają tylko dane z Internetu, były zatem zobowiązane do pozyskania i oferowania tych adresów katalogów w uzupełnieniu do zaspokojenia wyszukiwania adresów przez internautów. Google ochrzcił te adresy „Adresami Google”, a następnie automatycznie przełączył się na „Google +”, obecnie „ Google Moja Firma ”. Wyszukiwarki Bing i Google nie informują o pochodzeniu tych zintegrowanych plików firmowych, z wyjątkiem Yahoo! która jest we współpracy z Pages Jaunes .
Francja | Niemcy | Kanada | Stany Zjednoczone | Meksyk | Brazylia | Maroko | |
---|---|---|---|---|---|---|---|
94,21% | 94,54% | 92,38% | 84,8% | 94,9% | 97,35% | 97,31% | |
Bing | 2,95% | 2,89% | 4,31% | 5,59% | 3,36% | 1,32% | 1,79% |
Wieśniak | 1,53% | 0,84% | 2,33% | 8,35% | 1,51% | 1,18% | 0,71% |
Qchant | 0,7% | ||||||
KaczkaKaczkaGo | 0,25% | 0,67% | 0,73% | 1,01% | 0,09% | 0,01% | 0,08% |
Msn | 0,1% | 0,08% | 0,1% | 0,02% | |||
Yandex | 0,03% |
Wyszukiwarki metasearch to narzędzia wyszukiwania, które jednocześnie przeszukują wiele wyszukiwarek i wyświetlają użytkownikowi odpowiednią syntezę.
Przykłady: strona startowa , Searx , stara i Lilo , Framabee .
Termin „ wielosilnikowy (en) ” (lub rzadziej „super silnik”) oznacza stronę internetową oferującą jeden lub więcej formularzy umożliwiających odpytywanie kilku silników. Może to być również (ale rzadziej) oprogramowanie, funkcja lub wtyczka przeglądarki internetowej lub pasek narzędzi ...
Wyboru jednego z silników można dokonać za pomocą przycisku , przycisku radiowego , zakładki , listy rozwijanej lub innych.
Pierwsze strony tego typu skopiowały kod formularza kilku silników. Wraz z pojawieniem się JavaScript stało się możliwe posiadanie tylko jednej formy.
Możemy przytoczyć np. Creative Commons Search , Ecosia , Disconnect , wyszukiwarkę Maxthona , HooSeek (zamknięty w 2012 roku).
Termin „wyszukiwarka solidarności” jest używany do określenia wyszukiwarki, która przekazuje część swoich dochodów na cele ekologiczne, społeczne lub humanitarne. Silniki te zrodziły się z obserwacji, że roczne przychody generowane przez reklamy w wyszukiwarkach są dość znaczne (około 45 USD na użytkownika dla Google). Wyszukiwarki solidarnościowe wyróżniają się w szczególności sposobem podziału generowanych dochodów. Niektóre silniki, takie jak Ecosia, przeznaczają część dochodu na jeden cel , podczas gdy silniki takie jak Lilo pozwalają internautom wybierać projekty do finansowania.
Zobacz listę wyszukiwarek solidarnościowych.
Termin „silniki pionowe” oznacza stronę internetową lub usługę multimedialną, która oferuje specjalistyczne badania w dziedzinie zawodowej lub jest szczególnie ukierunkowana. To narzędzie badawcze specjalizuje się w konkretnym sektorze, takim jak telekomunikacja, prawo, biotechnologia, finanse (ubezpieczenia), a nawet nieruchomości. Jego ogólne działanie opiera się na bazie danych utworzonej z baz danych wszystkich wyspecjalizowanych witryn docelowej działalności.
Ten typ silnika jest używany przez profesjonalistów i skierowany do konsumenta, najczęściej w celu ekonomicznym, który wynika z geolokalizacji.
Istnieją zatem katalogi i komparatory dla ogółu społeczeństwa. Są teraz dostępne dla wszystkich działań: nieruchomości, turystyki, poszukiwania pracy, rekrutacji, samochodów, wypoczynku, gier.
Eksplozja ilości treści w różnych formatach (dane, nieustrukturyzowane informacje, obrazy, filmy itp.) dostępnych w firmach zmusza je do wyposażenia się w wewnętrzną wyszukiwarkę.
Według badania przeprowadzonego przez MARKESS International w Luty 2008, 49% organizacji korzysta już z korporacyjnej wyszukiwarki, a 18% planuje używać jej do 2010 r. Wyszukiwarki te są w większości zintegrowane ze stacjami roboczymi lub narzędziami do elektronicznego zarządzania dokumentami , ale znajdują się w coraz większej liczbie firm, które są w stanie obsłużyć zarówno wewnętrzne i treści firm zewnętrznych lub zintegrowane z narzędziami do zarządzania treścią lub rozwiązaniami analizy biznesowej.
Wśród graczy oferujących korporacyjne wyszukiwarki znajdują się Google , Exalead , PolySpot czy OpenSearchServer .
Technologie analizy języka, takie jak lematyzacja, wyodrębnianie nazwanych jednostek, klasyfikacja i klastrowanie, mogą znacznie usprawnić działanie wyszukiwarek. Technologie te umożliwiają zarówno poprawę trafności wyników, jak i zaangażowanie internauty w bardziej efektywny proces wyszukiwania, jak ma to miejsce w przypadku wyszukiwania fasetowego .
Według badania ADEME „Internet, e-maile, zmniejszanie wpływu” opublikowanego wLuty 2014Przejdź bezpośrednio do adresu witryny lub wpisując jej adres w przeglądarce, rejestrując ją jako „ulubioną” (zamiast przeszukiwać witrynę za pomocą wyszukiwarki) podzieloną przez 4 emisje gazów cieplarnianych .