Lucene

Apache Lucene

Informacja
Opracowany przez Fundacja Apache
Ostatnia wersja 8,7. 0 (3 listopada 2020 r)
Kaucja github.com/apache/lucene
Napisane w Jawa
System operacyjny Wieloplatformowy
Środowisko Wieloplatformowy
Rodzaj Wyszukiwarka
Licencja Licencja Apache
Stronie internetowej lucene.apache.org

Lucene to biblioteka open source napisana w Javie, która umożliwia indeksowanie i wyszukiwanie tekstu. Jest używany w niektórych wyszukiwarkach .

Jest to projekt fundacji Apache udostępniony na licencji Apache . Jest również dostępny dla języków Ruby , Perl , C ++ , PHP , C # , Python .

Historyczny

Lucene jest najpierw dodany przez Doug Cięcie na SourceForge.net miejscu wMarzec 2000. Następnie jest udostępniany na warunkach licencji GNU Lesser General Public License . Jego przeniesienie do Apache Jakarta zostało ogłoszone wPaździernik 2001.

Projekt Lucene pochodzi z książki Lucene in Action (Lucene in action) opublikowanej w grudniu 2004 roku . Została napisana wspólnie przez Erika Hatchera, jednego z kierowników projektów open source Ant , Lucene i Tapestry oraz przez Otisa Gospodnetic, aktywnego członka projektu Apache Jakarta.

Plik 14 lutego 2005, Lucene migruje do projektu Apache Jakarta . Baza kodu źródłowego jest konwertowana na kontroler wersji SVN .

poniedziałek 12 grudnia 2005, Grant Ingersol przedstawia studium przypadku w Javie na ApacheCon US, dotyczące zaawansowanego wykorzystania komponentów Lucene, w tym szczegółów technicznych dotyczących przetwarzania języka naturalnego .

Dziś Lucene jest używany jako wyszukiwarka bardzo dużej liczby produktów i stron internetowych na całym świecie.

Jak działa Lucene

Indeksacja

Aż do wybuchu internecie , klasyfikacji dziesiętnej Deweya był bardzo skuteczny w kategoryzacji obiektów w bibliotece. Jednak w Internecie masa dostępnych danych stała się tak gigantyczna, że ​​konieczne jest teraz korzystanie z alternatywnych i bardziej dynamicznych sposobów wyszukiwania informacji.

Sercem wszystkich wyszukiwarek jest automatyczny mechanizm indeksowania  : jednorazowe przetwarzanie surowych danych i udostępnianie ich wielu wysoce wydajnych łączy przyspiesza operację wyszukiwania. Koncepcja jest dość podobna do indeksu terminologicznego znajdującego się zwykle na końcu książki, który pozwala szybko znaleźć strony poświęcone zadanemu tematowi.

Jeśli potrzebujesz objąć duże pole plików lub znaleźć określony ciąg znaków w jednym pliku, nie powinieneś skanować każdego pliku sekwencyjnie w poszukiwaniu podanej frazy. Ponieważ im większa liczba plików, tym dłużej trwa wyszukiwanie informacji . Lepiej jest ustanowić indeks tekstowy w formacie umożliwiającym szybkie wyszukiwanie, co pozwala uniknąć metody sekwencyjnej. Ten proces nazywa się indeksowaniem .

Badania

Badań jest działanie patrząc słowa w indeksie znaleźć odniesienia do dokumentów, gdy się one pojawią. Jakość wyszukiwania jest oceniana na podstawie pozycji i trafności wyników. Istnieją jednak inne czynniki, które wpływają na wyszukiwanie. Szybkość jest decydującym czynnikiem w przetwarzaniu dużej ilości informacji. Podobnie, możliwość obsługi prostych lub złożonych zapytań, odpytywania zdań, znaków, pozycjonowania i sortowania wyników jest tak samo ważna, jak łatwa do nauczenia się składnia do wprowadzania tych zapytań.

Zajęcia

Poniższe sekcje zawierają krótkie wprowadzenie do głównych klas używanych do tworzenia tej wyszukiwarki.

Klasy indeksujące

Zajęcia badawcze

Zasoby

Przybory

Powiązane projekty

Wszystkie te projekty są lub były podprojektami Apache Lucene i pozwalają na implementację wyszukiwarki.

Składniki wyszukiwarki

Uwagi i odniesienia

  1. „  LuceneTM Core News  ” (dostęp 3 grudnia 2020 r. )
  2. Strona Lucene na SourceForge
  3. Sesja zaprezentowana na ApacheCon
  4. (w) Lista aplikacji korzystających z Lucene

Załączniki

Bibliografia

  • „ Wprowadzenie do Apache Lucene: konstrukcja systemów pełnotekstowego pobierania pełnotekstowego oprogramowania Java Open Source ” autorstwa Koshi Sekiguti; Gijutsu-Hyohron Co, Ltd; ( ISBN  4774127809 )
  • „ Lucene w akcji ” Erika Hatchera i Otisa Gospodnetića; Manning Publications;grudzień 2004; ( ISBN  1932394281 ) (en) [1]
  • Manfred Hardt, Dr. Fabian Theis: „ Suchmaschinen entwickeln mit Apache Lucene ”; Oprogramowanie i pomoc techniczna Verlag, Frankfurt nad Menem, Niemcy;Wrzesień 2004; ( ISBN  3935042450 )

Powiązane artykuły

Linki zewnętrzne