Das Nutch Projekt hat mittlerweile ein paar Jahre hinter sich und kann man kann es zu Recht zu den Gold-Standards in Sachen Crawlern zählen.
Soweit so gut, aber was war jetzt eigentlich das Problem? Nun, weil das damalige State-of-the-Art in Sachen Textsuche SOLR war, aber sich Elasticsearch in den letzten Jahren vermehrt durchgesetzt hat, gibt es natürlich auch einen in Nutch integrierten Indexer.
Da in der Version 1.15 allerdings nur Elasticsearch5 unterstützt wird, dürften nicht nur bei unseren Systemen massive Probleme aufgetaucht sein.
Nach überarbeiten der verwendeten Dependencies und Anpassungen des ursprünglichen Indexer Codes kann Nutch nun auch mit Elasticsearch6 verwendet werden. Somit steht uns weiterhin dieses großartige Tool in Kombination mit der aktuellen besten Lösung für Textsuche zur Verfügung.
Den Indexer könnt Ihr kostenlos auf Github herunterladen oder auch gerne etwas dazu beitragen.
Elasticsearch ist eine Suchmaschine auf Basis von Lucene. Es speichert Dokumente in einem NoSQL-Format und ist in JAVA geschrieben. Die Kommunikation mit den unterschiedlichen Clients erfolgt über ein RESTful-Webinterface. Elasticsearch ist neben Solr der am weitesten verbreitete Suchserver.
Wer sich jetzt fragt, was zur Hölle eigentlich Nutch ist, dem sei hiermit erklärt, dass es ein in Java geschriebener Crawler ist. Also ein Werkzeug, um Webseitinhalte abzugreifen und weiter zu verarbeiten. Zum Beispiel in einer Suchmaschine zu indexieren.
Haben Sie Fragen oder Wünsche zum Modul, so würden wir uns über Kontaktaufnahme freuen.
Wenn Sie bzgl. unserer Pimcore Module auf dem bleiben möchtet, so meldet Sie sich zu unserem Newsletter an.
Copyright © 2024 asioso. All Rights Reserved.