Evaluation of query expansion methods for semantic search over german legal norms

Semantic search aims at understanding the information need of a users query and thus improve the effectiveness of the search. To our knowledge, free, public search systems in the German legal domain rely on simple lexical matching for document retrieval. In this work we present a prototype for the semantic search over German legal norms. We compare vector space models (word2vec, doc2vec and SBERT) on their ability to calculate document embeddings for similarity based ranking. Furthermore, we implement two query expansion techniques. Tue first technique is based on pseudo relevance feedback in which the users initial query is expanded by terms found in the relevant results retrieved by the initial query. Tue second expansion technique is based on external knowledge found in a thesaurus. Additionally, a vector space model is used to identify a relevant document during pseudo relevance feedback and for the ward-sense disambiguation of candidate terms in both techniques. An experiment, which was conducted with a law expert, showed that semantic techniques have the potential to aid the search over German legal documents. 

Die semantische Suche zielt darauf ab, das Informationsbedürfnis eines Nutzers zu verstehen und so die Effektivität der Suche zu verbessern. Unseres Wissens nach nutzen freie, öffentliche Suchsysteme im deutschen Rechtsbereich eine einfache Volltextsuche für das Abrufen von Dokumenten. In dieser Arbeit stellen wir einen Prototyp für die semantische Suche über deut­sche Rechtsnormen und Gesetzestexte vor. Wir vergleichen Vektorraummodelle (word2vec, doc2vec und SBERT) hinsichtlich ihrer Fähigkeit, Dokument-Embeddings für einÄhnlichkeit­basiertes Ranking zu berechnen. Darüber hinaus implementieren wir zwei Techniken zur Expansion von Suchanfragen. Die erste Technik basiert auf einem pseudo-Relevanz-Feedback­Ansatz, bei dem die ursprüngliche Suchanfrage des Benutzers mit Begriffen erweitert wird, die in den relevanten Ergebnissen der ursprünglichen Anfrage gefunden wurden. Die zweite Erweiterungstechnik nutzt externes Wissen, welches in einem Thesaurus gefunden wird. Zusätzlich wird ein Vektorraummodell verwendet, um ein relevantes Dokument während des Pseudo-Relevanz-Feedbacks zu identifizieren und für die Sinn-Disambiguierung von Begriffen in beiden Techniken. Eine Evaluation, die mit einem Rechtsexperten durchgeführt wurde, hat gezeigt, dass semantische Techniken das Potenzial haben die Suche in deutschen juristischen Dokumenten zu unterstützen. 

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten