Latent Semantic Indexing (LSI)

Latent Semantische Indizierung (LSI)

Eine künftig immer wichtiger werdende Technologie von Suchmaschinen ist die Latent Semantische Indizierung, die teilweise bereits eingesetzt wird. Sind bisher zu einer Sucheingabe nur Webseiten in den Suchergebnissen aufgelistet worden, die genau das Keyword beziehungsweise die Keyword-Kombination enthielten, wird durch die Latent Semantische Indizierung dieser Service erweitert. Für Suchmaschinen wird es durch diese technische Entwicklung machbar, den Sinn und die Bedeutung von Textinhalten der Webseiten zu verstehen und sie damit bei gegebener Themenverwandtschaft als relevant einzustufen, obwohl der Suchbegriff nicht in seiner Form auftritt. Zum angefragten Keyword werden dann themenrelevante Webseiten in den Suchergebnissen auch angezeigt. Genau an diesem Punkt wird die Semantik benötigt. Semantik ist ein Gebiet aus der Sprachforschung und befasst sich mit Sinn und Bedeutung von beispielsweise Wörtern und deren Beziehungen untereinander. Dieses Forschungsgebiet ist wichtig für die Latent Semantische Indizierung, damit Suchmaschinen lernen können, welche Textinhalte von verschiedenen Webseiten thematisch zueinander passen und damit bei einer Sucheingabe mit berücksichtig werden sollten, obwohl das Keyword nur latent vorkommt. Also das Keyword „tritt in Erscheinung, ist aber nicht vorhanden“, was der Definition von „latent“ entspricht.

Ob und welche textlichen Webinhalte zu einem Keyword als „semantisch nahe“ oder „semantisch entfernt“ indiziert werden, hängt von semantischen Wörtern, Phrasen, Wortkombinationen, Synonymen, Antonymen und ähnlichem ab, die auf den verschiedenen Webseiten gefunden werden. Natürlich bleiben Wörter, die in jedem Text regelmäßig vorkommen, wie beispielsweise Wörter wie „und“, „der, die, das“, unbeachtet. Das wird bis zu einem Grad betrieben, bei dem nur noch die thematisch wichtigen Wörter (Content Words) übrig bleiben. Nach einem Vergleich der Webseiten werden sie als semantisch nahe bewertet, wenn möglichst viele Content Words vorhanden sind und dementsprechend semantisch fern, wenn kaum Content Words vorkommen. Die semantisch nahen Webseiten werden weiter vorne in den Suchergebnissen aufgelistet als weniger relevante Webseiten, sogar wenn das Keyword nicht erscheint. Damit werden von Suchmaschinen, die Latent Semantische Indizierung anwenden, dem Benutzer einer Suchmaschine zu einer Suchanfrage mehr relevante Webseiten angezeigt, ohne dass er extra verschiedene, zum Thema passende Keywords abfragen muss. Die LSI wird weiterentwickelt und ist ein Anfang, um die immer mehr werdenden Informationen im WWW besser zu verwalten, indem die Inhalte sinngemäß in Kategorien eingestuft werden.

Weiter zu: LSI Technologie (Latent Semantic Indexing Technology)
Wechsel zu: EN-Version