Die wdf*idf-Formel gibt einen Richtwert an, wie häufig ein Keyword auf einer Seite verwendet werden sollte, damit es einerseits eine natürlich wirkende Implementierung widerspiegelt und andererseits relevante Signale an die Suchmaschine sendet, zu welchem Keyword eine Website ranken soll.
Wenn man in Suchmaschinen wie Google bei bestimmten Suchanfragen ranken möchte, kommt man um die Verwendung von Keywords nicht drum herum. Suchmaschinen erkennen durch die Verwendung bestimmter Schlagwörter, um was es auf einer Website geht und zu welchen Suchanfragen sie passt. Doch in welchem Verhältnis sollte man ein Keyword verwenden? Ist auf einer beispielhaften Seite www.fahrradsattel.de jedes dritte Wort „Fahrradsattel“, ist das nicht nur für den Lesefluss des Users sehr anstrengend, sondern auch unklug im Hinblick auf die Suchmaschine. Die zu häufige Verwendung eines Keywords wird von der Suchmaschine als Keyword Stuffing negativ bewertet. Ein ungefähres Richtmaß hat sich in den letzten Jahren mit der wdf*idf-Formel etabliert, die die etwas veraltete Berechnungsmethode der Keyword-Dichte aufnimmt und erweitert.
wdf*idf ist aus zwei einzelnen Formeln zusammengesetzt, der „within document frequency“-Formel, die mit der „inverse document frequency“ multipliziert wird. Die wdf-Formel beschreibt, wie relativ häufig ein Term innerhalb eines Dokumentes vorkommt. Ein Term kann dabei aus einem Wort oder einer Wortkombination bestehen. Man stellt sich also die Frage: Wie oft kommt ein Term in einem Dokument in Relation zu allen anderen Termen vor? Hier ist dir Formel:
Dabei wird die „within document frequency“ des Terms i bestimmt. Die Häufigkeit (Freq) eines Terms (i) im Dokument (j) geteilt durch die Gesamtanzahl aller Terme im Dokument (L) beschreibt dabei die Formel, mit der man die Keyword-Dichte bestimmen kann. In der wdf-Formel wird diese Formel durch einen Logarithmus zur Basis 2 erweitert. Warum dieser Logarithmus? Er erzeugt einen „gestauchten“ Wert. Bei der Keyword-Dichte wird lediglich die prozentuale Verteilung eines einzelnen Wortes im Verhältnis zu der Gesamtwortzahl des Dokumentes bestimmt. Der Logarithmus bei der wdf-Formel berücksichtigt auch das Verhältnis aller im Text verwendeten Wörter. Dadurch nähert sich der Wert viel eher der natürlichen Sprache an.
Dies verhält sich ähnlich beim idf-Teil. Idf bedeutet „inverse document frequency“. Sie bezieht sich auf den Index bzw. den Datenstamm einer Suchmaschine. Die idf passt den Wert aus der wdf sozusagen noch einmal an. Sie betrachtet die Häufigkeit von Dokumenten an sich, die sich auf einen bestimmten Term beziehen, also ein bestimmtes Keyword beinhalten. Die Gewichtung eines Terms wird also auch in Beziehung zu allen anderen Dokumenten mit diesem Term gesetzt, die sich im Index einer Suchmaschine befinden. Die Anzahl des Keywords „Fahrradsattel“ auf der Beispiel-Site www.fahrradsattel.de wird so in Verhältnis zu allen anderen Dokumenten im Suchmaschinenindex gesetzt, die das Hauptkeyword „Fahrradsattel“ beinhalten. Unter Berücksichtigung dieser anderen Seiten wird die Gewichtung des Terms nun beurteilt. Zur idf gibt es natürlich auch eine Formel:
Dabei stellt ND die Anzahl aller Dokumente im Index dar und Fi die Anzahl aller Dokumente, in denen der Term i vorkommt. Auch hier wird wieder der Logarithmus – dieses Mal zur Basis 10 – eingesetzt, um einen „gestauchten“ Wert zu erzeugen. Je mehr Dokumente mit diesem bestimmten Term in einem Index vorkommen, umso kleiner ist die IDF des Terms. Wenn man wdf jetzt mit idf multipliziert, erhält man die relative Termgewichtung eines Dokumentes im Index im Verhältnis zu allen potenziell möglichen Dokumenten mit dem gleichen Keyword. Der Wert beschreibt also, wie aussagekräftig ein Dokument zu einem bestimmten Term ist, verglichen mit allen anderen Dokumenten aus dem Index. Je mehr Daten bzw. Dokumente im Index sind, desto besser, denn desto genauer ist das Ergebnis.
Seit einigen Jahren hat sich die wdf*idf-Optimierung von Texten in der OnPage-Optimierung durchgesetzt. Wer seinen textuellen Content hinsichtlich des wdf*idf-Verhältnisses überprüfen möchte, kann dazu unterschiedliche Tools nutzen, die alle auf einem ähnlichen Prinzip basieren. Man wählt das zu optimierende Keyword und das Land, für das der Text optimiert werden soll, aus. Dann spuckt das Tool die zum Suchbegriff am besten rankenden Seiten aus und ermittelt so die für den Suchbegriff relevanten Terme und Termgewichtungen. Für jeden Begriff wird der ideale wdf-Wert ermittelt. Damit kann der eigene Wert dann verglichen werden. Manche Tools bieten dazu noch einen Text-Assistenten an, der bei der Optimierung der Texte hilft.