Thema: Wie kommt es dass Google Links in nichtöffentliche Homepagebereiche kennt bzw sogar die Zielseiten speichert?


Seite durchsuchen:
Home


zurück zur Übersicht

Diskussionsgruppe: Webseiten/HTML

Hi!

Beim Suchen mit Google ist es mir schon öfter passiert, dass ich Trefferlinks zu Internetforen bekommen habe, denen ich nicht folgen konnte, weil dann eine Fehlermeldung nach der Art "Sie müssen angemeldet sein um diese Seite sehen zu können" kam. An dem kleinen Textauszug mit den fettgedruckten, gefundenen Suchbegriffen, den Google zu jeder Seite anzeigt, ist aber ersehbar, dass Google den Originalthread sehen konnte. Oftmals kann man sich den sogar über die Google-Cachefunktion anzeigen lassen.
Wie kann das den sein, dass Google in derartige geschützte Bereiche hineinkommt und ein Normaluser nicht?

Gruss,
Björn

Von: Björn Datum: 17.01.2007, 11:06

alle Antworten zu dieser Frage




Antwort 1 von conny77 vom 17.01.2007, 11:44
Vielleicht weil der Forenwebmaster es so eingestellt hat, dass der Google-Bot Zugang zu bestimmten Foren hat. Ziel: Neue Interessenten finden, die sich dann anmelden und dabei ihre E-Mail-Adresse hinterlassen.

Antwort 2 von Björn vom 17.01.2007, 18:21
Zitat:
.. es so eingestellt hat..

Hm, aber wie kann die technische Realisierung dann aussehen?

Gruss,
Björn

Antwort 3 von drago vom 17.01.2007, 20:51
.htaccess !

Mit Einträgen in dieser Datei macht man das.
(Apache Server vorausgesetzt)

Antwort 4 von Björn vom 17.01.2007, 22:54
Zitat:
.htaccess !

Aber wie funktioniert die Erkennung?

Gruss,
Björn

Antwort 5 von S1lv3R vom 20.01.2007, 00:15
Der Google-Bot identifiziert sich über den Useragent "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
der kann mittels %{HTTP_USER_AGENT} in der .htaccess ausgelesen und dann mittels mod_rewrite an eine alternative Url weitergeleitet werden, wahrscheinlich wird dem Bot nun automatisch eine SessionID zugewiesen, die an seine IP gebunden ist, der Besucher der dem Link aus den SERPs folgt hat natürlich eine andere IP und wird aufgefordert sich einzuloggen bzw. sich zu registrieren.
Das wäre jedenfalls eine Möglichkeit so etwas zu realisieren.
Wenn du das konkret einbauen willst musste sonst hier nochmal nachfragen.
Grüße,
S1lv3R

Antwort 6 von Björn vom 20.01.2007, 00:33
Bist Du sicher, dass es nur der UserAgent ist? Wäre ja leicht zu faken!

Zitat:
Wenn du das konkret einbauen willst musste sonst hier nochmal nachfragen.

Nein ich frage nur aus Neugierde.

Gruss,
Björn

Antwort 7 von Supermax vom 20.01.2007, 09:05
Google und andere Suchmaschinen greifen meistens von statischen und mittlerweile wohlbekannten IP-Adressen aus zu; man kann also zusätzlich zur Überprüfung des User-Agents auch die IP-Adresse überprüfen, von der aus die Anfrage kommt.

Antwort 8 von S1lv3R vom 21.01.2007, 00:34
Habe nur die Vorgehensweise beschrieben die ich mal in einem Script für ein phpBB in diesem Zusammenhang gesehn habe. ;)

Klar kann man das fälschen, aber wer sollte das tun?
Außerdem wäre der Zweck ja trotzdem erfüllt, die Seite wird durch Google gecrawlt, der Besucher kommt durch die SERPs muss sich aber trotzdem anmelden.

Gibt wohl kaum einen User, der durch das System durchcheckt und es erfolgreich umgeht, nur um sich nicht registrieren zu müssen. ;)

Selbstverständlich könnte man auch die IP verwenden, aber aufwändiger ist das allemal.
1. Gibt es mehrere IPs aber nur einen Useragent.
2. Können sich die IPs im Zweifelsfalle ändern der Useragent bleibt aber immer gleich.

Frage mich am Rande aber auch wie das in diesem Falle mit den Google Richtlinien steht, Grundsatz ist ja eigentlich, dass dem Bot kein Content geboten werden soll den der Nutzer nicht sehen kann, ist die Frage inwieweit, dass bei einer erforderlichen Registrierung der Fall ist. Naja in solchen Fällen kann man eh nur spekulieren, von Google erhält man jedenfalls keine konkreten Hinweise.

Antworten der Gruppe: Webseiten/HTML
www.supportnet.de







Office 365 stellt vertraute Microsoft Office-Tools für die Zusammenarbeit und Produktivität über die Cloud bereit. So können alle ganz einfach von nahezu überall zusammenarbeiten und auf E-Mails, Webkonferenzen, Dokumente und Kalender zugreifen.

07101 07102 07103 07104 07105 07106 07107