Supportnet Computer
Planet of Tech

Supportnet / Forum / Webseiten/HTML

Suchfunktion für die eigene Homepage





Frage

Guten Abend ;) Der Titel sagt ja eigentlich schon alles, allerdings stoße ich leider auf ein paar Probleme, die nicht mit google zu lösen waren: Leider sind längst nicht alle Seiten in Google gelistet wodurch Google Custom Search oder etwas derartiges für mich nicht sinnvoll wäre. Zudem wären da noch ungefähr 1000 Datenbank generierte Contentseiten und ein phpBB mit 8500 Posts, alle kostenlosen Angebote die ich bis jetzt gefunden habe waren in der kostenlosen Nutzung auf wenige Seiten beschränkt. Nach längerem googlen bin ich auch auf die scheinbar perfekte Lösung getroffen: swish-e ...leider betreibe ich shared-hosting. :( Geld habe ich [i]natürlich[/i] nicht und Werbung würde ich auch als sehr störend empfinden ; ) ... idealerweise suche ich irgendetwas was regelmäßig mittels Cronjob Crawlt und dann die Informationen in die DB speichert. Naja ich hoffe hier hat irgend jemand einen guten Tipp für mich! Grüße, S1lv3R

Antwort 1 von Mich

Hallo,

schau Dir mal http://phpdig.de/ an.
Funktioniert bei mir (rund 20.000 Seiten) einwandfrei.

Gruß
Mich

Antwort 2 von S1lv3R

Danke für den Tipp. :)
Schaut auf Anhieb sehr schön aus. Habe es sofort installiert und bis jetzt hat alles gut funktioniert, eine Frage habe ich aber noch.
Beim starten der Indizierung gibt er sofort folgendes aus:

Spidering in progress... [Stop spider]
Optimizing tables...
Indexing complete !
[Back] to admin interface.

Ist für mich ein bisschen wiedersprüchlich, aber da ich 15 Minuten gewartet habe und sich auch in der Datenbank nichts getan hat schaut es wohl so aus als würde es irgendein Probleme geben?!

Antwort 3 von Mich

Hallo S1lv3R ,

ist leider schon ein paar Jahre her, daß ich das installiert habe. Ich meine mich dunkel erinnern zu können, daß bei mir die automatische Installation nicht funktioniert hat.
Installiere es mal manuell (http://phpdig.de/suchmaschine/anleitung.html

Ach ja: Das Spidern von vielen und umfangreichen Seiten dauert sehr lange. Dafür ist nachher die Suche blitzschnell.

Sorry, wenn ich Dir nicht wirklich weiterhelfen konnte

Mich

Antwort 4 von S1lv3R

Danke für deine Bemühungen, schließlich ist das hier ja auch nicht das phpdig Supportforum, welches scheinbar nicht existiert. -.-
Habe jetzt mal deinen Rat befolgt und die manuelle Installation versucht. Irgendwie hat mich das hier aber stutzig gemacht:
Zitat:
Um sicherzustellen das die Installation Komplett ist öffnet die Haupt Seite [phpdig_DIR]/index.php mit dem favorisiertem Web Browser.


Komischerweise existiert diese Datei gar nicht, langsam Frage ich mich ob die überhaupt das gleiche Programm meinen. ^^

Zitat:
Ach ja: Das Spidern von vielen und umfangreichen Seiten dauert sehr lange. Dafür ist nachher die Suche blitzschnell.

Wird es denn irgendwie angezeigt das er am Crawlen ist? Ich habe ja ne halbe Stunde gewartet und es ist nichts passiert, ich hätte nun erwartet das sich das Script immer wieder selbst aufruft und man irgendwie einen Fortschritt sieht!

Antwort 5 von Mich

Hallo,

zu Deiner letzten Frage:
Ja, wenn Du auf der Seite "...phpdig/admin/index.php" eine URL eingetragen und auf "Dig This" geklickt hast kommst Du auf die Seite "...phpdig/admin/spider.php".

Und da zeigt er bei mir zum Beispiel:

Zitat:
Der Spider arbeitet gerade... [Stop spider]
SITE : http://www.meine-domain.de/
Ausgeschlossene Pfade :
- artikel/
1:http://www.meine-domain.de/art_frankopf.php?ap=1
(Zeit : 00:00:10)
+ + + + + + + + + +
Level 1...
2:http://www.meine-domain.de/art_frankopf.php?newsid=2464
(Zeit : 00:00:43)

3:http://www.meine-domain.de/art_frankopf.php?newsid=2465
(Zeit : 00:01:08)
...

11:http://www.meine-domain.de/art.php?newsid=47456
(Zeit : 00:04:12)

Kein Link in der temporäreren Tabelle
Links gefunden : 11
http://www.meine-domain.de/art_frankopf.php?newsid=2464
http://www.meine-domain.de/art_frankopf.php?newsid=2465
...
Optimizing tables...
Indizierung abgeschlossen!
[Zurück] zum Admin-Interface.


Das habe ich jetzt einfach kopiert und hier reingestellt. Natürlich heißt meine Domain anders ;-)

Zu Deinen anderen Fragen: sobald ich ein paar Minuten Zeit habe, schaue ich mir mal meine Intallation nochmal an und melde mich nochmal (bis spätestens morgen (Freitag)

Gruß
Mich

Antwort 6 von Mich

Hallo, ich schon wieder,

Bei "[phpdig_DIR]/index.php" ist offenbar in der Dokumentation wirklich ein Fehler; gemeint ist vermutlich "[phpdig_DIR]/admin/index.php"

Ich bin damals bei der Installation beinahe darüber gestolpert, daß man eine Datei (geringfügig) umbenennen muß, was man aber aus der Dokumentation nur mit viel Phantasie herauslesen kann.

Und zwar muß die Datei "include/_connect.php" umbenannt werden in "include/connect.php", sobald sie auf dem Server liegt. (also ohne Unterstrich!)

Datenbank hast Du schon angelegt und Kontakt dazu hast Du auch, oder ?

Gruß

Mich

Antwort 7 von S1lv3R

So sieht es bei mir zum Glück jetzt auch aus. ;)
Habe mal versucht andere Seiten zu spidern und siehe da ... funktionierte problemlos ;)
Totaler Quatsch aber habe einfach mal eine Subdomain erstellt und phpdig von dort aufgerufen....
tja hat funktioniert *fg* aber die robots.txt beachtet das Ding trotzdem nicht ... naja mal schauen ... bei dem Tempo läuft es noch ein bisschen...
Eine ganz kleine Frage hätte ich aber noch ... wenn man bei Search depth... und Links per... 0 angibt, crawlt er dann gar nichts oder unendlich?
Wenn ich das nämlich tue hört er sofort auf, also kann ich im Moment nur 20 / 20 angeben ...
Aber danke für deine Hilfe erstmal!

Antwort 8 von Mich

Hallo,

freut mich, daß es wenigstens halbwegs geht. Wenn eine Subdomain funktioniert und eine Hauptdomain nicht, könnte es vielleicht am DOCTYPE oder Content-Type der Seite liegen (da kenn ich mich aber nicht aus).

Ich habe "Search depth... und Links per..." jeweils auf Null (= Unendlich) stehen, allerdings crawle ich täglich und da kommen immer nur 20 bis 30 neue Seiten dazu.

Damals beim Crawlen von tausenden von Seiten hat es meiner Erinnerung nach auch einige Probleme gegeben; es hat aber schließlich irgendwie funktioniert.

die robots.txt. wird bei mir einwandfrei beachtet.

Paß noch auf, daß Du die URL immer gleich mit (oder immer ohne)"www." angibst, sonst hast Du alles doppelt auf der Datenbank.

Gruß

Mich

Antwort 9 von S1lv3R

Bei 0 ist er immer bei Level 21 abgebrochen, gibt aber einen Wert in der config.php, habe jetzt Suchtiefe 2000 und maximale Links pro Seite auch auf 2000.
Er läuft jetzt gut 1 Stunde und 20 Minuten hat gerade Level 4 erreicht und hat bis jetzt 2700 Seiten bei 22 MB in der DB. Na mal schauen was das noch wird. ;)

Den Tipp mit der Domain werde ich auf jedenfall beherzigen.

Lässt du das tägliche crawlen durch einen Cronjob erledigen?
Würde mich nämlich mal interessieren wie das funktioniert. ;) Davon steht leider in der Doku nicht wirklich viel, bin am überlegen ob das bei mir überhaupt möglich ist da ich keinen direkten Zugriff auf die Crontab habe sondern nur mittels Confixx Cronjobs anlegen kann.

Zitat:

Bei "[phpdig_DIR]/index.php" ist offenbar in der Dokumentation wirklich ein Fehler; gemeint ist vermutlich "[phpdig_DIR]/admin/index.php"


Ich denke da ist eher die search.php im gleichen Ordner gemeint. ;)

Zitat:
Ich bin damals bei der Installation beinahe darüber gestolpert, daß man eine Datei (geringfügig) umbenennen muß, was man aber aus der Dokumentation nur mit viel Phantasie herauslesen kann.


Bei Verwendung der install.php muss man das wohl nicht, an dieser Stelle fehlt die Abgrenzung zwischen manueller und automatischer Installation irgendwie total.

Die deutsche Dokumentation ist wirklich nicht sehr schön, vieles steht da falsch oder nur sehr vereinfacht, safe_mode Off wird nur in einem Nebensatz erwähnt und allow_url_fopen (in der englischen Doku steht auf einmal das wenn dieses auf ´Off´ steht phpDig nicht funktioniert) gar nicht. Die englische ist wirklich viel informativer unter Punkt 2.6. Limits wird z.B. wenigstens mal erwähnt was für eine erfolgreiche Installation Voraussetzung ist!

Antwort 10 von S1lv3R

Ufff, jetzt habe ich doch noch ein Problem!
Er crawlt auf einmal total unsinnige Urls, die ich auf meiner Seite überhaupt nicht nachvollziehen kann.
Er nimmt eine reguläre Url und hängt andere daran.
www.domain.de/ordner/datei?url_parameter/ordner/datei/ordner
Also so eine Verlinkung findet man auf meiner Seite garantiert nicht :)
Könnte das am mod_rewrite liegen?
Könnte mir vorstellen das er so noch die ganze Nacht weiter macht .... naja wär ja zu schön wenn es auf Anhieb funktionieren würde. *fg*

Antwort 11 von Mich

Hallo,
zu Deinem Problem mit den unsinnigen URLs kann ich nichts sagen - das ist bei mir noch nie passiert.

Cronjobs nutze ich nicht, da ich dafür extra bezahlen müßte und das ist es mir nicht wert. Ich habe mir dafür eine eigene (nichtöffentliche) Seite gebaut, auf der mit php aus der Datenbank die Links zu den neuen Seiten der letzten Tage ausgelesen werden.

In den Crawler gebe ich dann einmal am Tag (oder alle zwei, drei Tage) die URL dieser Seite (nicht der Titelseite) ein und bekomme so die neuesten Seiten gecrawlt (Seiten ändern sich bei mir praktisch nie mehr). Das ist eigentlich ganz einfach und streßfrei.

Zitat:
Ich denke da ist eher die search.php im gleichen Ordner gemeint. ;)

Richtig; habe ich kurz nach dem Absenden auch gemerkt.

2700 Seiten in 1 Stunde, 20 Minuten ist eher schneller als bei mir - das Ding läßt sich beim crawlen Zeit.

Noch eine Schwäche des Programm: In den Index aufgenommene Seiten lassen sich dort nur umständlich wieder löschen (nämlich nur einzeln; oder den ganzen Ordner) Wenn Du da eine bessere Lösung entdeckt wäre ich für einen Tipp dankbar.

Gruß

Mich

Antwort 12 von S1lv3R

Die falschen Urls werden wohl doch irgendwie mein Fehler sein ... muss wohl nochmal Errorpages einbauen damit sowas nicht durch eine falsche Url entsteht.

Werde wohl auch deine Methode anwenden, mein Provider wird es mir danken. ;)

Das entfernen der Urls ist wirklich etwas nervig vorallem da in meinen Urls keine Ordnerstruktur vorhanden ist.

Naja vielleicht finde ich wirklich noch irgendwie eine bessere Methode, werde mich dann auf jedenfall nochmal melden. ;)

Ich möchte kostenlos eine Frage an die Mitglieder stellen:


Ähnliche Themen:


Suche in allen vorhandenen Beiträgen: