Archiv verlassen und diese Seite im Standarddesign anzeigen : Crawler-Besuche: Verbieten?
frank.reissmann
08.12.2002, 18:31
Einen schönen 2. Advent an alle,
in meinem Webalizer-Bericht für November sehe ich, dass der Crawler 'Almaden' von IBM (http://www.almaden.ibm.com/cs/crawler/) auf meiner Website zu Besuch war. Hat jemand mit dem Erfahrung? Was machen Crawler eigentlich genau? Ist das sowas wie archive.org (http://forum.domainfactory.de/forum/showthread.php?s=&threadid=5326)? Soll ich ihn in einer robots.txt von weiteren Besuchen auf meiner Site ausschließen? Was meint Ihr?
Viele Grüße von :-?
Thomas Roessing
08.12.2002, 18:44
Moin Frank,
Crawler indexieren normalerweise Webseiten für Suchmaschinen. Die Suchmaschinen müssen ja irgendwoher wissen, was auf den Internetseiten drauf ist, wenn ein User kommt und fragt. Für gewöhnlich sind Crawler also gut für Dich, weil sie dafür sorgen, daß die Suchmaschinen Suchende zu Dir leiten. Dämlicherweise kann es vorkommen, daß Freak-Bots (http://forum.domainfactory.de/forum/showthread.php?s=&threadid=10611) einen Haufen Traffic verursachen. In dem genannten Thread ist IIRC auch erklärt, wie man lästige Bots aussperren kann (mein Lieblings-Freak-Bot von Fast ignoriert die robots.txt einfach und läßt sich nur knallhart durch eine .htaccess davon abhalten, auf meinen Seiten zu randalieren). Man sollte nur darauf achten, nicht alle Bots auszusperren, denn dann wüßten nach einiger Zeit auch Google et.al. nicht mehr über Deine Seite bescheid.
HTH,
viel Gruß
Thomas
frank.reissmann
08.12.2002, 19:47
Danke, Thomas! Sehr lehrreich.
Nach der Lektüre werd ich besagten Crawler wohl erst mal weiter 'reinlassen'. Der bei Dir "wüterische" Fastsearch hat bei mir übrigens nur einen Traffic von 2.339 kB verursacht (im Gegensatz zum Almaden, der es auf 4.095 kB brachte!). Den Traffic des Robots "mirago.de" kann ich derzeit nicht bestimmen... (Hat der die IP 213.61.4.100 ?)
Viele Grüße von 8)
sillybilly
09.12.2002, 02:21
Danke, Thomas! Sehr lehrreich.
Nach der Lektüre werd ich besagten Crawler wohl erst mal weiter 'reinlassen'. Der bei Dir "wüterische" Fastsearch hat bei mir übrigens nur einen Traffic von 2.339 kB verursacht (im Gegensatz zum Almaden, der es auf 4.095 kB brachte!).
Wenn du näheres über "almaden" wissen willst empfiehlt sich "das Original" ;): http://www.almaden.ibm.com/
Den Traffic des Robots "mirago.de" kann ich derzeit nicht bestimmen... (Hat der die IP 213.61.4.100 ?)
Keine Ahnung - die IP gehört http://www.arexera.de/ die auch einen crawler im Angebot haben. Ob zwischen "Arexera" und "Mirago" eine Verbindung besteht habe ich nicht feststellen können.
Ich sehe das Aussperren von Robots übrigens mit etwas gemischten Gefühlen - von den durchgeknallten mal abgesehen; die muss man schon rein zum Selbstschutz (Traffickosten) zumindest temporär aussperren.
Wenn man sich in seinen Logfiles/Statistiken umsieht stellt man meist fest, dass die meisten Besucher über bestimmte Suchmaschinen die Seite gefunden haben. Nun gibt es einige webmaster, die daraus den Schluss ziehen: "Spare ich doch Traffic, indem ich Suchmaschinen, von denen aus wenige/keine Besucher auf meine Seite gelangen einfach ausperre."
Auf den 1. Blick ja auch keine verkehrte Schlussfolgerung.
Aber:
Durch das Aussperren kleinerer Suchmaschinen erhöht man die "Marktmacht" der grossen Suchmaschinen.
Und das halte ich für nicht ungefährlich - siehe: http://www.heise.de/tp/deutsch/inhalt/te/12948/1.html
Man kann über den Verfasser des Artikels zwar durchaus unterschiedlicher Meinung sein - Burkhard 'Burks' Schröder ist nicht unumstritten - aber die Fakten bleiben bestehen: Google "filtert" seine Suchergebnisse anhand von IP-Blöcken.
z.Z. zwar noch nicht wirklich effektiv und relativ leicht zu umgehen - aber das muss/wird nicht so bleiben.
Eigentlich eine Perversion: eine Suchmaschine, deren Aufgabe es ist Inhalte zu finden, sorgt dafür, dass Inhalte nicht gefunden werden.
Als ich den Artikel las war ich so wütend, dass ich kurz davor war google den Zutritt zu meinen Seiten zu verweigern ;).
Ich denke daher, man sollte sich genau überlegen ob man einer Suchmaschine den Zutritt zu seinen Seiten verweigert - Monopole sind keine gute Sache ;).
Nur meine Meinung.
Lieben Gruss
Norbert 'sillybilly' Jozefowicz
frank.reissmann
09.12.2002, 02:46
... von den durchgeknallten mal abgesehen ... die muss man schon ... aussperren.
Wer sind denn, Deiner Meinung nach, "die durchgeknallten"? Da haben sich mit der Zeit doch bestimmt schon ein paar Namen herauskristallisiert! Ich würde mich eigentlich recht gerne im Vorfeld schützen wollen! Oder muss jeder Webmaster erst die "Attacken" der "wilden" (hohen Traffic verursachenden) Crawler erdulden (=Lehrgeld bezahlen, im wahrsten Sinne des Wortes), um die danach auszusperren?
Nächtlichen Gruß von :P
sillybilly
09.12.2002, 18:42
Wer sind denn, Deiner Meinung nach, "die durchgeknallten"? Da haben sich mit der Zeit doch bestimmt schon ein paar Namen herauskristallisiert! Ich würde mich eigentlich recht gerne im Vorfeld schützen wollen! Oder muss jeder Webmaster erst die "Attacken" der "wilden" (hohen Traffic verursachenden) Crawler erdulden (=Lehrgeld bezahlen, im wahrsten Sinne des Wortes), um die danach auszusperren?
Hy Frank :),
Gute Frage.
Wir sollten unterscheiden zwischen "durchgeknallten" und "bösartigen" Robots.
Ein durchgeknallter Robot ist ein Robot, der aufgrund von Softwarefehlern unkontrolliert deine Webseite aufsucht und immens Traffic verursacht.
Ein bösartiger Robot ist entweder dazu programmiert, dir zu schaden, oder z.B. eMail-Adressen aus deiner Webseite auszulesen.
Hinweis:
Weder einen durchgeknallten, noch einen bösartigen Robot wirst du mit einer "robots.txt" aufhalten - ersterer hat halt einen Fehler und es ist nicht gesagt, dass er die "robots.txt" noch verwendet.
Zweiterer wird sie von vornherein ignorieren.
Um einen Robot sicher auszusperren bleibt dir (auf *nix-Servern) nur eine htaccess-Datei.
Das ein Robot "durchknallt" ist ein IMHO recht seltener Fall, der aber auch bei google schon auftrat.
Solche Robots sperrt man temporär mittels htaccess aus und informiert den Betreiber.
Einen bösartigen Robot auszusperren wird schon viel schwieriger - der wechselt nämlich gegebenenfalls einfach die IP-Adresse und seine Kennung. Oder es wird ein offener Proxy (häufig aus dem koreanischen/chinesischen Adressraum) verwendet.
Einen Robot, der dir persönlich Schaden soll auszusperren ist nahezu aussichtslos - sollte ein solcher Fall auftreten melde dich umgehend bei deinem Web-Provider und nimm deine Seiten erstmal vom Netz. Der Web-Provider wird dir dann sagen, was man für Massnahmen (technisch/rechtlich) treffen kann.
Ein bösartiger Robot, der "nur" versucht eMailadressen zu finden wird im Normalfall nicht viel Traffic verbrauchen - oftmals wird man den gar nicht in den Statistiken entdecken.
Und wie gesagt - solche Robots auszusperren ist nicht wirklich erfolgversprechend.
Grundsätzliches zur Steuerung von Robots:
Du kannst einen Robot auf 2 unterschiedliche Arten steuern:
[list]
durch entsprechende Meta-Tags (http://selfhtml.jozefowicz.info/html/kopfdaten/meta.htm)
[list]
Ob sich ein Robot an diese Angaben aber hält hängt davon ab, wie er programmiert ist - ein Zwang, die robots.txt oder Meta-Tags zu verwenden besteht nicht.
Ein seriöser Robort wird aber zumindest die "robots.txt" akzeptieren - aber nur dann, wenn diese auch in der richtigen Syntax inkl. Gross/kleinschreibung verfasst ist und im root-Verzeichnis der Domain (nicht des Servers) liegt. Um das zu prüfen empfiehlt sich: http://www.searchengineworld.com/cgi-bin/r.../robotcheck.cgi (http://www.searchengineworld.com/cgi-bin/robotcheck.cgi)
Meta-Tags hingegen werden auch von seriösen Robots häufig ignoriert - der Missbrauch in der Vergangenheit war zu gross.
hth
Lieben Gruss
Norbert
frank.reissmann
09.12.2002, 22:59
Hallo sillybilly,
Deine Beiträge lese ich sehr gerne, weil sie hilfreich sind und mir einiges Neues vermitteln. :P Aber: --- leider keine Namen im letzten Posting, welche "bösartig"/"durchgeknallt" sind (d.h., keine Namen, welche ich per se aussperren sollte!) ---
Nun gut. So ist es eben! Eigentlich aber auch verständlich: Denn, wenn hier irgendein Name fallen würde, wäre das natürlich immer subjektiv und irgendjemand hätte garantiert eine andere Erfahrung mit dem genannten Crawler und die heftigste Diskussion wär hier im Gange... (Grüße an admin) <span style='color:olive'><tüdelüt> <an nichts denk> <verschmitzt in die Luft guck> <hat hier etwa jemand Interesse, an "heftiger Diskussion"??> </span>:wink: --> vielleicht bekommen wir ja doch noch ein paar Namen, von den "Rüpeln" unter den Crawlern. Wer weiß....
Kann man sich eigentlich irgendwo einen Überblick verschaffen, welche Robots=SearchEngines=Crawler=WebBots (stimmen die Gleichheitszeichen überhaupt?) es insgesamt gibt? (Schon klar, dass immer neue hinzukommen...) Ich hätte nur gern mal eine Liste, welche primär Email-Adressen sammeln (sperre ich sofort aus, weil nur SPAM zu erwarten ist) und welche meine Site in ihren Index aufnehmen, so dass neue Besucher zu mir kommen (bekommen eine persönliche Einladung von mir).
Viele Grüße von :P
sillybilly
10.12.2002, 00:33
Deine Beiträge lese ich sehr gerne, weil sie hilfreich sind und mir einiges Neues vermitteln. :P Aber: --- leider keine Namen im letzten Posting, welche "bösartig"/"durchgeknallt" sind (d.h., keine Namen, welche ich per se aussperren sollte!) ---
Hy Frank,
danke für die Blumen ;).
Du willst Namen von bösen Jungens?
Du willst IP-Adressen von bösen Jungens?
Ich könnte dir - selbst wenn ich wollte (dazu komme ich später noch) - keine nennen. Nicht weil ich Angst vor "heftigsten Diskussionen" - aka Flames - habe, sondern schlicht und einfach, weil "die Bösen" nicht dumm sind (naja - manchmal sind sie's schon ;)) und ihren eMailadressen-such-bot so Namen geben wie z.B. "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)". Das ist die ganz normale Kennung des MSIE6.0 auf einer Windows NT-Maschine ;).
Die Kennung eines Browsers/Robots ist also keinesfalls aussagekräftig.
Bliebe also höchstens die IP-Adresse.
Nun gut - IP-Adressen...
Du kannst im Internet Listen finden, die besagen, dass die oder die IP-Adressen von bösen Robots verwendet werden.
Was ist von solchen Listen zu halten?
Keine Ahnung - ich sehe die sehr skeptisch. Wer macht diese Liste? Nach welchen Kriterien werden IP's in diese Liste aufgenommen etc.
Meiner Ansicht nach gibt es schlicht keine seriöse und verwendbare Liste - es dürfte auch sehr schwer sein, eine solche zu erstellen. Es ist für den bösen Jungen mit seinem Robot ein leichtes, die IP-Adresse zu verschleiern (z.B. offener Proxy) oder auch sich eine neue IP zu besorgen.
Und nun komme ich zum "wollen".
Angenommen ich würde dir raten, dir eine .htaccess mit folgendem Inhalt zu erstellen:
[b]Warnung: dieses Beispiel keinesfalls real einsetzen!
AuthName "Blocklist"
AuthType Basic
<Limit GET POST>
order allow,deny
allow from all
deny from 62.67.200
deny from 141.76
</Limit>
Was würdest du tun? Wärst du in der Lage, die IP-Blöcke zu verifizieren?
Nun - ich sage dir mal, wem die IP-Blöcke gehören:
62.67.200 gehört domainfactory ;)
141.76 ist der IP-Block der Uni Dresden ;) - damit würdest du jeden Nutzer des JAP-Proxys aussperren: http://anon.inf.tu-dresden.de/
Was ich sagen will:
Traue nichts und niemandem - überprüfe alles was du liest.
Wer sagt dir z.B., dass ich kein böser Junge bin :evil:? - meine Nichte sagt häufiger mal "böser Onkel" zu mir... :D
Ich hoffe, dass dir das wenigstens etwas hilft.
Und nun spezifisch zu deiner Seite und dem Wunsch bestimmte böse Robots zu sperren:
Ein Adressensammler lässt seinen Robot i.d.R. nur auf "lohnende" Webseiten los (also solche, wo potenziell viele Adressen zu finden sind) - wie z.B. gut besuchte Foren und Gästebücher. Frage dich einmal selbst, wie sinnvoll es ist, in einem Forum seine eMailadresse bekanntzugeben...
Eine relativ gute Abwehr solcher Adressensammler ist hier (http://forum1.trgsites.de/viewtopic.php?t=116) beschrieben.
Fazit:
Ich kann und will dir keine Liste liefern - vielleicht findet sich ja jemand anderes dazu fähig bzw. bereit.
hth
Gruss
Norbert
frank.reissmann
10.12.2002, 01:17
...ein offener Proxy (häufig aus dem koreanischen/chinesischen Adressraum) verwendet...
Gehört wohl nicht hierher. (may be OT) Aber -- sorry -- Wat is dat denn, "böser Onkel"? :wink:
Mir fehlt soviel Grundwissen....
sillybilly
10.12.2002, 02:29
...ein offener Proxy (häufig aus dem koreanischen/chinesischen Adressraum) verwendet...
Gehört wohl nicht hierher. (may be OT) Aber -- sorry -- Wat is dat denn, "böser Onkel"? :wink:
:lol: Also wenn du wissen willst, was ein böser Onkel ist dann ist das wirklich OT ;)
Aber egal - Thomas wird schon Verständnis haben ;)
Ein böser Onkel ist ein Onkel, der es einfach nicht lassen kann, seine Nichte zu necken und zu kitzeln ;)
Zumindest nach der Definition meiner Nichte :D
Wenn du wissen willst, was ein offener Proxy ist - na, das ist IMHO nicht OT.
Ein offener Proxy ist ein Proxyserver, der keine Authentifikation verlangt und somit jede Anfrage bearbeitet.
Du weisst, dass wenn du ins Internet gehst dir eine IP-Adresse von deinem Provider zugewiesen wird?
Wenn du nun irgendetwas im Internet tust - z.B. eine Webseite besuchen - erscheint diese IP-Adresse in den Logfiles des Webservers.
Ein Proxyserver verschleiert diese IP-Adresse - das heisst, wenn du über einen Proxyserver diese Webseite besuchst wird nicht mehr deine IP-Adresse in die Logfiles geschrieben, sondern die des Proxyservers.
Bis hierhin ist das ein völlig normales und auch häufig angewendetes Verfahren. Weil im Normalfall schreibt auch der Proxyserver Logfiles und im Bedarfsfall (Missbrauch o.ä.) könnten diese herangezogen werden.
Bis hierhin verstanden? - Gut, denn gehts weiter.
Was macht nun ein offener koreanischer/chinesischer[1] Proxy?
Nun - die haben erstmal den grossen Vorteil, dass die weit weg in Staaten stehen, deren Rechtssystem - sagen wir mal vorsichtig - sich von dem demokratischer Staaten ziemlich unterscheidet.
Das wiederum bedeutet, dass ein Zugriff auf die Logfiles der Proxyserver (so denn überhaupt welche vorhanden sind) nicht unbedingt einfach wird.
Ein weiterer Vorteil (für die bösen Jungens) ist es, dass diese Proxys i.d.R. von unfähigen Admins betreut werden - da geht es nicht um Sicherheit (sonst wären es keine offenen Proxys) sondern nur darum, dass sie funktionieren. Vielfach werden von diesen Proxys überhaupt keine Logfiles geschrieben.
Was macht also ein böser Junge?
Beispiel:
Jemand will SPAM verschicken. Richtig viel SPAM.
Der böse Junge sucht sich also einen (oder auch mehrere) solchen Proxy und ein OpenRelay[2].
Über diesen Proxy greift er auf das OpenRelay zu und verschickt seinen SPAM. Dadurch erscheint nicht die IP-Adresse des bösen Jungen in dem Mailheader, sondern die des Proxys.
Es ist also sehr schwer, jetzt noch nachzuweisen, wer den Spam wirklich verschickt hat.
Wenn der böse Junge noch sicherer gehen will, das seine Identität nicht nachvollziehbar ist greift er über mehrere solcher Proxys auf das OpenRelay zu - das nennt man dann "PingPong mit Proxys spielen".
hth
Lieben Gruss
Norbert
[list]Die Nennung der Nationen Korea und China soll keine Diskriminierung darstellen. Es ist aber ein Faktum, dass in eben diesen Ländern besonders viele solcher offenen Proxys stehen.
Ein OpenRelay ist ein Mailserver, der zum Mailversand keine Authentifikation erfordert - sprich, jeder kann über ihn Mails versenden.
[list]
Thomas Roessing
08.01.2003, 13:54
Moin,
mich sucht er wieder heim, der Freak-Bot (vermutlich der TurnitinBot/1.5, jedenfalls hat er die IPs 64.140.49.70 und 64.140.49.66 und 64.140.49.69, zu denen ich nicht viel herausfinde).
Frage an die .htaccess-Experten: Kann ich
order allow,deny
deny from 64.140.49.*
allow from all
schreiben, ich meine, geht das mit dem Sternchen? Oder kann ich auch alle drei IPs untereinander oder hintereinander oder sonstwie in den deny-Befehl hineischreiben?
TIA,
viel Gruß
Thomas
sillybilly
08.01.2003, 16:03
Moin,
mich sucht er wieder heim, der Freak-Bot (vermutlich der TurnitinBot/1.5, jedenfalls hat er die IPs 64.140.49.70 und 64.140.49.66 und 64.140.49.69, zu denen ich nicht viel herausfinde).
Frage an die .htaccess-Experten: Kann ich
order allow,deny
deny from 64.140.49.*
allow from all
schreiben, ich meine, geht das mit dem Sternchen? Oder kann ich auch alle drei IPs untereinander oder hintereinander oder sonstwie in den deny-Befehl hineischreiben?
Hy Thomas :)
begrenzte Zeit - daher ganz kurz:
<Limit GET POST>
order allow,deny
allow from all
deny from 64.140.49
</Limit>
keine Sternchen etc - damit blockst du den gesamten Block 64.140.49.0 - 64.140.49.255
Der Block gehört übrigens http://icgcom.com/
hth
lieben Gruss
Thomas Roessing
10.01.2003, 20:29
Moin,
vielen Dank zuerst!
Wenn das mit dem Sternchen den ganzen Block sperrt, was macht denn dann Deine Version? Die kann doch theoretisch auch nur alles sperren, was mit 64.140.49 anfängt, oder?
Langsam bin ich für den Einsatz von Cruise-Missiles gegen Freak-Bots. Wer programmiert denn so einen Unsinn?! Wenn ich schon sehe, daß den ganzen Tag zwei Besucher im Bard herumhängen, die ununterbrochen ihr Profil angucken, werde ich gleich richtig aggressiv :twisted: . Macht nur Arbeit. Schoise!
[Nachtrag:]
Und der Spider spider.lon4.fastsearch.net (= Arschloch-Spider! :evil: ) war auch wieder da und hat gleich mal 15 MB Traffic verursacht. Oh Mann!
Viel Gruß
Thomas
sillybilly
11.01.2003, 01:01
Moin,
vielen Dank zuerst!
Wenn das mit dem Sternchen den ganzen Block sperrt, was macht denn dann Deine Version? Die kann doch theoretisch auch nur alles sperren, was mit 64.140.49 anfängt, oder?
Sorry - hatte ich missverständlich ausgedrückt.
Deine Version (mit Sternchen) bewirkt überhaupt nichts - sie wird schlicht ignoriert.
Du kannst das ausprobieren, indem du deine momentane IP mal als deny from 123.123.123.* in die htaccess einträgst und dann deine Seite via Webbrowser besuchst (evnt. Cache leeren!) - du wirst nicht gesperrt.
Wenn du dann den Gegentest mit deny from 123.123.123 machst wirst du gesperrt.
Nur bei meiner Version sperrst du den IP-Block.
Langsam bin ich für den Einsatz von Cruise-Missiles gegen Freak-Bots. Wer programmiert denn so einen Unsinn?! Wenn ich schon sehe, daß den ganzen Tag zwei Besucher im Bard herumhängen, die ununterbrochen ihr Profil angucken, werde ich gleich richtig aggressiv :twisted: . Macht nur Arbeit. Schoise!
Bist du sicher, dass das der Fall war? - wenn ja: abuse[at]suchmaschinenbetreiber anschreiben und logs mitschicken. Soetwas ist in aller Regel keine Böswilligkeit sondern schlicht ein Fehler im Robot.
[Nachtrag:]
Und der Spider spider.lon4.fastsearch.net (= Arschloch-Spider! :evil: )
Das ist kein "Arschloch-Spider" sondern der Spider von www.alltheweb.com (http://www.alltheweb.com/search?cat=web&cs=iso-8859-1&l=any&q=trgsites) - der zweitgrössten und eine der besseren Suchmaschinen ;)
war auch wieder da und hat gleich mal 15 MB Traffic verursacht. Oh Mann!
15 MB Traffic sind beim spidern eines Forums nicht viel. Ein Fehler würde vorliegen, wenn der Spider eine einzelne Seite tausendemale hintereinander aufruft.
Wenn du verhindern willst, dass dein Forum gespidert wird kannst du in deiner robots.txt (http://www.trgsites.de/robots.txt) folgendes eingeben:
User-agent: *
Disallow: /phpbb2/
Das musst du selbstverständlich auch bei jeder Subdomain machen, unter der dein Forum erreichbar ist!
Für http://forum1.trgsites.de/ wäre das:
User-agent: *
Disallow: /
Wenn du willst, dass dein Forum indiziert wird solltest du etwas ruhiger werden :lol: - bedenke, dass ein Spider dann dein gesamtes Forum durchsucht - inkl. aller Profile etc.
Das verursacht nuneinmal etwas Traffic - und latürnich auch Serverlast. Genauso, als wenn ein ganz normaler Besucher dein gesamtes Forum anschaut ;)
HTH
Lieben Gruss
Thomas Roessing
11.01.2003, 15:41
Moin,
ich habe wirklich nichts dagegen, wenn mein Forum gecrawlert wird - aber nicht jeden Tag ununterbrochen. Der Fast-Bot hat gestern bei 100 Besuchen und Tausenden Zugriffen 50MB Traffic verursacht. Bei früheren Aktionen randalierte das Ding tagelang im Forum - und ließ sich auch durch die robots.txt nicht beeindrucken. Ich kann mir wirklich nicht vorstellen, daß das ein sauber programmierter Bot ist, der lediglich so freundlich ist, mich einer der größeren Suchmaschinen bekannt zu machen :( .
Meine .htaccess sieht jetzt übrigens so aus:
<Limit GET POST>
order allow,deny
allow from all
deny from 64.140.49
deny from 146.101.142.250
</Limit>
Geht das mit dem zweimal deny untereinander?
Viel Gruß
Thomas
sillybilly
11.01.2003, 16:28
Moin,
ich habe wirklich nichts dagegen, wenn mein Forum gecrawlert wird - aber nicht jeden Tag ununterbrochen. Der Fast-Bot hat gestern bei 100 Besuchen und Tausenden Zugriffen 50MB Traffic verursacht.
Tja - Linkfarmen können auch Nachteile haben :twisted: - nein, ernsthaft:
Wenn er sich bei dir nicht benehmen kann sperre ihn aus ;)
Geht das mit dem zweimal deny untereinander?
Das geht - sogar in nahezu beliebiger Menge. Allerdings gilt:
Je mehr Einträge in der htaccess desto grösser die Serverbeanspruchung - aber bis zu 100 würd ich mir noch keine Gedanken machen ;)
HTH
Lieben Gruss
Meine .htaccess sieht jetzt übrigens so aus:
<Limit GET POST>
order allow,deny
allow from all
deny from 64.140.49
deny from 146.101.142.250
</Limit>
Geht das mit dem zweimal deny untereinander?
Moin,
**EDIT: Mist.. man sollte Seite zwei auch lesen....sorry**
<!--(ich hab zwar keine Ahnung von htaccess, denke aber dass ich richtig liege) Die zwei deny's sollten funktionieren.-->
In einem Beispiel weiter oben hattest Du zuerst die deny's und dann die allow's, was wohl eher falsch wäre, da sonst "order allow, deny" falsch wäre.... (oder?)
<!--Ausserdem hat sillybilly ebenfalls (in seinem "NICHT BENUTZEN" Beispiel) so gemacht.-->
Ich hoffe meine Eingebung war nicht falsch und nu:
bisdennedann,
Jörg
EDIT: OOps.. sorry.. ich sollte auch Seite zwei lesen, bevor ich irgendwas schreibe... naja.. learning by doing.
...und ließ sich auch durch die robots.txt nicht beeindrucken.
Ich habe die Erfahrung gemacht, nur so am Rande erwaehnt, das die robots.txt fuer "Fast" erst nach ca. 30 Tagen greift. Bei Google uebrigens genauso.
Den "Fast" wuerde ich uebrigens auf gar keinen fall ausschliessen, auch wenn dieser emensen Traffic verursacht.
"Fast" versorgt eine menge andere Suchmaschinen.
Hier eine kleine Statistik von mir was welcher Robot bei shareware-pool verursacht. Zeitraum 1.1.2003 - 11.1.2003
robots Hits Bandwidth Last visit
Googlebot (Google) 6077 185.18 MB 11 Jan 2003 - 04:01
Fast-Webcrawler (AllTheWeb) 2559 75.97 MB 11 Jan 2003 - 04:36
Inktomi Slurp 947 26.91 MB 11 Jan 2003 - 04:29
Turn It In 794 21.93 MB 05 Jan 2003 - 08:36
Scooter (AltaVista) 366 17.05 MB 11 Jan 2003 - 03:57
Lycos 217 1.28 MB 08 Jan 2003 - 21:55
Mercator 179 7.65 MB 07 Jan 2003 - 04:15
Road Runner: The ImageScape Robot 99 216.66 KB 04 Jan 2003 - 22:57
LinkChecker 87 0 10 Jan 2003 - 18:43
Voila 85 914.92 KB 04 Jan 2003 - 11:52
Others 127 3.24 MB
Gruesse,
Thomas Roessing
12.01.2003, 13:24
Den "Fast" wuerde ich uebrigens auf gar keinen fall ausschliessen, auch wenn dieser emensen Traffic verursacht.
Ich will ja gar keinen aussperren, aber ich finde innerhalb von zwei Tagen 160 MB Traffic durch zwei Bots (Fast und Turnitin) unverschämt, zumal - wie erwähnt - die Dinger ununterbrochen weitercrawlern. Der Google-Bot kommt einmal im Monat und darf dann von mir aus auch 200 MB machen; aber jeden Tag über 80 MB für zwei Crawler, die sich ständig profile.php des Forums angucken, sind einfach zu viel. In zehn Tagen 3786 Besuche auf profile.php, aber nur 273 auf viewforum.php: da kann doch was nicht stimmen!
Viel Gruß
Thomas, der sich zwar über Traffic freut, den aber lieber durch Menschen oder gute Bots verursacht sähe.
Thomas Roessing
06.03.2003, 23:59
Moin,
wieder einen Bot hinausgeworfen, der sich den ganzen lieben langen Tag lang das Forum angeguckt hat: Wieder und wieder die Mitgliederliste anzeigen, nach privaten Nachrichten gucken, ins Test-Forum glotzen und dann wieder die Mitgliederliste anzeigen... :(
Diesmal war es http://teoma.com/ . Ich finde, Suchmaschinenbetreiber sollten mal einen Kurs besuchen wo man was gelernt kriegt. Es kann doch auch nicht in deren Interesse sein, wenn ihre Bots statt zu arbeiten den ganzen Tag anderer Leute Foren durchstöbern.
Viel Gruß
Thomas
Thomas Roessing
06.07.2003, 22:33
Moin,
die vielen Besucher im Board sind übrigens von inktomisearch.com (http://www.inktomi.com). Deren Bots scheinen mit meinem Board nicht zurechtzukommen und ständig Kollegen zu Hilfe zu rufen - den neuen Besucherrekord von 17 am frühen Sonntag morgen haben wir diesen Apparaten zu verdanken.
Glücklicherweise sind die inktomi-Bots (noch?) nicht in der Lage im Board zu randalieren, die gucken sich immer nur die Startseite an. So lange sich ihr Trafficverbrauch und die Störung meiner Statistiken in Grenzen hält, werde ich sie nicht hinauswerfen - so ein Besucherrekord ist doch was feines für ein armes kleines Board B) .
Kann sich einer von Euch vorstellen, warum die in so großer Zahl hier herumhängen und was die eigentlich wollen? Kommen die vielleicht nicht mit den Session-IDs zurecht? Oder damit, daß sie durch ihr Auftauchen die Seite verändern, was ein erneutes Spidern verursacht? :beati: :confused:
Viel Gruß
Thomas
Thomas Roessing
07.07.2003, 12:22
Glücklicherweise sind die inktomi-Bots (noch?) nicht in der Lage im Board zu randalieren, die gucken sich immer nur die Startseite an. So lange sich ihr Trafficverbrauch und die Störung meiner Statistiken in Grenzen hält, werde ich sie nicht hinauswerfen - so ein Besucherrekord ist doch was feines für ein armes kleines Board
Das ging aber schnell :angry:
Heute morgen habe ich inktomi aus dem Board geworfen, weil die Bots immer mehr von ihren Kumpels ständig ins Board geholt haben. Außerdem fingen sie an, Beiträge schreiben zu wollen und sich alle Möglichen Foren, Memberlisten etc. anzugucken :ph34r:
Merken die Leute bei Inktomi eigentlich nicht, daß ihre halbe Bot-Power an einem Board herumlutscht? :motz:
Viel Gruß
Thomas
Martin Wagner
07.07.2003, 14:37
Huii:
"Online Rekord: 21 Benutzer, am Jul 7 2003, 04:26 AM"
Demnach sind 21 Leute in diesem Forum Frühaufsteher? Um halb 5?
Ich glaube, da hat sich einer einen Server mit unbegrenztem Traffic besorgt, 30 Bots gestartet und wartet auf einen guten Fang.
Dafür, dass die Bots verkauft werden, ist das doch schon sehr dürftig :rolleyes:
Inktomi Web Search 9 release represents the future of Web search solutions.
http://www.inktomi.com/products/web_search...ebsearch9.html) (http://www.inktomi.com/products/web_search/websearch9.html))
Sieht so unsere Zukunft aus?
mfg Martin
Thomas Roessing
06.01.2004, 20:07
Moin,
wie weit offen haben die von Inktomi den Arsch eigentlich? :motz:
Ich wundere mich schon seit einiger Zeit über den lebhaften Zuspruch, den mein Dmoz-Skript (http://portal.trgsites.de/odptrg.php) findet. Wer steckt dahinter: Natürlich der Inktomi-Bot. Guckt sich nahezu ununterbrochen alles an, was er finden kann.
Nochmal: Ich habe nix dagegen, wenn meine Seiten häufig von Spidern besucht werden. Wenn diese allerdings völlig sinnlos in meinen Anwendungen randalieren, geht mir der Hut hoch :kotz: :twisted: !
Haben die zu viel Geld oder einen Vertrag mit der Traffic-Industrie oder was?
Jedenfalls habe ich die selbe .htaccess, die dieses Forum vor dem Inktomi-Bot schützt, nun in das odp-Verzeichnis getan. Soll sich der Scheiß-Deppen-Bot doch einen anderen Spielplatz suchen :angry: .
Viel Gruß
Thomas
Andreas Petzhold
06.01.2004, 21:10
Lass ihn doch, den armen kleinen Bot. Der will doch nur spielen ;)
Solange Du im Trafficlimit bist kann Dir das doch eigentlich egal sein - notfalls auf GZip umstellen.
Thomas Roessing
11.01.2005, 15:01
Lass ihn doch, den armen kleinen Bot. Der will doch nur spielen ;)
Solange Du im Trafficlimit bist kann Dir das doch eigentlich egal sein - notfalls auf GZip umstellen.
Moin,
gleich mal 163 Inktomi-Freak-Bots hinausgeworfen (aber die maximale Besucherzahl lasse ich mal stehen, das sieht gut aus ;) ). Die wollen IMHO nicht spielen, die wollen Ärger machen. Und bei 163 Bots mache ich mir dann doch ein bißchen Sorgen über die Serverlast :rolleyes: .
Viel Gruß
Thomas <-- wundert sich, daß die Inktomi-Leute ihren blöden Bot immer noch nicht repariert haben).
Martin Wagner
11.01.2005, 15:48
aber die maximale Besucherzahl lasse ich mal stehen, das sieht gut aus ;).
Wirkt aber doch arg unrealistisch :eek: :D
Thomas Roessing
11.01.2005, 18:40
Wirkt aber doch arg unrealistisch :eek: :D
Wird bald mit realen Benutzern übertroffen! :D :D
Viel Gruß
Thomas
vBulletin® v3.8.1, Copyright ©2000-2010, Jelsoft Enterprises Ltd.