Robots.txt of standaard voor uitsluiting van robots en crawlen van zoekmachines

Inhoudsopgave
Hallo allemaal, ik begin met deze tutorial op robots.txt, ik hoop dat je het leuk vindt

Sta alle robots toe om alle bestanden te bezoeken die zijn opgeslagen in de hoofdmap van het web:

 User-agent: * Niet toestaan: 

Voorkom toegang tot alle robots en alle bestanden die zijn opgeslagen in de hoofdmap:
 User-agent: * Niet toestaan: / 

Geef slechts één robot toegang, in dit voorbeeld kan alleen Google crawlen
 User-agent: googlebot Niet toestaan: User-agent: * Niet toestaan: / 

De meest populaire robots hebben een naam om te gebruiken in user-agent
googlebot => voor Google
msnbot => MSN Zoeken
yahoo-slurp => Yahoo!
scrubby => Het web schrobben
robozilla => DMOZ Checker
ia_archiver => Alexa / Wayback
Baiduspider => Baidu
Er zijn ook de meer specifieke robots zoals die in afbeeldingen
googlebot-afbeelding => Google Afbeelding
googlebot-mobiel => Google Mobiel
Een ander voorbeeld zodat alle submappen die de wildcard (/) bevatten, moeten worden geblokkeerd, alleen deze, behalve alle andere bestanden en mappen die geen jokerteken bevatten, nominaal de systeem- of backend-mappen zijn geblokkeerd:
 User-agent: * Disallow: / cgi-bin / Disallow: / afbeeldingen / Disallow: / tmp / Disallow: / adminstrador / 

Voorkomen dat een specifiek bestand wordt gevolgd
 User-agent: * Niet toestaan: /page.htm 

Dit wordt veel gebruikt wanneer we een pagina willen verwijderen die een 404-fout geeft of om een ​​pagina uit de zoekresultaten te verwijderen, om zo te voorkomen dat deze wordt gecrawld.
Beheer de frequentie van kruipende robots
Van Google-analyse en van webmastertools je kunt de statistieken zien, je kunt ook zien dat sommige robots er soms lang over doen om onze site te bekijken en verzoeken in te dienen bij de server, de robots verbruiken bandbreedte en middelen alsof ze gewoon een andere bezoeker zijn.
Er is een manier waarop robots niet uit de hand lopen, dat kunnen we iedereen vertellen
User-agent: googlebot Crawlvertraging: 30
Hiermee informeren we de Google-robot om 30 seconden te wachten tussen elke crawl. Wees voorzichtig, want crawlvertraging wordt mogelijk niet door alle zoekmachines ondersteund, Bing en Google wel.
De officiële website van robots.txt Het is http://www.robotstxt.org/ waar we de namen van alle robots en specificaties over de code zullen vinden. Hier wordt onthuld dat robots dienen om degenen die moeten worden gevolgd te standaardiseren en op andere platforms worden gebruikt om html te volgen en te valideren, links te valideren, informatie te indexeren, inhoud in zoekmachines bij te werken en websites te beschermen.Vond je deze tutorial leuk en hielp je hem?Je kunt de auteur belonen door op deze knop te drukken om hem een ​​positief punt te geven
wave wave wave wave wave