Hoe maak je een robots txt-bestand aan

Inhoudsopgave
Wanneer zoekmachines op een website aankomen, gaan ze op zoek naar het robots.txt-bestand om het te lezen. Het zal afhangen van de inhoud, zodat de spider van de zoekmachine binnen de site blijft of naar een andere gaat.
Het robots.txt-bestand bevat een lijst met pagina's die door de zoekmachine mogen worden geïndexeerd, waardoor de toegang tot bepaalde zoekmachines selectief wordt beperkt.

Dit is een ASCII-bestand dat zich in de root van de site moet bevinden. De commando's die het kan bevatten zijn:
Agent-gebruiker: Het wordt gebruikt om aan te geven welke robot de aangeboden orders zal opvolgen.
Niet toestaan: Het wordt gebruikt om te identificeren welke pagina's tijdens het analyseproces door de zoekmachine worden uitgesloten. Het is belangrijk dat elke uit te sluiten pagina aparte regels moet hebben en ook moet beginnen met het / symbool. Met deze symboliek wordt het gespecificeerd; naar "alle pagina's van de website".
Het is uiterst belangrijk dat het robots.txt-bestand geen lege regels heeft.
Enkele voorbeelden worden hieronder getoond;
  • Wanneer u alle pagina's wilt uitsluiten; de User-agent is: Niet toestaan: /.
  • Als het doel niet is om een ​​pagina uit te sluiten, dan mag het robotos.txt-bestand niet op de website staan, dat wil zeggen dat alle pagina's van de site gelijk worden bezocht.
  • Wanneer een bepaalde robot wordt uitgesloten, is dit:
  • Agentgebruiker: Robotnaam Niet toestaan: / Agentgebruiker: * Niet toestaan:
  • Wanneer een pagina is uitgesloten; Agentgebruiker: * Niet toestaan: /directory/path/page.html
  • Wanneer alle pagina's van een directory worden uitgesloten van de website met hun bijbehorende submappen, is dit; Agentgebruiker: * Niet toestaan: / directory /
Met dit bestand kunt u voorkomen dat zoekmachines toegang hebben tot bepaalde pagina's of mappen, u kunt ook de toegang tot bestanden of bepaalde hulpprogramma's blokkeren.
Een andere functie is om het indexeren van dubbele inhoud op de site te voorkomen, om niet te worden bestraft.
Andere overwegingen waarmee rekening moet worden gehouden, is dat sommige robots de instructies in dit bestand kunnen negeren, en het moet ook duidelijk zijn dat het bestand openbaar is, aangezien iedereen die www.example.com/robots.txt schrijft er toegang toe kan hebben.
Nu is de vraag misschien; Hoe het robots.txt-bestand te genereren?
Het is eigenlijk vrij eenvoudig, omdat het een tekstdocument is met de naam "robots.txt" en het vervolgens uploadt naar de hoofdmap van het domein van de pagina, het is daar waar de zoekmachines naartoe gaan om te zoeken of het gelezen kan worden.
Een basis robots.txt-bestand kan zijn:
User-agent: *
Niet toestaan: / privé /
Er worden instructies gegenereerd om de toegang te weigeren tot een map die "privé" is voor alle zoekmachines.
Het commando bepaalt dat het is geadresseerd aan alle robots (User-agent: *), en geeft aan dat de map niet is toegestaan ​​(Disallow: / private /).
De parameter die wordt gebruikt voor de Google-zoekmachine is; User-agent: Googlebot
Zoals eerder vermeld, wordt het gebruik ervan in SEO gebruikt om de toegang van robots tot dubbele inhoud te beperken.Vond je deze tutorial leuk en hielp je hem?Je kunt de auteur belonen door op deze knop te drukken om hem een ​​positief punt te geven

U zal helpen de ontwikkeling van de site, het delen van de pagina met je vrienden

wave wave wave wave wave