Robots.txt Validator
Et nyttigt teknisk SEO-værktøj til at validere ethvert websteds tilladelses- og forbudsdirektiver
Funktioner
Valider Robots.txt-fil
Overvåg og inspicér de indekseringskontrollerende parametre
Tjek Robots Meta Tags
Find webadresserne med disallow og tillad direktiver
Identificer Robots.txt-fejl
Opdag logiske fejl i syntaksen af robotter metatags
Relaterede værktøjer
ETTVI's Robots.txt Validator
Opdag de robotekskluderinger, der forhindrer søgemaskinen i at crawle eller indeksere dit websted i realtid
Sørg for, at alle de uvigtige websider, mediefiler og ressourcefiler er blokeret fra at crawle - valider den måde, søgemaskinecrawlerne (brugeragenter) instrueres i at crawle et websted med ETTVI's Robots.txt Validator. Indtast webstedets URL; vælg brugeragenten, og kontroller, om den tillader eller afviser den respektive brugeragents aktivitet såsom gennemgang og indeksering af en webside .
ETTVI's Robots.txt Validator har gjort det nemmere at finde ud af, om alle crawlere ikke har tilladelse til at crawle en bestemt side/fil, eller om der er en bestemt robot, der ikke kan crawle den.
Tag dette nyttige SEO-værktøj i brug for at overvåge webcrawleres adfærd og regulere dit websteds crawl-budget - uden omkostninger.
Hvordan bruger man ETTVI's Robots.txt Validator?
Følg disse enkle trin for at teste robots.txt-filen på et websted med ETTVI's avancerede værktøj:
TRIN 1 - Indtast URL
Skriv URL'en til et websted som følger:
Bemærk: Glem ikke at tilføje "robots.txt" efter skråstregen.
TRIN 2 - Vælg User-Agent
Angiv den webcrawler, som du vil inspicere robots.txt-filen mod
Du kan vælge en af følgende brugeragenter:
- Google Bot
- Google Bot-nyheder
- Adsense
- AdsBot
- BingBot
- MSNBot Media
- Yahoo!
- DuckDuckGo
- Baidu
- Yandex
- TwitterBot
- Botify
TRIN 3 - Valider Robots.txt-fil
Når du klikker på "Check", kører ETTVI's gratis Robots.txt Validator for at identificere og inspicere robotternes meta-direktiver på det givne websted. Det fremhæver de webadresser, som den valgte bot kan eller ikke kan gennemgå.
Når du klikker på "Check", kører ETTVI's gratis Robots.txt Validator for at identificere og inspicere robotternes meta-direktiver på det givne websted. Det fremhæver de webadresser, som den valgte bot kan eller ikke kan gennemgå.
User-agent: * angiver, at alle søgemaskinecrawlere har tilladelse til/ikke tilladt at crawle webstedet
Tillad: angiver, at en URL kan crawles af de respektive søgemaskinecrawlere
Disallow: indicatDisallow: betyder, at en URL ikke kan crawles af den eller de respektive søgemaskinecrawlere
Hvorfor bruge ETTVI's Robots.txt Validator?
Brugervenlig grænseflade
Det eneste, det kræver, at du gør, er at indtaste din hjemmesides URL og derefter køre værktøjet. Den behandler hurtigt robots.txt-filen på det givne websted for at spore alle de blokerede URL'er og robotter meta-direktiver. Uanset om du er nybegynder eller ekspert, kan du nemt finde URL'erne med tillad/disallow-direktiver mod den valgte brugeragent (crawler).
Effektivt SEO-værktøj
ETTVI's Robots.txt Validator er et must-have-værktøj for SEO-eksperter. Det tager kun et par sekunder at inspicere et websteds robot.txt-fil mod alle brugeragenter for at spore logiske fejl og syntaksfejl, som kan skade webstedets SEO. Dette er den nemmeste måde at spare dit crawl-budget på og sikre dig, at søgemaskinerobotterne ikke crawler unødvendige sider.
Gratis adgang
ETTVI's Robots.txt Tester lader dig revidere ethvert websteds robots.txt-filer for at sikre, at dit websted er korrekt crawlet og indekseret uden at opkræve noget abonnementsgebyr.
Ubegrænset brug
For en mere forbedret brugeroplevelse giver ETTVI's Robots.txt Checker dig mulighed for at få adgang til den og bruge den uanset enhver grænse. Folk fra hele verden kan drage fordel af dette avancerede SEO-værktøj til at validere ethvert websteds udelukkelsesstandard for robotter, uanset hvor og hvornår de vil.
Forstå Robots.txt-filer
Robots.txt-filen er essensen af teknisk SEO, primært brugt til at kontrollere adfærden hos søgemaskinecrawlere. Læs derfor denne ultimative guide for at vide, hvordan Robots.txt-filen fungerer, og hvordan du opretter den på den veloptimerede måde.
Hvad er Robots.txt-fil?
Robots.txt-filen tillader eller forhindrer crawlerne i at få adgang til og crawle websiderne. Tænk på Robots.txt-filen som en instruktionsmanual til søgemaskinecrawlere. Det giver et sæt instruktioner til at specificere, hvilke dele af hjemmesiden der er tilgængelige, og hvilke der ikke er.
Mere tydeligt gør robots.txt-filen det muligt for webmasterne at kontrollere crawlerne - hvad de skal få adgang til og hvordan. Du skal vide, at en crawler aldrig lander direkte på webstedsstrukturen, men den får adgang til robots.txt-filen på det gentagne websted for at vide, hvilke URL'er der må crawles, og hvilke URL'er der ikke er tilladt.
Brug af Robots.txt-fil
En Robots.txt-fil hjælper webmasterne med at holde websiderne, mediefilerne og ressourcefilerne uden for rækkevidde af alle søgemaskinecrawlere. Med enkle ord bruges det til at holde URL'er eller billeder, videoer, lydfiler, scripts og stilfiler væk fra SERP'erne.
Størstedelen af SEO'erne har en tendens til at bruge Robots.txt-filen som et middel til at blokere websider fra at blive vist i søgemaskinens resultater. Det bør dog ikke bruges til dette formål, da der er andre måder at gøre det på, såsom anvendelse af metarobot-direktiver og adgangskodekryptering.
Husk, at Robots.txt-filen kun bør bruges til at forhindre, at crawlerne overbelaste en hjemmeside med crawl-anmodninger. Desuden kan Robots.txt-filen, hvis det kræves, bruges til at gemme crawl-budgettet ved at blokere de websider, som enten er uvigtige eller underudviklede.
Fordele ved at bruge Robots.txt-filen
Robots.txt fil kan både være et es i hullet og en fare for din hjemmeside SEO. Bortset fra den risikable mulighed, at du utilsigtet forhindrer søgemaskinens bots i at crawle hele dit websted, er Robots.txt-filen altid praktisk.
Ved at bruge en Robots.txt-fil kan webmasterne:
- Angiv placeringen af sitemap
- Forbyd gennemgang af duplikeret indhold
- Undgå, at visse URL'er og filer vises i SERP'er
- Indstil gennemgangsforsinkelsen
- Gem crawl-budgettet
Alle disse metoder anses for at være de bedste til webstedets SEO, og kun Robots.txt kan hjælpe dig med at ansøge
Begrænsninger ved brug af Robots.txt-fil
Alle webmastere skal vide, at Robots Exclusion Standard i nogle tilfælde formentlig ikke forhindrer gennemgang af websider. Der er visse begrænsninger på brugen af Robots.txt-filen, såsom:
- Ikke alle søgemaskinecrawlere følger robots.txt-direktiverne
- Hver crawler har sin egen måde at forstå robots.txt-syntaksen på
- Der er en mulighed for, at Googlebot kan crawle en ikke-tilladt webadresse
Visse SEO-praksis kan udføres for at sikre, at de blokerede URL'er forbliver skjult for alle søgemaskinecrawlere.
Oprettelse af Robots.txt-fil
Tag et kig på disse eksempelformater for at vide, hvordan du kan oprette og ændre din Robots.txt-fil:
User-agent: * Disallow: / angiver, at enhver søgemaskinecrawler er forbudt at crawle alle websiderne
User-agent: * Disallow: angiver, at enhver søgemaskinecrawler har tilladelse til at crawle hele webstedet
User-agent: Googlebot Disallow: / angiver, at kun Google-crawleren ikke har tilladelse til at crawle alle siderne på webstedet
User-agent: * Disallow: /undermappe/ angiver, at ingen søgemaskinecrawler kan få adgang til nogen webside i denne specifikke undermappe eller kategori
Du kan oprette og ændre din Robots.txt-fil på samme måde. Bare vær opmærksom på syntaksen og formater Robots.txt i henhold til de foreskrevne regler.
Robots.txt Syntaks
Robots.txt-syntaks refererer til det sprog, vi bruger til at formatere og strukturere robots.txt-filerne. Lad os give dig information om de grundlæggende termer, der udgør Robots.txt Syntax.
User-agent er den søgemaskines crawler, som du giver crawlinstruktioner til, herunder hvilke webadresser der skal crawles, og hvilke der ikke skal crawles.
Disallow er et robotmetadirektiv, der instruerer brugeragenterne i ikke at crawle den respektive URL
Tillad er et robots-metadirektiv, der kun gælder for Googlebot. Den instruerer Google-crawleren, at den kan få adgang til, crawle og derefter indeksere en webside eller undermappe.
Crawl-delay bestemmer den tidsperiode i sekunder, som en crawler skal vente, før den crawler webindhold. For en god ordens skyld følger Google crawler ikke denne kommando. Under alle omstændigheder, hvis det er nødvendigt, kan du indstille gennemgangshastigheden via Google Search Console.
Sitemap angiver placeringen af det givne websteds XML-sitemap(s). Kun Google, Ask, Bing og Yahoo anerkender denne kommando.
Specialtegn inklusive * , / og $ gør det nemmere for crawlere at forstå direktiverne. Som navnet siger, har hver af disse karakterer en særlig betydning:
* betyder, at alle crawlere er tilladt/ikke tilladt at crawle det respektive websted. / betyder, at tillad/disallow-direktivet er for alle websider
Robots.txt Hurtige fakta
- ➔ Robots.txt-filen for et underdomæne oprettes separat
- ➔ Navnet på Robots.txt-filen skal gemmes med små bogstaver som " robots.txt ", fordi der skelnes mellem store og små bogstaver.
- ➔ Robots.txt-filen skal placeres i den øverste mappe på webstedet
- ➔ Ikke alle crawlere (brugeragenter) understøtter robots.txt-filen
- ➔ Google-crawleren kan finde de blokerede URL'er fra linkede websteder
- ➔ Robots.txt-filen på hvert websted er offentligt tilgængelig, hvilket betyder, at alle kan få adgang til den
PRO Tip : I tilfælde af et stort behov, brug andre URL-blokeringsmetoder såsom adgangskodekryptering og robots metatags i stedet for robots.txt-filen for at forhindre gennemgang af visse websider.
Stil ofte spørgsmål
Kan jeg validere min robots.txt-fil mod alle brugeragenter?
Hvad er user-agent * i robots txt?
Hvad betyder User Agent * Disallow?
Skal jeg deaktivere robots.txt?
Kan jeg bruge ETTVI's Robots.txt Checker gratis?
Hold dig opdateret i e-mailverdenen.
Abonner på ugentlige e-mails med udvalgte artikler, guider og videoer for at forbedre din taktik.