Hakukoneet on varustettu robotilla, joka tunnetaan myös nimellä hämähäkit tai robotit, jotka indeksoivat ja indeksoivat verkkosivuja. Jos sivustosi tai sivusi on kehitteillä tai sisältää arkaluonteista sisältöä, sinun kannattaa ehkä estää botteja indeksoimasta sivustoasi. Opi estämään kokonaiset verkkosivustot, sivut ja linkit robots.txt -tiedostoilla ja estämään tietyt sivut ja linkit html -tunnisteilla. Lue, miten voit estää tiettyjä robotteja pääsemästä sisältöösi.
Askeleet
Tapa 1 /2: Hakukoneiden estäminen robots.txt -tiedostoilla
Vaihe 1. Ymmärrä robots.txt -tiedostot
Robots.txt -tiedosto on tavallinen tai ASCII -tekstitiedosto, joka kertoo hakukoneiden hämähäkeille, mitä he saavat käyttää sivustossasi. Hakukoneen hämähäkit eivät saa indeksoida robots.txt -tiedostossa lueteltuja tiedostoja ja kansioita. Saatat tarvita robots.txt -tiedoston, jos:
- Haluat estää tietyn sisällön hakukoneiden hämähäkeiltä.
- Olet kehittämässä live -sivustoa etkä ole valmis hakukoneiden hämähäkkien indeksoimaan ja indeksoimaan sivuston
- Haluat rajoittaa pääsyn hyvämaineisiin botteihin.
Vaihe 2. Luo ja tallenna ja robots.txt -tiedosto
Luo tiedosto käynnistämällä pelkkä tekstieditori tai koodieditori. Tallenna tiedosto nimellä: robots.txt. Tiedoston nimen on oltava pieniä.
- Älä unohda "s".
- Kun tallennat tiedoston, valitse laajennus ''.txt ''. Jos käytät Wordia, valitse "Pelkkä teksti".
Vaihe 3. Kirjoita robots.txt-tiedoston koko kielto
On mahdollista estää jokaisen hyvämaineisen hakukoneen hämähäkki indeksoimasta sivustoasi "full disallow" robots.txt-tiedostolla. Kirjoita seuraavat rivit tekstitiedostoosi:
User-agent: * Ei sallittu: /
Vaihe 4. Kirjoita ehdollisesti sallittava robots.txt-tiedosto
Sen sijaan, että estät kaikki robotit, harkitse tiettyjen hämähäkkien estämistä tietyiltä sivustosi alueilta. Yleisiä ehdollisen sallimisen komentoja ovat:
- Estä tietty botti: korvaa tähdet vieressä Käyttäjä agentti kanssa googlebot, googlebot-uutiset, googlebot-kuva, bingbottai teoma.
-
Hakemiston ja sen sisällön estäminen:
User-agent: * Disallow: /sample-directory /
-
Verkkosivun estäminen:
User-agent: * Älä salli: /private_file.html
-
Estä kuva:
User-agent: googlebot-image Estä: /images_mypicture.jpg
-
Estä kaikki kuvat:
User-agent: googlebot-image Estä: /
-
Tietyn tiedostomuodon estäminen:
User-agent: * Älä salli: /p*.gif$
Vaihe 5. Kannusta robotteja indeksoimaan ja indeksoimaan sivustosi
Monet ihmiset haluavat toivottaa hakukoneiden hämähäkit estämisen sijaan, koska he haluavat koko sivustonsa indeksoidun. Tämän saavuttamiseksi sinulla on kolme vaihtoehtoa. Ensinnäkin voit kieltäytyä luomasta robots.txt-tiedostoa-kun robotti ei löydä robots.txt-tiedostoa, se jatkaa koko sivustosi indeksointia. Toiseksi voit luoda tyhjän robots.txt-tiedoston-robotti löytää robots.txt-tiedoston, tunnistaa sen tyhjäksi ja jatkaa sivustosi indeksointia. Lopuksi voit kirjoittaa täysin sallitun robots.txt-tiedoston. Käytä koodia:
User-agent: * Disallow:
Vaihe 6. Tallenna txt -tiedosto verkkotunnuksesi juureen
Kun olet kirjoittanut robots.txt -tiedoston, tallenna muutokset. Lataa tiedosto sivustosi juurihakemistoon. Jos verkkotunnuksesi on esimerkiksi www.yourdomain.com, aseta robots.txt -tiedosto osoitteeseen www.yourdomain.com/robots.txt.
Tapa 2/2: Hakukoneiden estäminen sisällönkuvauskentillä
Vaihe 1. Ymmärtäkää HTML -robottien sisällönkuvauskentät
Robots -sisällönkuvauskentän avulla ohjelmoijat voivat asettaa parametreja botteja tai hakukoneiden hämähäkkejä varten. Näitä tunnisteita käytetään estämään botteja indeksoimasta ja indeksoimasta koko sivustoa tai vain osia siitä. Voit myös käyttää näitä tunnisteita estääksesi tietyn hakukoneen hämähäkin indeksoimasta sisältöäsi. Nämä tunnisteet näkyvät HTML -tiedostosi päässä.
Tätä menetelmää käyttävät yleisesti ohjelmoijat, joilla ei ole pääsyä verkkosivuston juurihakemistoon
Vaihe 2. Estä robotit yhdeltä sivulta
On mahdollista estää kaikkia botteja indeksoimasta sivua ja tai seuraamasta sivun linkkejä. Tätä tagia käytetään yleisesti, kun live -sivusto on kehitteillä. Kun sivusto on valmis, on erittäin suositeltavaa poistaa tämä tagi. Jos et poista tunnistetta, sivusi ei ole indeksoitu tai haettavissa hakukoneiden kautta.
- Voit estää botteja indeksoimasta sivua ja seuraamasta linkkejä:
- Voit estää kaikkia robotteja indeksoimasta sivua:
- Voit estää kaikki robotit seuraamasta sivun linkkejä:
Vaihe 3. Anna robottien indeksoida sivu, mutta älä seuraa sen linkkejä
Jos annat botien indeksoida sivun, sivu indeksoidaan; Jos estät hämähäkkejä seuraamasta linkkejä, linkki polku tältä sivulta muille sivuille katkeaa. Lisää otsikkoon seuraava koodirivi:
Vaihe 4. Anna hakukoneiden hämähäkkien seurata linkkejä, mutta älä indeksoida sivua
Jos annat botien seurata linkkejä, linkki polku tältä sivulta muille sivuille pysyy vakaana; jos estät heitä indeksoimasta sivua, verkkosivusi eivät näy hakemistossa. Lisää otsikkoon seuraava koodirivi:
Vaihe 5. Estä yksi lähtevä linkki
Jos haluat piilottaa yksittäisen linkin sivulle, upota a rel -tunniste linkkitagin sisällä. Voit ehkä käyttää tätä tagia estääksesi linkit muille sivuille, jotka johtavat haluamallesi sivulle, jonka haluat estää.
Lisää linkki estetylle sivulle
Vaihe 6. Estä tietty hakukoneen hämähäkki
Sen sijaan, että estät kaikki robotit verkkosivultasi, voit ehkä estää yhden robotin indeksoimasta ja indeksoimasta sivua. Voit tehdä tämän korvaamalla”robotin” sisällönkuvauskentän sisällä tietyn botin nimellä. Esimerkkejä ovat: googlebot, googlebot-uutiset, googlebot-kuva, bingbotja teoma.
Vaihe 7. Kannusta botteja indeksoimaan sivusi
Jos haluat varmistaa, että sivusi indeksoidaan ja sen linkkejä seurataan, voit lisätä seuraamisluvan meta "robotti" tunniste otsikkoosi. Käytä seuraavaa koodia: