Mis on kodulehe otsirobot?
Kas keegi on tundnud huvi, milleks on juurkataloogis fail robots.txt ja milleks see vajalik on?Seda faili robots.txt kasutatakse teatud failide/kataloogide kaitsmiseks või teisisõnu ei avaldata määratuid faile otsingumootoritele.
Teine funktsioon milleks saab veel robots.txt faili kasutada on kaitsta ennast halbade botide eest ehk teisisõnu võimalus kaitsa oma kodulehte spämmi eest ja salastaud failide/kataloogide avalikustamise eest.
Tihtipeale koguvad botid sinu kodulehelt e-posti aadresse ja pärast imestadakse kust tulevad igasugused spämmi e-mailid. Samas võid tihtipeale ka suvalistest otsingu mootoritest leida oma kodulehe linke, mida ei sooviks kuvada avalikult.
Järgnev juhend seletab lahti, kuidas kastatda robots.txt faili ning järgnevat juhendit võib kasutada ükskõik millises muus veebi struktuuris.
Süntaksist, mida kasutadakse robots.txt failis on limiteeritud ja väga lihtne mõista. Esimene osa juhendist määrab ära milliseid roboteid/bote lubatakse tuhnima sinu saidile.
User-agent: BotiNimi
Asenda BotiNimi roboti nimega. Näiteks User-agent: Googlebot
Kõikide botide lubamiseks kasuta * tärni.
User-agent: *
Teine osa juhendist käsitleb kindlate failide/kataloogide peitmist robotite/botide eest. Kasuta alljärgnevat näidet failidest ja kataloogidest, mida soovid kaitsta.
Disallow: /cgi-bin/
Selle näite järgi ei sisene keelatud kataloogi /cgi-bin/ robotid ja botid edasi. Kui katalooge on rohkem kui üks, siis kasuta iga kataloogi ees Disallow süntaksit.
User-agent: *
Disallow: /cgi-bin/
Disallow: /temp/
Disallow: /private/
Kataloogide juurde võid ka lisada vabalt faili nimesi, mida sa ei soovi avalikustada otsingute mootorites.
User-agent: *
Disallow: /admin.php
Disallow: /config.php
Disallow: /cgi-bin/
Disallow: /temp/
Disallow: /private/
Juhul, kui soovid tervet oma saiti keelata kindlate bottite eest siis kasuta alljärgnevat näidet. Iga boti puhul tuleks lisada peale vaba rida uus boti nimi.
User-agent: BotiNimi1
Disallow: /
User-agent: BotiNimi2
Disallow: /
Juhul, kui sinu saiti võivad kõik botid külastada, siis kasuta alljärgnevat näidet.
User-agent: *
Disallow:
Mõnigad populaarsemate otsingmootorite/bottide nimed, mida nimetatakse ka tänapäeval "spiders".
Roboti nimi <-> Otsingumootori nimi
Googlebot <-> Google
Googlebot-Image <-> Google Images
Slurp <-> Inktomi
ZyBorg <-> WiseNut/LookSmart
fast <-> Fast/AllTheWeb
Openbot <-> OpenFind
Scooter <-> Alta Vista
Botid, mida kasutavad spämmerid. Alusta User-Agent süntaksiga.
EmailSiphon
EmailWolf
ExtractorPro
CherryPicker
NICErsPRO
Teleport
EmailCollector