فایل متنی robots.txt

فایل متنی robots.txt

فایل متنی robots.txt

فایل robots.txt چیست؟

فایل متنی robots.txt یک فایل بسیار ساده است و همانطور که از پسوند آن مشخص است فرمت txt و متن دارد که در تمام سیستم ها قابل شناسایی است و در آن باید ها و نباید ها به موتورهای جستجو گوشزد می شود.صاحبان وب سایت از این فایل برای انجام تنظیمات مربوط به روباتهای جستجوگر اینترنت استفاده میکنند،و به پروتوکل استثناهای روباتهای وب معروف است.

فایل متنی robots.txt چطور کار می کند؟

تنطیمات روبات وب بسیار ساده است. روباتها برای فهرست بندی و ایندکس گذاری به سایت مراجعه می کنند و در هنگام مراجعه به سایت قبل از هر آدرسی مثلا http://YourSite.com/gallery.html فایل http://YourSite.com/robots.txt را می خوانند تا فیلترهای مشخص شده وب سایت را بدانند و بر اساس آن اقدام به فهرست بندی کنند.

فایل robots.txt را کجا آپلود کنم؟

به طور معمول در این فایل محتوای زیادی قرار ندارد و چند کلمه کوتاه در 2 خط تکلیف روبات را مشخص میکند ولی اگر به اشتباه و بدون دقت از اولین سایت آموزشی دو خط در متن نادرست کپی کنیم ممکن است به روباتها گفته باشید این سایت را نبین. البته روباتهای بد یا اسپمر ها به قوانین این فایل اهمیت نمی دهند و این قانون برای روباتهای معتبر تا حدود زیادی موثر است.

چگونه یک فایل robots.txt بسازیم؟

ابتدا یک فایل به نام robots.txt در notepad یا هر ویرایشگر ساده دیگری ایجاد نمایید سپس دستورالعملی که به آن نیاز دارید را در فایل قرار دهید و فایل را به سایت منتقل نمایید.

فایل robots.txt را کجا آپلود کنم؟ محل فایل روبات کجاست؟

فایل روبات robots.txt در ریشه وب سایت قرار می گیرد که آدرس ریشه معمولا در وب سایتها پوشه www یا public_html می باشد و این همان محلی است که فایل صفحه اصلی یا index در آن قرار داده می شود.

نمونه فایل robots.txt

همانطور که در مثال های پایین ملاحظه می کنید در خط اول user-agent روبات را مشخص میکند و کاراکتر ستاره * مشخص میکند که مخاطب دستور همه روباتها بدون مشخص شدن نمونه خاصی است.
خط دوم شامل دو بخش است، Allow که از ترجمه آن پیداست اجازه می دهده به مسیری که در اینجا روت یا ریشه سایت است و با علامت / مشخص شده دسترسی برای اصطلاحا خزنده های وب یا روباتها آزاد باشد:

User-agent: *
Allow: /

مخاطب دستور زیر همه روباتهای وب، دستور: (از هیچ صفحه ای در این سایت بازدید نکن)

 

User-agent: *
Disallow: /

 

برای درک بهتر کاربرد این فایل، نمونه هایی برای جلوگیری از نمایش عکس و تصاویر سایت در بخش تصاویر گوگل را مثال می زنیم، که این مثالها به روبات جستجوگر تصایر گوگل می گویند از چه بخشهایی بازدید نکند. مثال زیر در خط اول مخاطب را روبات جستجوگر تصاویر گوگل مشخص نموده و در خط دوم Disallow عدم اجازه به مسیر : /images

User-agent: Googlebot-Image
Disallow: /images

اگر عکس خاصی در پوشه فرضی images مورد نظر باشد به شکل زیر آدرس دهی می شود:

User-agent: Googlebot-Image

Disallow: /images/tasvir1.jpg

جلوگیری از نمایش تمام عکسها و تصاویر در گوگل:

User-agent: Googlebot-Image
Disallow: /

فیلتر کردن یک فرمت خاص برای جستجو

موتور گوگل این امکان را میدهد که فیلتر و محدودیتهای دقیقتری نیز تعریف شود، برای مثال تمام فایلهای عکس به جز gif فیلتر شود. در مثال زیر علامت $ نشان دهنده محل پایان نام فایل است.

User-agent: Googlebot-Image
Disallow: /*.gif$

جلوگیری از نمایش در تمام گوگل و نه فقط بخش عکس:

User-agent: Googlebot
Disallow: /

جلوگیری از نمایش فایل اکسل در گوگل:

User-agent: Googlebot
Disallow: /*.xls$

در صورت عدم دسترسی به ساخت فایل robots.txt یا آپلود آیا می توانم از فیلتر دسترسی روباتها استفاده کنم؟
در صورتی که امکان ساخت یا آپلود فایل به هر دلیل وجود نداشته باشد می توانید از متا تگها HTML meta tags برای بلوکه کردن دسترسی روباتهای وب استفاده نمایید، در مثال زیر در بدنه فایل HTML به روبات گوگل گفته شده این صفحه را در فهرست خود قرار نده.

<meta name=”googlebot” content=”noindex”>

دانلود یا مشاهده نمونه فایل robots.txt:

فایل متنی robots.txt

لیست روباتهای وب Web Robots List:

در ادامه مطلب لیست روباتهای وب که از بانک اطلاعاتی وب روبوتس استخراج شده قابل مشاهده است:

ABCdatos BotLink
Acme.Spider
Ahoy! The Homepage Finder
Alkaline
Anthill
Walhello appie
Arachnophilia
Arale
Araneo
AraybOt
ArchitextSpider
Aretha
ARIADNE
arks
AskJeeves
ASpider (Associative Spider)
ATN Worldwide
Atomz.com Search Robot
AURESYS
BackRub
Bay Spider
Big Brother
Bjaaland
BlackWidow
Die Blinde Kuh
Bloodhound
Borg-Bot
BoxSeaBot
bright.net caching robot
BSpider
CACTVS Chemistry Spider
Calif
Cassandra
Digimarc Marcspider/CGI
Checkbot
ChristCrawler.com
churl
cIeNcIaFiCcIoN.nEt
CMC/0.01
Collective
Combine System
Conceptbot
ConfuzzledBot
CoolBot
Web Core / Roots
XYLEME Robot
Internet Cruiser Robot
Cusco
CyberSpyder Link Test
CydralSpider
Desert Realm Spider
DeWeb(c) Katalog/Index
DienstSpider
Digger
Digital Integrity Robot
Direct Hit Grabber
DNAbot
DownLoad Express
DragonBot
DWCP (Dridus’ Web Cataloging Project)
e-collector
EbiNess
EIT Link Verifier Robot
ELFINBOT
Emacs-w3 Search Engine
ananzi
esculapio
Esther
Evliya Celebi
FastCrawler
Fluid Dynamics Search Engine robot
Felix IDE
Wild Ferret Web Hopper #1, #2, #3
FetchRover
fido
Hämähäkki
KIT-Fireball
Fish search
Fouineur
Robot Francoroute
Freecrawl
FunnelWeb
gammaSpider, FocusedCrawler
gazz
GCreep
GetBot
GetURL
Golem
Googlebot
Grapnel/0.01 Experiment
Griffon
Gromit
Northern Light Gulliver
Gulper Bot
HamBot
Harvest
havIndex
HI (HTML Index) Search
Hometown Spider Pro
ht://Dig
HTMLgobble
Hyper-Decontextualizer
iajaBot
IBM_Planetwide
Popular Iconoclast
Ingrid
Imagelock
IncyWincy
Informant
InfoSeek Robot 1.0
Infoseek Sidewinder
InfoSpiders
Inspector Web
IntelliAgent
I, Robot
Iron33
JavaBee
JBot Java Web Robot
JCrawler
Jeeves
JoBo Java Web Robot
Jobot
JoeBot
The Jubii Indexing Robot
JumpStation
image.kapsi.net
Katipo
KDD-Explorer
Kilroy
KO_Yappo_Robot
LabelGrabber
larbin
legs
Link Validator
LinkScan
LinkWalker
Lockon
logo.gif Crawler
Lycos
Mac WWWWorm
Magpie
marvin/infoseek
Mattie
MediaFox
MerzScope
NEC-MeshExplorer
MindCrawler
mnoGoSearch search engine software
moget
MOMspider
Monster
Motor
MSNBot
Muncher
Muninn
Muscat Ferret
Mwd.Search
Internet Shinchakubin
NDSpider
Nederland.zoek
NetCarta WebMap Engine
NetMechanic
NetScoop
newscan-online
NHSE Web Forager
Nomad
The NorthStar Robot
nzexplorer
ObjectsSearch
Occam
HKU WWW Octopus
OntoSpider
Openfind data gatherer
Orb Search
Pack Rat
PageBoy
ParaSite
Patric
pegasus
The Peregrinator
PerlCrawler 1.0
Phantom
PhpDig
PiltdownMan
Pimptrain.com’s robot
Pioneer
html_analyzer
Portal Juice Spider
PGP Key Agent
PlumtreeWebAccessor
Poppi
PortalB Spider
psbot
GetterroboPlus Puu
The Python Robot
Raven Search
RBSE Spider
Resume Robot
RoadHouse Crawling System
RixBot
Road Runner: The ImageScape Robot
Robbie the Robot
ComputingSite Robi/1.0
RoboCrawl Spider
RoboFox
Robozilla
Roverbot
RuLeS
SafetyNet Robot
Scooter
Sleek
Search.Aus-AU.COM
SearchProcess
Senrigan
SG-Scout
ShagSeeker
Shai’Hulud
Sift
Simmany Robot Ver1.0
Site Valet
Open Text Index Robot
SiteTech-Rover
Skymob.com
SLCraw ler
Inktomi Slurp
Smart Spider
Snooper
Solbot
Spanner
Speedy Spider
spider_monkey
SpiderBot
Spiderline Crawler
SpiderMan
SpiderView(tm)
Spry Wizard Robot
Site Searcher
Suke
suntek search engine
Sven
Sygol
TACH Black Widow
Tarantula
tarspider
Tcl W3 Robot
TechBOT
Templeton
TeomaTechnologies
TITAN
TitIn
The TkWWW Robot
TLSpider
UCSD Crawl
UdmSearch
UptimeBot
URL Check
URL Spider Pro
Valkyrie
Verticrawl
Victoria
vision-search
void-bot
Voyager
VWbot
The NWI Robot
W3M2
WallPaper (alias crawlpaper)
the World Wide Web Wanderer
w@pSpider by wap4.com
WebBandit Web Spider
WebCatcher
WebCopy
webfetcher
The Webfoot Robot
Webinator
weblayers
WebLinker
WebMirror
The Web Moose
WebQuest
Digimarc MarcSpider
WebReaper
webs
Websnarf
WebSpider
WebVac
webwalk
WebWalker
WebWatch
Wget
whatUseek Winona
WhoWhere Robot
Wired Digital
Weblog Monitor
w3mir
WebStolperer
The Web Wombat
The World Wide Web Worm
WWWC Ver 0.2.5
WebZinger
XGET

 

هر گونه کپی برداری از این مطلب تنها با درج لینک این صفحه به عنوان منبع از وبلاگ دی تلکام بلامانع است

مطالب مرتبط:  تگ های html که در سئو نباید فراموش بشه       چک کردن رتبه سایت در گوگل       موارد مهم در طراحی سایت      طراحی وب سایت شرکتی      سئو ارگانیک چیست؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

1 نظر در مورد “فایل متنی robots.txt

    • نویسنده گراواتار (gravatar)

      آیا تو وبلاگ هم میشه فایل روبوت قرار داد؟
      من هرچی گشتم فولدر یا پوشه هایی که گفتید رو پیدا نکردم