آموزش کامل ساختن فایل Robots.txt برای سایت (+ نکات)
کد تخفیف در جریان devme1397 %10 تا آخر پاییز97

فایل robots.txt یکی از مهم ترین فایل ها برای ارتباط با موتورهای جستجوگر است. خزنده های جستجوگر توسط این فایل خواهند فهمید که به چه بخش هایی از سایت شما باید دسترسی باشند و چه بخش هایی را نباید بررسی کنند. محدود کردن خزنده های موتور جستجو را می توانیم توسط مقدار متای noindex و nofollow تعیین کنیم اما گاهی اوقات نمی توانیم این متا را در فایل مربوط به آن صفحه استفاده کنیم تا شامل مابقی بخش های آن نشود.

مثلا صفحاتی مانند خوراک، یا صفحه مدیریت وب سایت و … که به راحتی نمی توانیم به کدهای آن دسترسی داشته باشیم را می توانیم توسط فایل robots.txt محدود کنیم. در این مستند آموزشی مارکت دِومی با ما همراه باشید تا نحوه ساختن این فایل را به شما آموزش دهیم.

Robots TXT file


مکان صحیح ساختن این فایل

این فایل باید در روت سایت قرار داشته باشد تا زمانی که آدرس https://site.ltd/robots.txt در مرورگر اجرا شد، محتویات این فایل مشاهده شود. موتورهای جستجو هم آدرس اصلی سایت را در کنار robots.txt قرار می دهند و وجود داشتن این فایل را بررسی می کنند.

برای مثال اگر شما این فایل را در پوشه اضافه ای مانند https://site.ltd/robot/robots.txt ایجاد کنید، این فایل قابل ردیابی توسط خزنده های موتور جستجو نخواهد بود. در خصوص ساب دامین ها هم به همین صورت. مثال: https://sample.site.ltd/robots.txt

 

در وردپرس، این فایل باید در همان مکانی قرار داشته باشد که فایل wp-config.php قرار دارد. (در واقع منظور اصلی ما این است که باید در روت سایت قرار داشته باشد.)

 


دستورات اولیه

داخل این فایل، در خط اول باید مشخص کنیم که دستورات بعدی موجود در این فایل، مربوط به چه ربات هایی (خزنده های موتور جستجو) است. این خط به این صورت است:

User-Agent:

در مقابل این خط، ما می توانیم خزنده های مورد خطاب را ذکر کنیم! برای مثال:

User-agent: GoogleBot

یعنی دستورات بعد از این خط را تنها باید خزنده گوگل مد نظر قرار دهد. یا اینکه بجای مشخص کردن ربات مشخص و استفاده از علامت ستاره ( * ) تمامی ربات های موتورهای جستجوگر را ذکر کنیم. مثال:

User-agent: *

 

پس از این خط اول، دستورات Allow و Disallow را می نویسیم.

دستور Allow مجاز کردن یک مسیر یا صفحه از سایت را انجام می دهد و Disallow وظیفه محدود کردن صفحه و درخواست عدم بررسی صفحه تعیین شده را برعهده خواهد داشت.

علامت ستاره در مقابل این دو دستور، همانند وایلدکارت – Wildcard عمل خواهد کرد. یعنی اگر بخواهیم تمامی صفحاتی که در انتهاب آدرس آنها، یک کلمه ثابت دارند را Disallow کنیم، به این صورت آن را می نویسیم. (مثال فرض کنید بخواهیم feed را غیرمجاز کنیم:)

Disallow: */feed/

یا اگر یک کلمه ثابت در میان آدرس صفحات سایتمان هست و می خواهیم تمامی آنها را Disallow کنیم به این صورت باید وارد کنیم:

Disallow: */feed/*

بدین ترتیب می توانیم صفحات خاص که کلمات مشخصی درون خود دارند را Disallow نماییم.

اما صفحاتی که به صورت مستقیم پس از آدرس اصلی سایت باز می شوند را می توانیم به این صورت بنویسیم: (برای مثال فرض کنیم در وردپرس می خواهیم پیشخوان را غیرمجاز کنیم)

Disallow: /wp-admin

یا صفحات داخلی پیشخوان :

Disallow: /wp-admin/*

 

در هنگام Disallow کردن صفحات سایتتان در این فایل باید بسیار دقت داشته باشید چرا که محدود کردن اشتباه یک آدرس ممکن است به ایندکس صفحات سایتتان لطمه بزند!

 


معرفی نقشه سایت

یکی دیگر از مهم ترین خطوطی که در این فایل می توانیم بکار ببریم، خط معرفی نقشه سایت (Site map) می باشد. معرفی این صفحه از سایت در این فایل باعث می شود ربات های جستجوگر به تمامی محتوای سایت ما دسترسی پیدا کنند و آنها را سریع تر ایندکس کنند.

برای اینکار کافیست این خط را با آدرس سایتتان جایگزین و آن را در خط آخر فایل robots.txt قرار دهید:

Sitemap: https://devme.ir/sitemap.xml

 


نمونه نهایی کار

پس از کنار هم قرار دادن این دستورات، هم اکنون محتویات فایل robots.txt ما به این صورت خواهد بود که شما می توانیم هر صفحه دیگری که بخواهید را از ایندکس شدن منع کنید!

User-Agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */feed/

Sitemap: https://devme.ir/sitemap.xml

نکته : در صورتی که توسط Disallow صفحات خاصی را محدود کرده اید، نیازی نیست با استفاده از دستور Allow مابقی صفحات را مجاز اعلام کنید. چرا که همانند کد بالا، تمامی صفحات به غیر از صفحاتی که توسط Disallow محدود شده اند، ایندکس خواهند شد و مجاز می باشند. بنابراین نیازی به استفاده از Allow نیست.

 

نکته ضروری:

هیچ گاه از دستورات Disallow: * و Disallow: / در این فایل استفاده نکنید. چراکه با استفاده از این دستور، تمامی صفحات سایت شما محدود خواهند شد و ربات ها و خزنده های موتورجستجو نمی توانند به آنها دسترسی داشته باشند و آنها را ایندکس کنند.

نودی گفت :آذر 23, 1396

سلام
کاربرد robot txt در چیه ؟؟ ممنون

مسیح دیندار گفت :آذر 23, 1396

درود.
فایل Robots.txt رو ربات های موتور جستجو (مثل خزنده های گوگل، بینگ، یاهو و…) استفاده می کنند. داخل این فایل همونطور که توی مطلب هم نوشتیم، می تونیم صفحات و آدرس های خاصی از سایتمون رو داخلش تعریف کنیم. با این دستورات می تونیم ربات ها رو از دسترسی به صفحات خاص و ایندکس کردن اونها منع کنیم.
برای مثال صفحه ورود و عضویت در سایتمون رو در فایل Robots.txt محدود می کنیم. در این حالت فقط ربات ها نمی تونند به این صفحات دسترسی داشته باشند و همچنان کاربران عادی می تونند وارد این صفحات بشند . دستورات موجود در این فایل روی نوع نمایش سایت برای کاربران تأثیری نمیگذاره.

امیدوارم تونسته باشم جواب سوالتون رو بدم.
موفق باشید

دیدگاه شما درباره این صفحه چیست؟