فایل robots.txt چیست و چگونه ساخته میشود

فایل Robots چیست؟

فایل روبوتس چیست؟ فایل Robots.txt یک فایل ساده متنی است که این امکان را به شما می دهد که آن را روی سرور خود قرار دهید تا روش دسترسی ربات ها به صفحه های سایت شما را در کنترل خود داشته باشد. این قانونی برای خزنده ها است که مشخص می کند کدام صفحات قابلیت خزنده شده یا خزنده نشدن را دارند. محل قرار گیری فایل نیز در دایرکتوری ریشه وب سایت شما می باشد.

فایل روبوتس چیست و چگونه کار می کند؟

فایل روبوتس چیست؟ فایل روبوتس به عنوان فایل متنی ساده بر روی سرور شما قرار می گیرد تا ربات های گوگل در صفحات سایت شما دسترسی داشته باشند. خزنده ها از برنامه هایی به شمار می روند که در سایت می خزند و کاربردشان مختلف است. ولی موتورهای جستجو برای ایندکس از آنها جهت پیدا کردن محتوای سایت استفاده می کنند. این فرایند در چند مرحله صورت می گیرد. مانند:

  • خزنده ها صفی از URL ها را دارند که سایت های جدید و قبلی را می خزند.
  • قبل از اینکه یک وب سایت خزیده شود، در ابتدا خزنده ها در دایرکتوری ریشه سایت جویای فایل robots.txt خواهند بود.
  • در صورت عدم وجود فایل txt، به صورت آزادانه خزنده ها سایت را می خزند. لذا در صورت وجود فایل Robots معتبر، خزنده ها جویای دستورالعملی داخل آن خواهند بود و به همین صورت خزیدن را ادامه می دهند.
  • اگر موتور جستجو خزیدن صفحه برایش غیر ممکن باشد، صفحه ایندکس نمی شود و درنتیجه امکان ظاهر شدن آن در صفحات جستجو وجود ندارد.

در مورد فایل روبوتس چیست؟ باید به دو نکته توجه کرد:

  • صفحه ای که خزیده نشده امکان دارد ایندکس شود. نمی توان صد درصد گفت که اگر صفحه خزیده نشود ایندکس نمی شود. ربات ها اگر اطلاعاتی در منابع دیگر در محتوا یافتند و این محتوا را مهم بدانند امکان دارد آن را ایندکس کنند. مثلا آنها می توانند از سایت های دیگر پیوندهای منتهی به صفحات را بیابند. بعد از استفاده از انکرتکست، آن را در نتایج جستجو نمایش دهند.
  • برای ربات نمی توانید اجبار کنید از قانون بکار رفته در txt اطاعت کنند. Robots.txt به عنوان یک دستورالعمل کار می کند و شما این امکان را ندارید که ربات را مجبور کنید که از آن اطاعت کنند. بیشتر خزنده ها به خصوص آنها که بوسیله موتورهای جستجو استفاده می شوند، هیچ گونه صفحاتی را که بوسیله فایل Robots بلاک شده اند را نمی خزند. لذا موتورهای جستجو تنها موتورهایی که از خزنده استفاده می کنند نیستند. امکان دارد ربات های مخزب، با نادیده گرفتن دستورالعمل ها، به صفحه ها دسترسی پیدا کنند. بر این اساس نباید از Robots.txt در برابر خزیدن به عنوان مسیری برای حفظ کردن از اطلاعات حساس سایت خود بهره برد. در صورتی که باید اطمینان حاصل کنید که ربات ها قسمتی از محتوای شما را نمی خزند، بهتر است آن را با یک رمز عبور حفظ نمایید.

علت نیاز داشتن به فایل روبوتس چیست؟

حالا که دانستید فایل روبوتس چیست؟ باید بدانید که قسمت ضروری سایت شما Robots.txt نیست، ولی Robots.txt به عنوان یک فایل بهینه سازی شده، از جهات مختلف برای سایت شما سود دارد. همچنین با وجود آن می توانید بودجه خزش خود را ارتقا دهید. منابع کمی در ربات های موتورهای جستجو وجود دارند و آنها URLهایی را که امکان خزیدنشان در یک سایت مشخص وجود دارد را کاهش می دهند. لذا در صورتی که در صفحه هایی که اهمیت زیادی ندارد بودجه خزیدن را هدر دهید، امکان دارد صفحه هایی که ارزش بیشتری دارد خزیده نشوند. اگر سایت شما کوچکتر است امکان دارد این مشکل زیاد مهم نباشد، ولی در سایت های بزرگ استفاده درست از منبع ربات های جستجو بسیار اساسی به نظر می رسد.

با فایل Robots می توانید خزیدن برخی صفحات کم اهمیت را غیر ممکن کنید. این نکته بسیار اهمیت دارد؛ زیرا اگر صفحات کم اهمیت با قابلیت ایندکس شدن زیادی دارید، امکان دارد بر کل سایت اثر بگذارد و ربات ها ممکن است موتورهای جستجو را از خزیده شدن صفحه های باکیفیت پشیمان کنند. به علاوه با Robots.txt می توانید محل سایت مپ XML خود را تعیین کنید. سایت مپ به عنوان یک فایل متنی آدرس مورد نظر شما را که می خواهید موتورهای گوگل آنها را ایندکس کند را لیست بندی می کند. اگر این آدرس در فایل Robots.txt قرار گیرد پیدا کردن آن برای ربات های گوگل راحت تر خواهد شد.

چگونه Robots.txt را تغییر دهیم؟

بعد از دانستن اینکه فایل روبوتس چیست؟ بدانید که تغییر فایل Robots بسته به سیستم شما متفاوت است. اگر از یک پلتفرم تجارت الکترونیک یا CMS بهره می برید، امکان دسترسی شما به افزونه های مخصوص یا ابزارهایی وجود دارد که به شما کمک می کنند تا دسترسی راحتی به فایل داشته و تغییراتی در آن ایجاد کنید. مثلا Wix و Shopify این مجوز را به شما می دهند که مستقیما Robots.txt را ویرایش نمایید. در این مورد افزونه هایی مانند Yoast seo در وردپرس بکار می روند. اگر از پلتفرم تجارت الکترونیک یا CMS بهره می برید، امکان دارد مجبور باشید اول فایل را دانلود، ویرایش و سپس آپلود کنید. شما این امکان را دارید که به صورت های مختلفی فایل را آپلود کنید. لذا در مرورگر خود آدرس admin.com/robots.txt را وارد نموده و بعد از اینکه فایل دیده شد به راحتی عملیات کپی را در محتوا انجام دهید. از ابزارهایی که سرویس های میزبانی ارائه کردند نیز می توان استفاده کرد. مثلا، امکان دارد برای مدیریت فایل ها یک پنل اختصاصی یا از طریق FTP دسترسی وجود داشته باشد.

در زمان دانلود Robots.txt براحتی این امکان را دارید که ویرایش آن را در ویرایشگر متن دلخواه خود انجام دهید. لذا اطمینان حاصل کنید که رمزگذاری فایل در استاندارد UTF-8 انجام شده است و فراموش نکنید که اسم آن را باید Robots.txt بگذارید.

بعد از اینکه Robots.txt را اصلاح کردید می توانید آپلود فایل را مانند دانلود آن انجام دهید. این امکان را دارید که از ابزارهای مخصوص که هاست خود ارائه داده نیز استفاده کنید. استفاده از ابزارهای داخلی CMS یا ارسال فایل ها به صورت مستقیم بوسیله پروتکل های FTP نیز می تواند در دستور کار قرار گیرد. با در دسترس عموم قرار گرفتن فایل شما، پیدا کردن آن توسط موتورهای جستجو راحت تر خواهد بود. در مراحلی که خزیدن خودکار انجام می شود، تغییرات ایجاد شده را که در Robots.txt ایجاد شده را خزندهای گوگل شناسایی می کنند. لذا نسخه کش شده را هر ۲۴ ساعت یکبار آپدیت می کنند.

ربات گوگل و فایل robots.txt

آشنایی با دستورات فایل Robots.txt و معانی‌شان

در کل ۴ دستور مهم در فایل Robots.txt نیاز داریم:

User-agent: برای مشخص کردن رباتی که دستورات برای آن نوشته شده.

Disallow: بخش‌هایی که ربات اجازه درخواست یا بررسی آن را ندارد.

Allow: بخش‌هایی که مجاز به درخواست و بررسی است.

Sitemap: برای نشان دادن آدرس فایل نقشه سایت به ربات‌ها.

در ادامه توضیح می‌دهیم که چطور باید از این دستورها استفاده شود.

۱. مشخص کردن ربات با User-agent

از این دستور برای هدفگیری یک ربات خاص استفاده می‌شود. از این دستور می‌توان به دو شکل در فایل robots.txt استفاده کرد.

اگر می‌خواهید به تمام ربات‌های خزنده یک دستور یکسان بدهید، کافی است بعد از عبارت User-agent از علامت ستاره (*) استفاده کنید. علامت ستاره به معنای «همه چیز» است. مانند مثال زیر:

  *:User-agent

دستور بالا به این معنی است که دستورات بعدی، برای همه ربات‌های جستجوگر یکسان عمل کند.

اما اگر می‌خواهید تنها به یک ربات خاص مانند ربات گوگل (GoogleBot) دستور خاصی را بدهید، دستور شما باید به شکل زیر نوشته شود:

User-agent: Googlebot

کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است.

۲. مشخص کردن صفحات و بخش‌های غیرمجاز با Disallow

دستور Disallow به ربات‌ها می‌گوید که چه فولدرهایی از وب‌سایت شما را نباید بررسی کنند. درواقع این دستور، بیانگر آدرس‌هایی است که می‌خواهید از ربات‌های جستجو پنهان بماند.

برای مثال اگر نمی‌خواهید موتورهای جستجو، تصاویر وب‌سایت‌تان را ایندکس کنند، می‌توانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید.

فرض کنیم که تمام این تصاویر را به درون فولدری به نام  Photos منتقل کرده‌اید. برای آنکه به گوگل بگویید که این تصاویر را ایندکس نکند، باید دستوری مانند زیر را بنویسید:

* :User-agent

Disallow: /photos

قسمت  Disallow: /photos  بیانگر این است که ربات، اجازه ورود یا ایندکس پوشه تصاویر سایت را ندارد.

۳. مشخص کردن بخش‌های مجاز برای ربات‌ها با Allow

همانطور که می‌دانیم ربات خزنده و ایندکس کنندۀ گوگل، Googlebot نام دارد. این ربات نسبت به سایر ربات‌های جستجوگر، دستورات بیشتری را متوجه می‌شود. علاوه بر دستورات “User-agent”  و “Disallow”، ربات گوگل دستور دیگری به نام “Allow”  را نیز درک می‌کند.

دستور Allow به شما امکان می‌دهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد. برای درک بهتر این دستور، اجازه بدهید که از مثال قبلی استفاده کنیم.

در مثال قبل رشته کدی را نوشتیم که به ربات‌های جستجو، اجازه دسترسی به تصاویر سایت را نمی‌داد. تمام تصاویر سایت را درون یک پوشه به نام Photos قرار دادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:

* :User-agent

Disallow: /photos

حال تصور کنید درون این پوشه‌ی ما که در هاستینگ سایت قرار دارد، تصویری به نام hamrahkara.jpg وجود دارد که می‌خواهیم Googlebot آن را ایندکس کند. با استفاده از دستور Allow می‌توانیم به ربات گوگل بگوییم که این کار را انجام دهد:

* :User-agent

Disallow: /photos

Allow: /photos/hamrahkara.jpg

این دستور به ربات گوگل می‌گوید علی رغم اینکه فولدر Photos از دسترس ربات‌ها خارج شده است، اجازه مشاهده و ایندکس فایل novin.jpg را دارد.

۴. نقشه سایت

گوگل برای وبمسترها و صاحبان وبسایت‌ها چند راه برای دسترسی به نقشه سایت گذاشته است. یکی از این راه‌ها نوشتن آدرس فایل در فایل Robots است.

Sitemap: https://example.com/sitemap.xml

هیچ الزامی وجود ندارد که آدرس نقشه سایت را از این راه به ربات‌های گوگل نمایش دهید. بهترین راه ارائه نقشه سایت به گوگل استفاده از ابزار سرچ کنسول است.

نمونه فایل Robots.txt

User-agent: *
Disallow:

Sitemap: https://hamrahkara.com/sitemap_index.xml

در این فایل به تمام موتور های جستجو اعلام شده که تمام صفحات را کرول کنند و در انتها آدرس سایت مپ سایت نیز کعرفی شده است.

برای ساخت فایل ربات نیاز به هیچ برنامه خاصی نیست. همان Notepad ساده ویندوز یا هر ویرایشگر متن دیگر که فایل خروجی از نوع TXT می‌دهد قابل استفاده است. برای ساخت فایل robots.txt فقط یک فایل txt جدید ایجاد کنید. فرمت یا انکودینگ فایل حتماً باید UTF-8 باشد.

بارگذاری فایل Robots در سایت

فایل‌ ربات‌ها باید در ریشه (root) قرار بگیرد. یعنی درست در پوشه اصلی میزبان سایت. این فایل نباید داخل پوشه یا دایرکتوری قرار بگیرد. طوری که آدرس دسترسی به آن مانند مثال زیر باشد:

https://www.example.com/robots.txt

بعد از ایجاد و بارگزاری قایل robots در هاست و یا سرور خود می‌توانید آن را به کمک ابزار تست گوگل تست کنید.

ابزار تست فایل روبوتس در سرچ کنسول

سخن پایانی

فایل روبوتس چیست؟ در صورت راه اندازی درست فایل Robots.txt می توانید به بهبود بخشیدن فرایند ایندکس سایت خود کمک کنید. در صورت صرف بهینه تر بودجه خزش توسط موتورهای جستجو، بوسیله گوگل زودتر تغییرات محتوایی نمایش داده می شود. به علاوه بوجود آمدن فایل Robots.txt چندان کار سختی نیست.

مشاوره رایگان

با ما تماس بگیرید و مشاوره رایگان دریافت کنید

۱
۲
۳
۴
۵
میانگین امتیازات ۵ از ۵
از مجموع ۱ رای

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *