فایل Robots چیست؟
فایل روبوتس چیست؟ فایل Robots.txt یک فایل ساده متنی است که این امکان را به شما می دهد که آن را روی سرور خود قرار دهید تا روش دسترسی ربات ها به صفحه های سایت شما را در کنترل خود داشته باشد. این قانونی برای خزنده ها است که مشخص می کند کدام صفحات قابلیت خزنده شده یا خزنده نشدن را دارند. محل قرار گیری فایل نیز در دایرکتوری ریشه وب سایت شما می باشد.
فایل روبوتس چیست و چگونه کار می کند؟
فایل روبوتس چیست؟ فایل روبوتس به عنوان فایل متنی ساده بر روی سرور شما قرار می گیرد تا ربات های گوگل در صفحات سایت شما دسترسی داشته باشند. خزنده ها از برنامه هایی به شمار می روند که در سایت می خزند و کاربردشان مختلف است. ولی موتورهای جستجو برای ایندکس از آنها جهت پیدا کردن محتوای سایت استفاده می کنند. این فرایند در چند مرحله صورت می گیرد. مانند:
- خزنده ها صفی از URL ها را دارند که سایت های جدید و قبلی را می خزند.
- قبل از اینکه یک وب سایت خزیده شود، در ابتدا خزنده ها در دایرکتوری ریشه سایت جویای فایل robots.txt خواهند بود.
- در صورت عدم وجود فایل txt، به صورت آزادانه خزنده ها سایت را می خزند. لذا در صورت وجود فایل Robots معتبر، خزنده ها جویای دستورالعملی داخل آن خواهند بود و به همین صورت خزیدن را ادامه می دهند.
- اگر موتور جستجو خزیدن صفحه برایش غیر ممکن باشد، صفحه ایندکس نمی شود و درنتیجه امکان ظاهر شدن آن در صفحات جستجو وجود ندارد.
در مورد فایل روبوتس چیست؟ باید به دو نکته توجه کرد:
- صفحه ای که خزیده نشده امکان دارد ایندکس شود. نمی توان صد درصد گفت که اگر صفحه خزیده نشود ایندکس نمی شود. ربات ها اگر اطلاعاتی در منابع دیگر در محتوا یافتند و این محتوا را مهم بدانند امکان دارد آن را ایندکس کنند. مثلا آنها می توانند از سایت های دیگر پیوندهای منتهی به صفحات را بیابند. بعد از استفاده از انکرتکست، آن را در نتایج جستجو نمایش دهند.
- برای ربات نمی توانید اجبار کنید از قانون بکار رفته در txt اطاعت کنند. Robots.txt به عنوان یک دستورالعمل کار می کند و شما این امکان را ندارید که ربات را مجبور کنید که از آن اطاعت کنند. بیشتر خزنده ها به خصوص آنها که بوسیله موتورهای جستجو استفاده می شوند، هیچ گونه صفحاتی را که بوسیله فایل Robots بلاک شده اند را نمی خزند. لذا موتورهای جستجو تنها موتورهایی که از خزنده استفاده می کنند نیستند. امکان دارد ربات های مخزب، با نادیده گرفتن دستورالعمل ها، به صفحه ها دسترسی پیدا کنند. بر این اساس نباید از Robots.txt در برابر خزیدن به عنوان مسیری برای حفظ کردن از اطلاعات حساس سایت خود بهره برد. در صورتی که باید اطمینان حاصل کنید که ربات ها قسمتی از محتوای شما را نمی خزند، بهتر است آن را با یک رمز عبور حفظ نمایید.
علت نیاز داشتن به فایل روبوتس چیست؟
حالا که دانستید فایل روبوتس چیست؟ باید بدانید که قسمت ضروری سایت شما Robots.txt نیست، ولی Robots.txt به عنوان یک فایل بهینه سازی شده، از جهات مختلف برای سایت شما سود دارد. همچنین با وجود آن می توانید بودجه خزش خود را ارتقا دهید. منابع کمی در ربات های موتورهای جستجو وجود دارند و آنها URLهایی را که امکان خزیدنشان در یک سایت مشخص وجود دارد را کاهش می دهند. لذا در صورتی که در صفحه هایی که اهمیت زیادی ندارد بودجه خزیدن را هدر دهید، امکان دارد صفحه هایی که ارزش بیشتری دارد خزیده نشوند. اگر سایت شما کوچکتر است امکان دارد این مشکل زیاد مهم نباشد، ولی در سایت های بزرگ استفاده درست از منبع ربات های جستجو بسیار اساسی به نظر می رسد.
با فایل Robots می توانید خزیدن برخی صفحات کم اهمیت را غیر ممکن کنید. این نکته بسیار اهمیت دارد؛ زیرا اگر صفحات کم اهمیت با قابلیت ایندکس شدن زیادی دارید، امکان دارد بر کل سایت اثر بگذارد و ربات ها ممکن است موتورهای جستجو را از خزیده شدن صفحه های باکیفیت پشیمان کنند. به علاوه با Robots.txt می توانید محل سایت مپ XML خود را تعیین کنید. سایت مپ به عنوان یک فایل متنی آدرس مورد نظر شما را که می خواهید موتورهای گوگل آنها را ایندکس کند را لیست بندی می کند. اگر این آدرس در فایل Robots.txt قرار گیرد پیدا کردن آن برای ربات های گوگل راحت تر خواهد شد.
چگونه Robots.txt را تغییر دهیم؟
بعد از دانستن اینکه فایل روبوتس چیست؟ بدانید که تغییر فایل Robots بسته به سیستم شما متفاوت است. اگر از یک پلتفرم تجارت الکترونیک یا CMS بهره می برید، امکان دسترسی شما به افزونه های مخصوص یا ابزارهایی وجود دارد که به شما کمک می کنند تا دسترسی راحتی به فایل داشته و تغییراتی در آن ایجاد کنید. مثلا Wix و Shopify این مجوز را به شما می دهند که مستقیما Robots.txt را ویرایش نمایید. در این مورد افزونه هایی مانند Yoast seo در وردپرس بکار می روند. اگر از پلتفرم تجارت الکترونیک یا CMS بهره می برید، امکان دارد مجبور باشید اول فایل را دانلود، ویرایش و سپس آپلود کنید. شما این امکان را دارید که به صورت های مختلفی فایل را آپلود کنید. لذا در مرورگر خود آدرس admin.com/robots.txt را وارد نموده و بعد از اینکه فایل دیده شد به راحتی عملیات کپی را در محتوا انجام دهید. از ابزارهایی که سرویس های میزبانی ارائه کردند نیز می توان استفاده کرد. مثلا، امکان دارد برای مدیریت فایل ها یک پنل اختصاصی یا از طریق FTP دسترسی وجود داشته باشد.
در زمان دانلود Robots.txt براحتی این امکان را دارید که ویرایش آن را در ویرایشگر متن دلخواه خود انجام دهید. لذا اطمینان حاصل کنید که رمزگذاری فایل در استاندارد UTF-8 انجام شده است و فراموش نکنید که اسم آن را باید Robots.txt بگذارید.
بعد از اینکه Robots.txt را اصلاح کردید می توانید آپلود فایل را مانند دانلود آن انجام دهید. این امکان را دارید که از ابزارهای مخصوص که هاست خود ارائه داده نیز استفاده کنید. استفاده از ابزارهای داخلی CMS یا ارسال فایل ها به صورت مستقیم بوسیله پروتکل های FTP نیز می تواند در دستور کار قرار گیرد. با در دسترس عموم قرار گرفتن فایل شما، پیدا کردن آن توسط موتورهای جستجو راحت تر خواهد بود. در مراحلی که خزیدن خودکار انجام می شود، تغییرات ایجاد شده را که در Robots.txt ایجاد شده را خزندهای گوگل شناسایی می کنند. لذا نسخه کش شده را هر ۲۴ ساعت یکبار آپدیت می کنند.
آشنایی با دستورات فایل Robots.txt و معانیشان
در کل ۴ دستور مهم در فایل Robots.txt نیاز داریم:
User-agent: برای مشخص کردن رباتی که دستورات برای آن نوشته شده.
Disallow: بخشهایی که ربات اجازه درخواست یا بررسی آن را ندارد.
Allow: بخشهایی که مجاز به درخواست و بررسی است.
Sitemap: برای نشان دادن آدرس فایل نقشه سایت به رباتها.
در ادامه توضیح میدهیم که چطور باید از این دستورها استفاده شود.
۱. مشخص کردن ربات با User-agent
از این دستور برای هدفگیری یک ربات خاص استفاده میشود. از این دستور میتوان به دو شکل در فایل robots.txt استفاده کرد.
اگر میخواهید به تمام رباتهای خزنده یک دستور یکسان بدهید، کافی است بعد از عبارت User-agent از علامت ستاره (*) استفاده کنید. علامت ستاره به معنای «همه چیز» است. مانند مثال زیر:
*:User-agent
دستور بالا به این معنی است که دستورات بعدی، برای همه رباتهای جستجوگر یکسان عمل کند.
اما اگر میخواهید تنها به یک ربات خاص مانند ربات گوگل (GoogleBot) دستور خاصی را بدهید، دستور شما باید به شکل زیر نوشته شود:
User-agent: Googlebot
کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است.
۲. مشخص کردن صفحات و بخشهای غیرمجاز با Disallow
دستور Disallow به رباتها میگوید که چه فولدرهایی از وبسایت شما را نباید بررسی کنند. درواقع این دستور، بیانگر آدرسهایی است که میخواهید از رباتهای جستجو پنهان بماند.
برای مثال اگر نمیخواهید موتورهای جستجو، تصاویر وبسایتتان را ایندکس کنند، میتوانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید.
فرض کنیم که تمام این تصاویر را به درون فولدری به نام Photos منتقل کردهاید. برای آنکه به گوگل بگویید که این تصاویر را ایندکس نکند، باید دستوری مانند زیر را بنویسید:
* :User-agent
Disallow: /photos
قسمت Disallow: /photos بیانگر این است که ربات، اجازه ورود یا ایندکس پوشه تصاویر سایت را ندارد.
۳. مشخص کردن بخشهای مجاز برای رباتها با Allow
همانطور که میدانیم ربات خزنده و ایندکس کنندۀ گوگل، Googlebot نام دارد. این ربات نسبت به سایر رباتهای جستجوگر، دستورات بیشتری را متوجه میشود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک میکند.
دستور Allow به شما امکان میدهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد. برای درک بهتر این دستور، اجازه بدهید که از مثال قبلی استفاده کنیم.
در مثال قبل رشته کدی را نوشتیم که به رباتهای جستجو، اجازه دسترسی به تصاویر سایت را نمیداد. تمام تصاویر سایت را درون یک پوشه به نام Photos قرار دادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:
* :User-agent
Disallow: /photos
حال تصور کنید درون این پوشهی ما که در هاستینگ سایت قرار دارد، تصویری به نام hamrahkara.jpg وجود دارد که میخواهیم Googlebot آن را ایندکس کند. با استفاده از دستور Allow میتوانیم به ربات گوگل بگوییم که این کار را انجام دهد:
* :User-agent
Disallow: /photos
Allow: /photos/hamrahkara.jpg
این دستور به ربات گوگل میگوید علی رغم اینکه فولدر Photos از دسترس رباتها خارج شده است، اجازه مشاهده و ایندکس فایل novin.jpg را دارد.
۴. نقشه سایت
گوگل برای وبمسترها و صاحبان وبسایتها چند راه برای دسترسی به نقشه سایت گذاشته است. یکی از این راهها نوشتن آدرس فایل در فایل Robots است.
Sitemap: https://example.com/sitemap.xml
هیچ الزامی وجود ندارد که آدرس نقشه سایت را از این راه به رباتهای گوگل نمایش دهید. بهترین راه ارائه نقشه سایت به گوگل استفاده از ابزار سرچ کنسول است.
نمونه فایل Robots.txt
User-agent: *
Disallow:
Sitemap: https://hamrahkara.com/sitemap_index.xml
در این فایل به تمام موتور های جستجو اعلام شده که تمام صفحات را کرول کنند و در انتها آدرس سایت مپ سایت نیز کعرفی شده است.
برای ساخت فایل ربات نیاز به هیچ برنامه خاصی نیست. همان Notepad ساده ویندوز یا هر ویرایشگر متن دیگر که فایل خروجی از نوع TXT میدهد قابل استفاده است. برای ساخت فایل robots.txt فقط یک فایل txt جدید ایجاد کنید. فرمت یا انکودینگ فایل حتماً باید UTF-8 باشد.
بارگذاری فایل Robots در سایت
فایل رباتها باید در ریشه (root) قرار بگیرد. یعنی درست در پوشه اصلی میزبان سایت. این فایل نباید داخل پوشه یا دایرکتوری قرار بگیرد. طوری که آدرس دسترسی به آن مانند مثال زیر باشد:
https://www.example.com/robots.txt
بعد از ایجاد و بارگزاری قایل robots در هاست و یا سرور خود میتوانید آن را به کمک ابزار تست گوگل تست کنید.
سخن پایانی
فایل روبوتس چیست؟ در صورت راه اندازی درست فایل Robots.txt می توانید به بهبود بخشیدن فرایند ایندکس سایت خود کمک کنید. در صورت صرف بهینه تر بودجه خزش توسط موتورهای جستجو، بوسیله گوگل زودتر تغییرات محتوایی نمایش داده می شود. به علاوه بوجود آمدن فایل Robots.txt چندان کار سختی نیست.
مشاوره رایگان
با ما تماس بگیرید و مشاوره رایگان دریافت کنید
بدون دیدگاه