robots.txt چیست و چگونه ایجادش کنیم؟

robots.txt چیست و چگونه ایجادش کنیم؟

 

در دنیای بهینه سازی موتورهای جستجو (SEO)، ابزارهای مختلفی برای مدیریت نحوه دسترسی موتورهای جستجو به سایت ها وجود دارند. یکی از این ابزارها، فایل robots.txt است که به عنوان یکی از اجزای حیاتی در بهینه سازی و مدیریت وب سایت ها شناخته می شود. این فایل، موتورهای جستجو را راهنمایی می کند که کدام بخش های سایت شما قابل دسترسی هستند و کدام بخش ها باید از ایندکس شدن جلوگیری شوند. همچنین تعین بودجه خزش توسط این فایل مشخص میشود.

 

در این مقاله خواهید خواند:

 

 robots.txt چیست؟

فایل robots.txt (فایل ربات سایت) یک فایل متنی ساده است که در پوشه اصلی (Root Directory) سایت شما قرار می گیرد. وظیفه این فایل ارائه دستورالعمل هایی به ربات های موتورهای جستجو (مانند Googlebot) است. این دستورالعمل ها مشخص می کنند که چه بخش هایی از سایت شما باید توسط موتورهای جستجو بازدید شوند و چه بخش هایی نباید ایندکس شوند.

 

 ساختار کلی فایل robots.txt

 

یک فایل robots.txt از دو عنصر اصلی تشکیل شده است:

User-agent :  این بخش تعیین می کند که دستورالعمل ها برای کدام ربات موتور جستجو اعمال می شوند.

Disallow/Allow :  این دستورات مشخص می کنند که دسترسی به کدام مسیرها محدود یا مجاز است.

نمونه ساده ای از فایل robots.txt:(فایل ربات سایت)

```

User-agent:

Disallow: /admin/

Allow: /public/

```

 

- `User-agent: ` به همه ربات های موتور جستجو اشاره دارد.

- `Disallow: /admin/` مانع دسترسی به پوشه `/admin/` می شود.

- `Allow: /public/` اجازه دسترسی به پوشه `/public/` را می دهد.

 

 چرا robots.txt مهم است؟

 

مدیریت خزیدن (Crawling) ربات ها

فایل robots.txt به شما امکان می دهد تا رفتار ربات های موتورهای جستجو را کنترل کنید. این کنترل می تواند از مصرف بی رویه منابع سرور توسط ربات ها جلوگیری کند.

 

جلوگیری از ایندکس شدن صفحات حساس

ممکن است بخواهید برخی از صفحات سایت، مانند صفحات ادمین یا محتوای تکراری، در نتایج جستجو نمایش داده نشوند. با استفاده از robots.txt می توانید دسترسی به این صفحات را محدود کنید.

 

بهینه سازی بودجه خزیدن (Crawl Budget)

موتورهای جستجو دارای بودجه مشخصی برای خزیدن در هر سایت هستند. با محدود کردن دسترسی به صفحات غیرضروری، می توانید بودجه خزیدن را به صفحات مهم تر اختصاص دهید.

 

کمک به حفظ حریم خصوصی و امنیت

با استفاده از robots.txt می توانید از ایندکس شدن بخش هایی از سایت که اطلاعات حساسی دارند، جلوگیری کنید.

 

 نحوه ساخت فایل رباتrobots.txt

 

ابزارهای لازم برای ایجاد فایل robots.txt

 

برای ایجاد یک فایل robots.txt به یک ویرایشگر متنی ساده مانند Notepad یا هر ویرایشگر دیگری نیاز دارید. این فایل باید با فرمت UTF-8 ذخیره شود و در پوشه ریشه سایت (Root Directory) قرار گیرد.

 

مراحل ساخت فایل ربات robots.txt

  • باز کردن ویرایشگر متنی

   یک فایل متنی جدید در ویرایشگر خود باز کنید.

  • نوشتن دستورات

   بسته به نیازهای سایت خود، دستورات را وارد کنید. برای مثال:

   ```

   User-agent: Googlebot

   Disallow: /private/

   Allow: /public/

   ```

 

ذخیره فایل

   فایل را با نام `robots.txt` و با فرمت UTF-8 ذخیره کنید.

 

آپلود در سرور

   فایل را در پوشه ریشه (Root Directory) سایت خود آپلود کنید. مسیر دسترسی به فایل باید به صورت `https://www.example.com/robots.txt` باشد.

 

 قوانین مهم در نوشتن robots.txt

  1. مسیرها باید دقیق باشند: اطمینان حاصل کنید که مسیرها دقیقاً مطابق با ساختار سایت شما هستند.
  2. نباید فایل robots.txt را برای اطلاعات حساس متکی کنید: این فایل عمومی است و هر کسی می تواند به آن دسترسی داشته باشد. برای اطلاعات حساس از روش های دیگری مانند احراز هویت استفاده کنید.

در نوشتن فایل robots.txt، قوانین مهم شامل موارد زیر هستند:

  1. ساختار و مکان فایل:
    • فایل باید در ریشه سایت قرار گیرد مثل www.example.com/robots.txt
  2. دستور User-agent
    • برای مشخص کردن موتور جستجو که دستور بعد از آن اعمال می شود استفاده می شود. مثل:
  • User-agent: Googlebot
  1. دستور Disallow
    • برای مسدود کردن دسترسی به یک یا چند صفحه یا پوشه استفاده می شود. مانند:
  • Disallow: /private/
  1. دستور Allow
    • برای مجاز کردن دسترسی به صفحات خاص حتی اگر بخش هایی از سایت مسدود شده باشند. مثال:
  • Allow: /public/
  1. استفاده از Wildcard:
    • کاراکتر * برای جایگزینی هر چیزی و $ برای پایان URL:
  • Disallow: /folder/*search
  1. حساسیت به حروف بزرگ و کوچک:
    • دستورات در robots.txt حساس به حروف بزرگ و کوچک هستند (مثل /Images/ و /images/ متفاوت هستند).
  2. تنظیمات جداگانه برای موتورهای جستجو:
    • می توانید دستورات متفاوتی برای موتورهای جستجوی مختلف بنویسید:
  • User-agent: Googlebot
  • Disallow: /no-google/
  • User-agent: Bingbot
  • Disallow: /no-bing/
  1. نظافت و سادگی:
    • از نوشتن دستورات پیچیده یا بیش از حد استفاده نکنید و فقط از دستورات ضروری استفاده کنید.

این قوانین کمک می کنند تا فایل robots.txt به درستی تنظیم شود و دسترسی به صفحات سایت به شکل مورد نظر مدیریت شود.

 

 ابزارهای بررسی و آزمایش فایل robots.txt

پس از ایجاد فایل robots.txt، باید مطمئن شوید که به درستی کار می کند. ابزارهای زیر می توانند به شما در این زمینه کمک کنند:

Google Search Console

   - وارد بخش “URL Inspection” شوید و فایل robots.txt خود را تست کنید.

Robots.txt Checker

   - ابزارهای آنلاین رایگان مانند (https://www.robots-txt.com/) امکان بررسی سریع فایل را فراهم می کنند.

Screaming Frog SEO Spider

   - این ابزار حرفه ای فایل robots.txt را تجزیه و تحلیل می کند و مشکلات احتمالی را نشان می دهد.

 

مطالعه بیشتر :

 

 نمونه هایی از فایل robots.txt برای سایت های مختلف

1. سایت ساده

```

User-agent:

Disallow:

```

این فایل به تمام ربات ها اجازه دسترسی کامل به سایت را می دهد.

 

  1. 2. جلوگیری از دسترسی به صفحات حساس

```

User-agent:

Disallow: /login/

Disallow: /admin/

```

این فایل دسترسی به صفحات مدیریت و ورود را مسدود می کند.

 

  1. اجازه دسترسی محدود به Googlebot

```

User-agent: Googlebot

Disallow: /test/

Allow: /

```

این فایل به Googlebot اجازه دسترسی به همه صفحات به جز پوشه `/test/` را می دهد.

 

 اشتباهات رایج در استفاده از robots.txt

مسدود کردن فایل های CSS و JavaScript

   برخی از وبمسترها به اشتباه دسترسی به فایل های CSS و JS را مسدود می کنند، که می تواند بر نمایش صحیح سایت در موتورهای جستجو تأثیر بگذارد.

 

عدم به روزرسانی فایل robots.txt

   در صورت تغییر ساختار سایت، فایل robots.txt نیز باید به روزرسانی شود.

 

قرار دادن اطلاعات حساس در robots.txt

   این فایل عمومی است و نباید برای مخفی کردن اطلاعات حساس استفاده شود.

 

 جمع بندی

فایل robots.txt یکی از ابزارهای مهم در بهینه سازی سایت و بودجه خزش برای موتورهای جستجو  است که با استفاده صحیح از آن می توان رفتار ربات ها را مدیریت و تجربه کاربری بهتری ایجاد کرد. با یادگیری و استفاده از نکات ارائه شده در این مقاله، می توانید فایل robots.txt خود را بهینه سازی کرده و از مزایای آن در بهبود SEO سایت بهره مند شوید.

 

ترمینولوژی(توصیف واژگان) این مقاله :

  فایل ربات سایت:  "فایل ربات سایت، پلی است که به موتورهای جستجو می گوید کدام بخش های سایت شما را ایندکس کنند و کدام بخش ها را نادیده بگیرند."

بودجه خزش: "بودجه خزش، منابع محدود موتورهای جستجو است که باید بهینه استفاده شوند تا تمام صفحات مهم سایت شما ایندکس شوند."

ساخت فایل  robots.txt   "ساخت فایل robots.txt، گام اول برای کنترل دقیق دسترسی موتورهای جستجو به سایت شما و بهینه سازی تجربه کاربری است."



این مقاله را با دوستان یا همکاران خود به اشتراک بگذارید: facebook linkedin twitter

  • facebook
  • linkedin
  • twitter

خبرنامه

با عضویت در خبرنامه آکادمی کشن، به محض انتشار محتوای جدید، از طریق ایمیل باخبر میشی و به این صورت هیچ مقاله یا آموزشی را از دست نمی دی.