با Robots.txt و پنالتی احتمالی آن آشنا شوید!

همانطور که در جریان هستید، بخش کثیری از نوشته‌های من بر اساس سوالاتی‌ست که کاربران بیش از دیگر سوالات از من می‌پرسند. همانطور که در نوشته چرا سایت من از نتایج جست‌وجو حذف شده گفتم، بخشی از این اشتباهات به خاطر فایل Robots است. حال بهتر است این نکته را هم اضافه کنم که ممکن است سایت شما به خاطر اشتباهتان در آماده‌سازی این فایل پنالتی هم بشود! شاید پیش خودتان فکر کنید که چرا این اتفاق می‌افتد و یا اگر تازه با سئو و متعقلاتش آشنا شده باشید بخواهید بیشتر در موردش بدانید، پیشنهاد می‌کنم تا پایان این مقاله با من همراه باشید.

robots

کاربردهای فایل Robots.txt

شاید ساده‌ترین تعریفی که می‌توانیم در مورد این فایل داشته باشیم این است که این فایل همانند یک کتاب قانون سفت و سخت عمل می‌کند؛ شما از طریق این فایل به موتورهای جست‌وجو و اکثر روبات‌ها و خزنده‌ها دستور می‌دهید که چه صفحاتی را نبینند و یا اگر در حال حاضر نمی‌توانند ببینند، ببینند.

کاربردهای این فایل زمانی مشخص می‌شود که شما برروی سایتتان بخش‌هایی دارید که نمی‌خواهید خزنده‌ها ببینند و یا اصلا نیازی نمی‌بینید که آن بخش‌ها بخواهند در نتایج جست‌وجو دیده شوند.

بگذارید با تشریح این فایل شروع کنم. اصولا در ابتدای هر بخش دستوری ما مشخص می‌کنیم که این دستورات مختص چه خزنده‌ای است؛ پس:

user agent: google-image-search

حال می‌توانیم هر کدام از خزنده‌هایی که می‌خواهیم برای آنها قانون مشخص کنیم را روبروی user agent بنویسیم و در ابتدای فایل قرار دهیم. اکثر فایل‌های روبوت به صورت Universal نوشته می‌شوند؛ یعنی قوانین را برای تمامی خزنده‌ها وضع می‌کنند؛ برای این که بتوانیم قوانین را برای همه یکسان در نظر بگیریم می‌توانیم به‌جای دستور فوق از user agent: * استفاده کنیم. علامت * تمامی user agent ها را موظف به خواندن این دستورات وادار می‌کند.

سپس باید ببینیم که چه پوشه‌هایی (دایرکتوری‌ها) را می‌خواهیم از دید گوگل پنهان کنیم. در ادامه عبارت فوق همانند چند خط زیر این قوانین را مشخص می‌کنیم:

Disallow: /wp-includes/

disallow: /wp-content/plugins

با این دستورات ما پوشه wp-includes را کلا بستیم و حال خزنده‌ها به‌هیچ عنوان نمی‌توانند فایل‌ها و پوشه‌های زیرشاخه این فولدر را ببینند. حالا اگر بخواهیم در همین پوشه، دسترسی پوشه‌ای را باز کنیم می‌توانیم به شکل زیر بنویسیمش:

allow: /wp-includes/js/

دقت کنید که وقتی پوشه‌ای را می‌بندید تمامی زیرشاخه‌هایش را نیز محدود کرده‌اید.

یکی از مواردی که می‌توانیم برای دسترسی سریع‌تر خزنده‌ها در فایل Robots.txt مشخص کنیم، نقشه سایت است. برای این کار کافیست صرفا از ساختار زیر پیروی کنید:

sitemap: http://1admin.ir/sitemap.xml

حال این فایل به پنالتی شدن چه ارتباطی دارد؟

شاید اینی که می‌گویم خیلی اتفاق جدیدی نباشد اما گاهی می‌بینم که سایت‌ها به این خاطر پنالتی می‌شوند؛ راستش تا چندی پیش می‌گفتند که گوگل نمی‌تواند فایل‌های JS و CSS را اجرا کند تا ظاهر سایت را ببیند یا بر طبق آنها نیز سایت را بررسی کند. اما بهتر است بگویم که گوگل چنین کاری می‌کند و نسبت به این قضیه بسیار هم حساس است.

اگر شما از طریق فایل Robots دسترسی به پوشه‌ای را بسته باشید (به طور مثال دسترسی به پوشه پلاگین‌های وردپرستان)، اما این پلاگین‌ها در سایت شما تاثیرگذار باشند و فایل بارگذاری کنند عملا گوگل نمی‌تواند آنها را ببیند و به همین خاطر سایت شما به درستی آن چیزی که برای کاربران بارگذاری می‌شود، برای گوگل بارگذاری نمی‌شود. گوگل هم نمی‌تواند آن فایل را از نظر امنیتی بررسی کند و ممکن است شما را جریمه کند.

همانطور که قبلا گفتم اگر می‌خواهید گوگل صفحه‌ای را ایندکس نکند بهتر است از متاتگ Noindex استفاده کنید نه این که از طریق Robots.txt آن را ببندید.

توصیه می‌کنم همین حالا این فایل را بررسی کنید و ببینید که در نوشتن آن دچار اشتباه نشده باشید.

این نوشته را به اشتراک بگذارید:

۶ سالی هست که در زمینه‌های مختلفی همچون وبلاگ‌نویسی٬ سئو و آزادکاری در یک ادمین می‌نویسم و در حال حاضر مدیرعامل شرکت فرنیان هستم.

۲۵ دیدگاه

  1. البته نا گفته نماند در گوگل وبمستر تولز قسمتی هست به نام cheek robots.txt که توسط آن می توانید بررسی کنید گوگل می تواند سایت شما را صحیح کراول کند یا خیر .

  2. Mohammad گفت:

    البته به نظر من بهتره که پوشه content از روبوت محدود شه.بعضاً دیدم سایت هایی وردپرسی برای خر پرونده تو کتابخانه یه پست ایجاد می کنند. این مطلب باعث دو تا مشکل میشه.اول فکر کنم از نظر سئو باشه که محتوا کوتاه و تکراری است(چون از اون عکس یا فایل تو نوشته ها معمولاً استفاده کردید) و هم افزایش بیخود صفحات سایت

  3. ســـلام
    ممنون بابت ایمیلی که ارسال کردید،مطلب خیلی خوبی بود.من فایل رو بررسی کردم خدا رو شکر واسه من از این جهت مشکلی وجود نداره.
    مرسی

  4. لاراول گفت:

    مرسی
    واقعا این فایل روبوت سایت رو این رو به اون رو میکنه بعضی مواقع

  5. مهدی گفت:

    با سلام

    جناب فاطمی اگر لطف کنید و بتوانید یک آموزش و آشنایی کامل در مورد بحث robots ها در سایت قرار دهید ممنون میشم که اصلا این فایل چی هست و در کجاهای سایت استفاده میشه

    مرسی

  6. علیرضا گفت:

    لزوما ارتباطی به امنیت نداره.دلایل دیگه ای هست.

  7. کامیار گفت:

    سلام خسته نباشید /

    تقریبا چند روزی من ی مشکلی با این فایل robots.txt پیدا کردم اینکه تعدادی از صفحات با توجه به فایل های JS و CSS بلاک کرده برای رفع این مشکل باید چه کاری انجام داد؟

    تصویر زیر ببنید
    http://up.vbiran.ir/uploads/2377143548242744645_dssss.jpg

    با حذف ۲ کد زیر از فایل robots این مشکل حل میشه؟

    Disallow: /*.js$
    Disallow: /*.css$

    سپاس

  8. فوتیوب گفت:

    سلام
    خیلی ممنون مقاله ی مفیدی بود

  9. سلام آقای فاطمی
    فایل robots من به شکل زیر هستش البته این سایت من انجمن مای بی بی هستش:

    Sitemap: http:// yoursite/MyBB/sitemap-index.xml

    User-Agent: *
    Disallow: /MyBB/captcha.php
    Disallow: /MyBB/editpost.php
    Disallow: /MyBB/misc.php
    Disallow: /MyBB/modcp.php
    Disallow: /MyBB/moderation.php
    Disallow: /MyBB/newreply.php
    Disallow: /MyBB/newthread.php
    Disallow: /MyBB/online.php
    Disallow: /MyBB/printthread.php
    Disallow: /MyBB/private.php
    Disallow: /MyBB/ratethread.php
    Disallow: /MyBB/report.php
    Disallow: /MyBB/reputation.php
    Disallow: /MyBB/search.php
    Disallow: /MyBB/sendthread.php
    Disallow: /MyBB/task.php
    Disallow: /MyBB/usercp.php
    Disallow: /MyBB/usercp2.php
    Disallow: /MyBB/calendar.php
    Disallow: /MyBB/*action=emailuser*
    Disallow: /MyBB/*action=nextnewest*
    Disallow: /MyBB/*action=nextoldest*
    Disallow: /MyBB/*year=*
    Disallow: /MyBB/*action=weekview*
    Disallow: /MyBB/*action=nextnewest*
    Disallow: /MyBB/*action=nextoldest*
    Disallow: /MyBB/*sort=*
    Disallow: /MyBB/*order=*
    Disallow: /MyBB/*mode=*
    Disallow: /MyBB/*datecut=*
    Allow: /

    ممنون میشم نظرتون رو بگین

  10. امیر گفت:

    مظلبتون مفید و کاربردی بود. دو مورد رو تونستم تو روبو تکس سایتم اصلاح کنم و رتبم رو بهبود بدم. مرسی از آموطش مفیدتون

  11. سعید گفت:

    خیلی ممنون
    از مطلبتون استفاده بردم

  12. روزیک گفت:

    ممنون از راهنماییتون ، چنین مشکلی داشتیم که با راهنمایی شما برطرف شد.

    تشکر.

  13. امیر اکبری گفت:

    سلام، ممنون بابت مطلب خوبتون فقط یه نکته مهم اینکه فایل روبوت تنها یه قرارداد اخلاقی هست و هر موتور جستجویی که بخواد می تونه این قرارداد رو نقض کنه و بدون توجه به گفته های شما هر لینکی که بخواد رو بررسی کنه،
    در صورتی که شما گفتید که موتورهای جست و جو و کلا خزنده ها بعد از عدم اجازه فایل روبوت دیگه به هیچ عنوان به اون فایل و آدرس نمی تونند دسترسی داشته باشند. در صورتی که این درست نیست اما خب طبیعتا اکثر موتورهای جست و جوی معروف این کار رو انجام میدن.
    نکته دیگه ای که باید ادمین ها حواسشون باشه اینه که یه وقت سولاخ سومبه های وب سایتشون و فایل های مهمشون رو اینطوری لو ندن به هکرها. چون این فایل برای همه دردسترس هست و هکرها می تونن ببینن که شما گفتید کجاها رو نبینن موتورهای جست و جو و اونها دقیقا میرن و اون قسمت ها رو میگردن

    • ممنون از دیدگاه شما.
      بله ممکنه هر باتی بخواد بدون در نظر گرفتن اون فایل و شرایط نوشته شده سایت رو بررسی کنه. اما در مورد بات‌های مشهور مثل گوگل‌بات و … این فایل مثل یک پروتکل می‌مونه و «نباید» نادیده بگیرنش.

  14. davood گفت:

    امکانش هست یک نفر برای سایت بنده یک robots.txt کامل و قابل اطمینان بسازه ؟

شما چه دیدگاهی دارید؟

قوانین

۱- لطفا از دیدگاه‌ها برای تبلیغ مستقیم سایت خود استفاده نکنید.

۲- دیدگاه‌‌هایی که در بخش نامشان، کلمه کلیدی به کار رفته باشد تایید نخواهند شد.

برای اطلاعات بیشتر قوانین کاربری را بخوانید

آخرین نوشته‌های یک ادمین را در ایمیلتان دریافت کنید

عضو لیست ایمیلی ما شوید تا آخرین نوشته‌های یک ادمین برایتان ایمیل شود