همانطور که در جریان هستید، بخش کثیری از نوشتههای من بر اساس سوالاتیست که کاربران بیش از دیگر سوالات از من میپرسند. همانطور که در نوشته چرا سایت من از نتایج جستوجو حذف شده گفتم، بخشی از این اشتباهات به خاطر فایل Robots است. حال بهتر است این نکته را هم اضافه کنم که ممکن است سایت شما به خاطر اشتباهتان در آمادهسازی این فایل پنالتی هم بشود! شاید پیش خودتان فکر کنید که چرا این اتفاق میافتد و یا اگر تازه با سئو و متعقلاتش آشنا شده باشید بخواهید بیشتر در موردش بدانید، پیشنهاد میکنم تا پایان این مقاله با من همراه باشید.
شاید سادهترین تعریفی که میتوانیم در مورد این فایل داشته باشیم این است که این فایل همانند یک کتاب قانون سفت و سخت عمل میکند؛ شما از طریق این فایل به موتورهای جستوجو و اکثر روباتها و خزندهها دستور میدهید که چه صفحاتی را نبینند و یا اگر در حال حاضر نمیتوانند ببینند، ببینند.
کاربردهای این فایل زمانی مشخص میشود که شما برروی سایتتان بخشهایی دارید که نمیخواهید خزندهها ببینند و یا اصلا نیازی نمیبینید که آن بخشها بخواهند در نتایج جستوجو دیده شوند.
بگذارید با تشریح این فایل شروع کنم. اصولا در ابتدای هر بخش دستوری ما مشخص میکنیم که این دستورات مختص چه خزندهای است؛ پس:
user agent: google-image-search
حال میتوانیم هر کدام از خزندههایی که میخواهیم برای آنها قانون مشخص کنیم را روبروی user agent بنویسیم و در ابتدای فایل قرار دهیم. اکثر فایلهای روبوت به صورت Universal نوشته میشوند؛ یعنی قوانین را برای تمامی خزندهها وضع میکنند؛ برای این که بتوانیم قوانین را برای همه یکسان در نظر بگیریم میتوانیم بهجای دستور فوق از user agent: * استفاده کنیم. علامت * تمامی user agent ها را موظف به خواندن این دستورات وادار میکند.
سپس باید ببینیم که چه پوشههایی (دایرکتوریها) را میخواهیم از دید گوگل پنهان کنیم. در ادامه عبارت فوق همانند چند خط زیر این قوانین را مشخص میکنیم:
Disallow: /wp-includes/
disallow: /wp-content/plugins
با این دستورات ما پوشه wp-includes را کلا بستیم و حال خزندهها بههیچ عنوان نمیتوانند فایلها و پوشههای زیرشاخه این فولدر را ببینند. حالا اگر بخواهیم در همین پوشه، دسترسی پوشهای را باز کنیم میتوانیم به شکل زیر بنویسیمش:
allow: /wp-includes/js/
دقت کنید که وقتی پوشهای را میبندید تمامی زیرشاخههایش را نیز محدود کردهاید.
یکی از مواردی که میتوانیم برای دسترسی سریعتر خزندهها در فایل Robots.txt مشخص کنیم، نقشه سایت است. برای این کار کافیست صرفا از ساختار زیر پیروی کنید:
sitemap: http://1admin.ir/sitemap.xml
شاید اینی که میگویم خیلی اتفاق جدیدی نباشد اما گاهی میبینم که سایتها به این خاطر پنالتی میشوند؛ راستش تا چندی پیش میگفتند که گوگل نمیتواند فایلهای JS و CSS را اجرا کند تا ظاهر سایت را ببیند یا بر طبق آنها نیز سایت را بررسی کند. اما بهتر است بگویم که گوگل چنین کاری میکند و نسبت به این قضیه بسیار هم حساس است.
اگر شما از طریق فایل Robots دسترسی به پوشهای را بسته باشید (به طور مثال دسترسی به پوشه پلاگینهای وردپرستان)، اما این پلاگینها در سایت شما تاثیرگذار باشند و فایل بارگذاری کنند عملا گوگل نمیتواند آنها را ببیند و به همین خاطر سایت شما به درستی آن چیزی که برای کاربران بارگذاری میشود، برای گوگل بارگذاری نمیشود. گوگل هم نمیتواند آن فایل را از نظر امنیتی بررسی کند و ممکن است شما را جریمه کند.
همانطور که قبلا گفتم اگر میخواهید گوگل صفحهای را ایندکس نکند بهتر است از متاتگ Noindex استفاده کنید نه این که از طریق Robots.txt آن را ببندید.
توصیه میکنم همین حالا این فایل را بررسی کنید و ببینید که در نوشتن آن دچار اشتباه نشده باشید.
عضو لیست ایمیلی ما شوید تا آخرین نوشتههای یک ادمین برایتان ایمیل شود
۲۵ دیدگاه
البته نا گفته نماند در گوگل وبمستر تولز قسمتی هست به نام cheek robots.txt که توسط آن می توانید بررسی کنید گوگل می تواند سایت شما را صحیح کراول کند یا خیر .
البته به نظر من بهتره که پوشه content از روبوت محدود شه.بعضاً دیدم سایت هایی وردپرسی برای خر پرونده تو کتابخانه یه پست ایجاد می کنند. این مطلب باعث دو تا مشکل میشه.اول فکر کنم از نظر سئو باشه که محتوا کوتاه و تکراری است(چون از اون عکس یا فایل تو نوشته ها معمولاً استفاده کردید) و هم افزایش بیخود صفحات سایت
بهتره که پوشه wp-content رو بذاریم ایندکس بشه و اون صفحات attachment رو noindex یا غیرفعال کنیم.
خوب فرضاً که noindex کردیم. مشکل اضافه شدن بیخود صفحات سایت رو چ طور برطرف کنیم؟!
میشه از طریق پلاگینهایی مثل وردپرس سئو، صفحات attachment رو ریدایرکت کرد به خود فایل.
ســـلام
ممنون بابت ایمیلی که ارسال کردید،مطلب خیلی خوبی بود.من فایل رو بررسی کردم خدا رو شکر واسه من از این جهت مشکلی وجود نداره.
مرسی
مرسی
واقعا این فایل روبوت سایت رو این رو به اون رو میکنه بعضی مواقع
با سلام
جناب فاطمی اگر لطف کنید و بتوانید یک آموزش و آشنایی کامل در مورد بحث robots ها در سایت قرار دهید ممنون میشم که اصلا این فایل چی هست و در کجاهای سایت استفاده میشه
مرسی
بی نظیرید…..
لزوما ارتباطی به امنیت نداره.دلایل دیگه ای هست.
سلام خسته نباشید /
تقریبا چند روزی من ی مشکلی با این فایل robots.txt پیدا کردم اینکه تعدادی از صفحات با توجه به فایل های JS و CSS بلاک کرده برای رفع این مشکل باید چه کاری انجام داد؟
تصویر زیر ببنید
http://up.vbiran.ir/uploads/2377143548242744645_dssss.jpg
با حذف ۲ کد زیر از فایل robots این مشکل حل میشه؟
Disallow: /*.js$
Disallow: /*.css$
سپاس
بله رفع میشه.
سلام آقای فاطمی حذف کنم بعد مشکلی پیش نمیاد؟ سپاس
نه مشکلی پیش نمیاد
سلام
خیلی ممنون مقاله ی مفیدی بود
سلام آقای فاطمی
فایل robots من به شکل زیر هستش البته این سایت من انجمن مای بی بی هستش:
Sitemap: http:// yoursite/MyBB/sitemap-index.xml
User-Agent: *
Disallow: /MyBB/captcha.php
Disallow: /MyBB/editpost.php
Disallow: /MyBB/misc.php
Disallow: /MyBB/modcp.php
Disallow: /MyBB/moderation.php
Disallow: /MyBB/newreply.php
Disallow: /MyBB/newthread.php
Disallow: /MyBB/online.php
Disallow: /MyBB/printthread.php
Disallow: /MyBB/private.php
Disallow: /MyBB/ratethread.php
Disallow: /MyBB/report.php
Disallow: /MyBB/reputation.php
Disallow: /MyBB/search.php
Disallow: /MyBB/sendthread.php
Disallow: /MyBB/task.php
Disallow: /MyBB/usercp.php
Disallow: /MyBB/usercp2.php
Disallow: /MyBB/calendar.php
Disallow: /MyBB/*action=emailuser*
Disallow: /MyBB/*action=nextnewest*
Disallow: /MyBB/*action=nextoldest*
Disallow: /MyBB/*year=*
Disallow: /MyBB/*action=weekview*
Disallow: /MyBB/*action=nextnewest*
Disallow: /MyBB/*action=nextoldest*
Disallow: /MyBB/*sort=*
Disallow: /MyBB/*order=*
Disallow: /MyBB/*mode=*
Disallow: /MyBB/*datecut=*
Allow: /
ممنون میشم نظرتون رو بگین
فکر نمیکنم مشکل خاصی داشته باشه چون فقط بخشهای مدیریتی بسته شده
بسیار خوب ..
مظلبتون مفید و کاربردی بود. دو مورد رو تونستم تو روبو تکس سایتم اصلاح کنم و رتبم رو بهبود بدم. مرسی از آموطش مفیدتون
خیلی ممنون
از مطلبتون استفاده بردم
ممنون از راهنماییتون ، چنین مشکلی داشتیم که با راهنمایی شما برطرف شد.
تشکر.
سلام، ممنون بابت مطلب خوبتون فقط یه نکته مهم اینکه فایل روبوت تنها یه قرارداد اخلاقی هست و هر موتور جستجویی که بخواد می تونه این قرارداد رو نقض کنه و بدون توجه به گفته های شما هر لینکی که بخواد رو بررسی کنه،
در صورتی که شما گفتید که موتورهای جست و جو و کلا خزنده ها بعد از عدم اجازه فایل روبوت دیگه به هیچ عنوان به اون فایل و آدرس نمی تونند دسترسی داشته باشند. در صورتی که این درست نیست اما خب طبیعتا اکثر موتورهای جست و جوی معروف این کار رو انجام میدن.
نکته دیگه ای که باید ادمین ها حواسشون باشه اینه که یه وقت سولاخ سومبه های وب سایتشون و فایل های مهمشون رو اینطوری لو ندن به هکرها. چون این فایل برای همه دردسترس هست و هکرها می تونن ببینن که شما گفتید کجاها رو نبینن موتورهای جست و جو و اونها دقیقا میرن و اون قسمت ها رو میگردن
ممنون از دیدگاه شما.
بله ممکنه هر باتی بخواد بدون در نظر گرفتن اون فایل و شرایط نوشته شده سایت رو بررسی کنه. اما در مورد باتهای مشهور مثل گوگلبات و … این فایل مثل یک پروتکل میمونه و «نباید» نادیده بگیرنش.
امکانش هست یک نفر برای سایت بنده یک robots.txt کامل و قابل اطمینان بسازه ؟
به نظرم کار خوبی نیست چون هر سایت نیازهای متفاوتی داره
شما چه دیدگاهی دارید؟