ملف robots.txt هو أداة مهمة لإدارة كيفية تفاعل محركات البحث مع موقع الويب الخاص بك. يوفر هذا الملف توجيهات تحدد أجزاء الموقع التي يمكن لمحركات البحث الزحف إليها وأجزاء أخرى يمكن منعها، مما يساعدك في تحسين تجربة الزحف وضمان فهرسة محتوياتك الأكثر أهمية بكفاءة. يلعب الملف دورًا أساسيًا في استراتيجية تحسين محركات البحث (SEO).
لضمان تنفيذ صحيح وفعّال لملف robots.txt، يوصى بمراعاة النقاط التالية:
- تعامل بحذر مع أي تغييرات تُجريها، حيث يمكن أن تؤدي الأخطاء إلى منع محركات البحث من الوصول إلى أقسام رئيسية في الموقع.
- تأكد من وضع الملف في جذر الموقع الخاص بك ليتم التعرف عليه بسهولة (على سبيل المثال: http://www.example.com/robots.txt).
- لاحظ أن ملف robots.txt يعمل فقط ضمن النطاق والبروتوكول ذاتهما (مثل http أو https)، وبالتالي يجب الحرص على تخصيصه بشكل دقيق.
- افهم أن محركات البحث قد تُفسر التوجيهات بطريقة مختلفة. عمومًا، تعتمد المحركات على أول توجيه مطابق يتم العثور عليه، لكن مع Google وBing، يُعامل الملف عادةً بأسلوب خاص بناءً على أفضلية التوجيه الأخير.
- يُفضل تجنب استخدام تعليمة crawl-delay ما لم يكن ذلك ضروريًا للغاية، نظرًا لأنها قد تؤثر سلبًا على وتيرة الزحف.
باتباع هذه النصائح، يمكنك ضمان استخدام ملف robots.txt بفعالية لدعم أهداف موقعك الإلكتروني ومحركات البحث لديك.
ما هو ملف robots.txt؟
ملف robots.txt هو أداة تستخدم لتوجيه محركات البحث حول كيفية التعامل مع موقعك الإلكتروني. فهو يحدد قواعد الزحف التي تساعد على تنظيم كيفية وصول محركات البحث إلى صفحات موقعك، مما يشكل جزءًا هامًا من عملية تحسين محركات البحث (SEO). من خلال هذا الملف، يمكن لمالكي المواقع تحديد تفضيلاتهم بوضوح فيما يتعلق بما يمكن لمحركات البحث الزحف إليه وما يجب استبعاده.
في عام 2019، أطلقت Google تحديثات ملحوظة تتعلق بمعيار robots.txt، حيث قدمت اقتراحًا لتوسيع بروتوكول استبعاد الروبوتات، كما جعلت محلل robots.txt الخاص بها مفتوح المصدر.
بإيجاز:
مترجم robots.txt الذي تقدمه Google يتميز بمرونة عالية وقدرة ملحوظة على التكيف مع مختلف السيناريوهات. وفي الحالات التي تنطوي على توجيهات غير واضحة أو مربكة، تفضل Google اتخاذ الاحتياطات اللازمة وتعامل هذه الأجزاء على أنها مقيدة، بدلاً من المخاطرة بجعلها غير مقيدة.
تفحص محركات البحث ملف robots.txt الخاص بكل موقع بشكل دوري للتحقق من وجود أي توجيهات تحدد كيفية فحص الموقع. تُعرف هذه التوجيهات باسم "إرشادات الزحف".
في حال عدم وجود ملف robots.txt أو غياب توجيهات محددة داخله، تقوم محركات البحث تلقائيًا بفحص الموقع بكامله دون قيود.
ورغم أن جميع محركات البحث الكبرى تحترم محتوى ملف robots.txt، إلا أنه يمكن لبعضها أن يتجاهل (جزئيًا أو كليًا) التعليمات الواردة فيه. وبينما تُعتبر هذه التوجيهات إشارة قوية لمحركات البحث، من الضروري فهم أن ملف robots.txt هو مجرد مجموعة من الإرشادات المقترحة وغير مُلزِمة قانونيًا لمحركات البحث.
لماذا يجب عليك الاهتمام بملف robots.txt؟
يلعب ملف robots.txt دورًا محوريًا في تحسين محركات البحث (SEO)، حيث يوجه محركات البحث حول كيفية الزحف إلى موقعك بطريقة فعّالة ومنظمة.
يمكنك من خلال هذا الملف التحكم في وصول محركات البحث إلى أجزاء معينة من موقعك، مما يتيح لك منع الزحف إلى الصفحات غير المرغوب فيها أو تلك التي تحتوي على محتوى مكرر. بالإضافة إلى ذلك، يمكن لملف robots.txt تقديم إرشادات واضحة لمحركات البحث، مما يساعدها على استكشاف الموقع بشكل أكثر كفاءة.
ومع ذلك، يجب توخي الحذر الشديد عند تعديل ملف robots.txt، إذ إن أي تغييرات غير دقيقة قد تؤدي إلى حجب أجزاء كبيرة من موقعك عن محركات البحث، مما قد يؤثر سلبًا على ظهور الموقع وأدائه في نتائج البحث.
كيف يبدو ملف robots.txt؟
مثال لملف robots.txt بسيط لموقع WordPress:
User-agent: *
Disallow: /wp-admin/
شرح محتويات ملف robots.txt بناءً على المثال السابق:
- **User-agent**: يشير إلى محركات البحث التي تتلقى التوجيهات المحددة.
- **\***: يعني أن التعليمات موجهة لجميع محركات البحث دون استثناء.
- **Disallow**: توجيه يوضح للأداة (User-agent) الأجزاء التي لا ينبغي فهرستها أو الوصول إليها.
- **/wp-admin/**: يحدد المسار الذي يتم استبعاده من الوصول أو الفهرسة بالنسبة لمحركات البحث.
بالتالي، يمكننا تلخيص وظيفة هذا الملف كالتالي: يوجه هذا الإعداد جميع محركات البحث لتجنب الوصول إلى دليل **/wp-admin/**.
لنلقِ نظرة أعمق على العناصر المختلفة لملفات robots.txt لتوضيح كيفية عملها بمزيد من التفصيل.
وكيل المستخدم في ملف robots.txt
يجب على كل محرك بحث أن يقوم بتعريف نفسه من خلال ما يُعرف بـ "user-agent". فعلى سبيل المثال، تُعرّف روبوتات Google نفسها باستخدام Googlebot، بينما تستخدم روبوتات Yahoo اسم Slurp، وروبوتات Bing تحمل اسم BingBot، وغيرها من الأسماء المميزة لكل محرك بحث.
يشير السجل "user-agent" إلى بداية مجموعة معينة من التوجيهات. تُعتبر جميع التعليمات الموجودة بين أول سجل "user-agent" وأي سجل "user-agent" لاحق هي تعليمات مرتبطة بالسجل الأول.
يمكن تخصيص هذه التوجيهات لوكلاء مستخدمين محددين، لكنها قد تكون أيضًا عامة لتشمل جميع وكلاء المستخدم. في هذه الحالة، يتم استخدام رمز بدل عام وهو: User-agent: *.
عدم السماح بالتوجيه في ملف robots.txt
من الممكن منع محركات البحث من الوصول إلى ملفات أو صفحات أو أقسام محددة من موقع الويب الخاص بك باستخدام توجيه Disallow. يعمل هذا التوجيه بإبلاغ محركات البحث بأن المسار المحدد ينبغي أن يكون محظورًا وغير قابل للوصول. إذا لم يتم تحديد مسار معين، فسيتم تجاهل التوجيه تمامًا.
على سبيل المثال:
User-agent: *
Disallow: /wp-admin/
في هذا المثال، يتم إبلاغ جميع محركات البحث بضرورة منع الوصول إلى دليل "/wp-admin/".
السماح باستخدام التوجيه في ملف robots.txt
يُستخدم التوجيه **Allow** جنبًا إلى جنب مع التوجيه **Disallow** لتحديد استثناءات تسمح لمحركات البحث بالوصول إلى ملفات أو صفحات معينة داخل دليل مقيد. يدعم كل من Google وBing هذا النوع من التوجيهات. عند الدمج بين **Allow** و**Disallow**، يمكنك توجيه محركات البحث للوصول إلى عناصر محددة داخل نطاق يكون عادةً غير متاح. يُحدد التوجيه **Allow** مسار (path) الملف أو الصفحة المسموح الوصول إليها. إذا لم يتم تحديد أي مسار، يتم تجاهل التوجيه تلقائيًا.
مثال
User-agent: *
Allow: /media/terms-and-conditions.pdf
Disallow: /media/
```
في المثال أعلاه، يتم حظر الوصول إلى الدليل "/media/" لجميع محركات البحث، باستثناء الملف "/media/terms-and-conditions.pdf"، الذي يُسمح بالوصول إليه.
ملاحظات هامة
عند الجمع بين التوجيهين **Allow** و**Disallow**، من المهم تجنب استخدام أحرف البدل (wildcards مثل "*")، إذ إن ذلك قد يؤدي إلى وجود تعارضات تجعل التعليمات غير واضحة لمحركات البحث.
مثال على توجيهات متضاربة
User-agent: *
Allow: /directory
Disallow: *.html
```
في هذا السيناريو، سيواجه محرك البحث مشكلة في تحديد الإجراء المناسب تجاه عنوان URL مثل "http://www.domain.com/directory.html". فمن غير الواضح ما إذا كان يُسمح بالوصول أم لا.
في حالة الالتباس، تتبع Google القاعدة الأقل تقييدًا، مما يعني أن الملف "http://www.domain.com/directory.html" سيكون متاحًا للوصول لأن التوجيه الأقل صرامة هو السائد في مثل هذه الحالات.
إضافة خريطة الموقع إلى ملف robots.txt
تُعتبر من الممارسات الأساسية لتحسين قابلية المواقع للفهرسة على محركات البحث. على الرغم من أن الهدف الرئيسي من ملف robots.txt هو تحديد الصفحات التي يُفضل عدم فحصها، فإن هذا الملف يمكن أن يؤدي دورًا إضافيًا عبر توجيه محركات البحث إلى موقع خريطة الموقع XML الخاصة بالموقع. هذه الميزة مدعومة من كبرى محركات البحث مثل Google وBing وYahoo وAsk.
عند إضافة رابط خريطة الموقع إلى ملف robots.txt، يجب استخدام عنوان URL مطلق (Absolute URL). كما أنه ليس من الضروري أن يكون هذا العنوان موجودًا على نفس النطاق الذي يقع فيه ملف robots.txt.
نشدد على أهمية الإشارة إلى خريطة الموقع XML داخل ملف robots.txt كأفضل ممارسة، حتى في الحالات التي يتم فيها إرسال خريطة الموقع عبر أدوات مثل Google Search Console أو Bing Webmaster Tools، حيث إن هناك محركات بحث أخرى قد تعتمد بشكل أساسي على تعليمات ملف robots.txt لفهرسة محتوى الموقع.
من الجدير بالذكر أيضًا إمكانية إدراج روابط متعددة لخرائط المواقع XML داخل الملف نفسه.
أمثلة عملية
تعريف خرائط مواقع متعددة في ملف robots.txt:
```
User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.example.com/sitemap1.xml
Sitemap: https://www.example.com/sitemap2.xml
```
في المثال أعلاه، يتم إعلام جميع محركات البحث بضرورة تجنب فحص المجلد `/wp-admin/`، كما يتم تقديم روابط لخرائط الموقع التي يمكن العثور عليها على الروابط التالي ذكرها:
في هذا المثال، يُطلب من جميع محركات البحث الامتناع عن الوصول إلى المجلد `/wp-admin/`، مع الإشارة إلى رابط خريطة الموقع XML المتوفرة على العنوان التالي:
- https://www.example.com/sitemap_index.xml
إدراج خرائط المواقع داخل ملف robots.txt يُعد خطوة ذكية نحو تعزيز اكتشاف المحتوى على موقعك وتحسين ظهوره في نتائج البحث.