מה זה קובץ robots.txt?
קובץ robots.txt הוא מסמך טקסט הממוקם בתיקיית השורש של האתר ומנחה את הסורקים של מנועי החיפוש באילו דפים או מדורים עליהם לסרוק או לא לסרוק. זהו כלי חיוני לניהול תקציב זחילה (Crawl Budget) ומניעת אינדוקס של חלקים רגישים או כפולים באתר.
קובץ robots.txt הוא למעשה סט של הוראות עבור רובוטים (סורקים). כאשר מנוע חיפוש כמו Google מבקר באתר, הדבר הראשון שהוא מחפש הוא הקובץ הזה. הוא משתמש ב-'Robots Exclusion Protocol' כדי לתת פקודות כמו 'User-agent' (למי הכלל תקף) ו-'Disallow' (אילו נתיבים יש להתעלם מהם). בעוד שהוא מצוין למניעת בזבוז זמן של סורקים על דפים בעלי ערך נמוך – כמו מסכי התחברות, תוצאות חיפוש פנימיות או תיקיות ניהול – חשוב לציין ש-robots.txt אינו דרך מובטחת להשאיר דף מחוץ לאינדקס של Google. אם דף חסום ב-robots.txt אך יש קישורים חיצוניים המפנים אליו, Google עדיין עשויה לאנדקס את ה-URL. כדי למנוע באמת מדף להופיע בתוצאות החיפוש, נדרש תג 'noindex'. הגדרה שגויה של קובץ ה-robots.txt היא טעות SEO טכנית נפוצה; חסימה בטעות של כל האתר עלולה להוביל לאובדן מוחלט של הנראות בחיפוש, ולכן יש לטפל בו בזהירות.
מדריך שלב אחר שלב
איתור או יצירה
וודאו שקיים קובץ בשם robots.txt בתיקיית השורש של האתר שלכם (למשל, example.com/robots.txt).
הגדרת User-Agents
ציינו לאילו בוטים הכללים תקפים, השתמשו בכוכבית (*) עבור כל הבוטים או ב-'Googlebot' עבור בוטים ספציפיים.
הגדרת כללי Disallow
רשמו את הספריות או נתיבי הקבצים הספציפיים שברצונכם לשמור פרטיים מפני סורקי מנועי החיפוש.
הוספת קישור ל-Sitemap
כללו קישור ישיר ל-XML Sitemap שלכם בתחתית הקובץ כדי לעזור לבוטים למצוא את התוכן שלכם.
בדיקת שגיאות
השתמשו ב-robots.txt Tester של Google Search Console כדי לוודא שאינכם חוסמים דפים חשובים בטעות.
טיפים למקצוענים
- השתמשו ב-'Disallow' עבור דפים פרטיים או חוזרים כמו /wp-admin/ או /search/.
- לעולם אל תשתמשו ב-robots.txt כדי להסתיר נתוני משתמשים רגישים; השתמשו בהגנת סיסמה במקום זאת.
- שימרו על תחביר פשוט; כללים מורכבים מדי עלולים להוביל לשגיאות סריקה.
איך pSeoMatic עוזרת
pSeoMatic מנטרת אוטומטית את קובץ ה-robots.txt שלכם לשינויים בלתי צפויים. אם מפתח חוסם בטעות מדור עם תנועה גבוהה באתר, המערכת שלנו שולחת התראה מיידית, ובכך מונעת נפילות קטסטרופליות בנראות האורגנית לפני שהן פוגעות בשורה התחתונה שלכם.
נסו את pSeoMatic בחינםשאלות קשורות
האם robots.txt יכול למנוע אינדוקס של דף?
הוא מונע סריקה, אך אינדוקס עדיין יכול להתרחש אם אתרים אחרים מקשרים לאותו דף. השתמשו בתג noindex להסרה מלאה.
איפה אני שם את קובץ ה-robots.txt?
הוא חייב להיות ממוקם בתיקיית השורש (Root) הראשית של שרת האתר שלכם.
האם robots.txt רגיש לאותיות גדולות/קטנות (Case Sensitive)?
כן, גם שם הקובץ וגם נתיבי הספרייות המפורטים בו רגישים לסוג האותיות.
מדריכים קשורים
מוכנים ליישם את זה?
pSeoMatic יוצרת אלפי דפים מותאמי SEO מהנתונים שלכם.