ไฟล์ robots.txt คืออะไร?
robots.txt คือไฟล์ข้อความธรรมดาที่วางไว้ใน Root directory ของเว็บไซต์ เพื่อบอก Search engine crawlers ว่าหน้าไหนที่อนุญาตหรือไม่อนุญาตให้เข้ามาเก็บข้อมูล เป็นเครื่องมือสำคัญในการบริหารจัดการ Crawl budget และป้องกันไม่ให้ส่วนที่เป็นความลับหรือเนื้อหาที่ซ้ำซ้อนถูกเก็บไปแสดงบนผลการค้นหา
ไฟล์ robots.txt เปรียบเสมือน 'คำสั่ง' สำหรับ Bot ของ Search Engine เมื่อ Google เข้ามาที่เว็บ สิ่งแรกที่มองหาคือไฟล์นี้ โดยจะใช้โปรโตคอลที่เรียกว่า 'Robots Exclusion Protocol' ในการสั่งการ เช่น 'User-agent' (บอกว่ากฎนี้ใช้กับ Bot ตัวไหน) และ 'Disallow' (บอกว่าเส้นทางไหนที่ห้ามเข้า) แม้ว่าจะช่วยประหยัดเวลาไม่ให้ Bot ไปเสียเวลากับหน้าที่มีมูลค่าต่ำ เช่น หน้า Login, ผลการค้นหาภายในเว็บ หรือโฟลเดอร์ Admin แต่ต้องจำไว้ว่า robots.txt ไม่ใช่การการันตีว่าหน้านั้นจะไม่ถูก Index หากหน้านั้นถูกบล็อกใน robots.txt แต่มีลิงก์จากภายนอกส่งมา Google ก็อาจจะยังเก็บ URL นั้นไปแสดงผลได้ หากต้องการป้องกันการปรากฏบน SERP อย่างสมบูรณ์ ควรใช้ 'noindex' tag การตั้งค่า robots.txt ผิดพลาดเป็นปัญหา Technical SEO ที่พบบ่อย เช่น การเผลอบล็อกคนทั้งเว็บ ซึ่งอาจทำให้เว็บไซต์หายไปจากผลการค้นหาได้ทันที จึงต้องจัดการด้วยความระมัดระวัง
คู่มือแบบ Step-by-Step
ตรวจสอบหรือสร้างไฟล์
ตรวจสอบว่ามีไฟล์ชื่อ robots.txt อยู่ใน Root directory ของเว็บคุณแล้วหรือยัง (เช่น example.com/robots.txt)
ระบุ User-Agents
กำหนดว่ากฎนี้ใช้กับ Bot ตัวไหน โดยใช้เครื่องหมายดอกจัน (*) สำหรับ Bot ทุกตัว หรือระบุ 'Googlebot' สำหรับ Google โดยเฉพาะ
ตั้งกฎ Disallow
ระบุ Directory หรือ Path ของไฟล์ที่คุณต้องการปิดกั้นไม่ให้ Bot เข้าถึง
ใส่ลิงก์ Sitemap
ระบุตำแหน่ง XML sitemap ไว้ที่ท้ายไฟล์ เพื่อช่วยให้ Bot เจอเนื้อหาสำคัญได้เร็วขึ้น
ทดสอบหาข้อผิดพลาด
ใช้เครื่องมือ robots.txt Tester ใน Google Search Console เพื่อเช็กว่าคุณไม่ได้เผลอบล็อกหน้าสำคัญทิ้ง
Pro Tips
- ใช้ 'Disallow' กับหน้าที่เป็นส่วนตัวหรือซ้ำซ้อน เช่น /wp-admin/ หรือหน้า /search/
- ห้ามใช้ robots.txt เพื่อซ่อนข้อมูลลับของผู้ใช้งานเด็ดขาด ให้ใช้การป้องกันด้วย Password แทน
- เขียนคำสั่งให้เรียบง่ายที่สุด เพราะกฎที่ซับซ้อนเกินไปอาจทำให้เกิด Crawling errors ได้
pSeoMatic ช่วยคุณได้อย่างไร
pSeoMatic จะคอยตรวจสอบไฟล์ robots.txt ของคุณโดยอัตโนมัติ หากมีการเปลี่ยนแปลงที่ผิดปกติ เช่น นักพัฒนาเผลอบล็อกส่วนที่มี Traffic สูง ระบบจะส่งการแจ้งเตือนทันที เพื่อป้องกันการร่วงของอันดับก่อนที่จะส่งผลกระทบต่อรายได้ของคุณ
ลองใช้ pSeoMatic ฟรีคำถามที่เกี่ยวข้อง
robots.txt ป้องกันการ Index ได้ 100% หรือไม่?
ไม่ครับ มันแค่หยุดการ Crawl แต่การ Index อาจเกิดขึ้นได้ถ้ามีเว็บอื่นลิงก์มาหาหน้าเว็บนั้น ควรใช้ noindex tag เพื่อความแน่นอน
ต้องวางไฟล์ robots.txt ไว้ที่ไหน?
ต้องวางไว้ในโฟลเดอร์หลัก (Root directory) ของ Host เว็บไซต์คุณเท่านั้น
robots.txt ตัวพิมพ์เล็ก-ใหญ่มีผลไหม?
มีผลครับ ทั้งชื่อไฟล์และ Path ที่ระบุภายในไฟล์ต้องพิมพ์ให้ถูกต้องแม่นยำตามจริง
คู่มือที่เกี่ยวข้อง
พร้อมที่จะลงมือทำแล้วหรือยัง?
pSeoMatic สร้างหน้าเว็บที่ปรับแต่ง SEO นับพันจากข้อมูลของคุณ