robots.txt คืออะไร?
เป็นไฟล์ที่ไว้บอก Robot ของ Search Engine ต่างๆ ว่าไฟล์นี้อนุญาตให้เข้าไปเก็บข้อมูลหรือไม่ (ไม่อยากให้เผยแพร่นั่นเอง) เช่น พวกหน้า admin หรือไฟล์ที่สำคัญๆ ต่างๆ โดยจะเป็นความปลอดภัยเบื้องต้นเท่านั้น
วิธีก็คือเราสร้างไฟล์ที่ชื่อว่า robots.txt วางไว้ที่ Root ของแต่ละ Directory ที่ต้องการกำหนดการเข้าถึง
รูปแบบการใช้งาน
# robots.txt for http://www.example.com/
User-agent: *
Disallow: /directoryname/
Disallow: /filename.html
- User-Agent — ชื่อของ Robot ที่ต้องการ (
*หมายถึงทุกตัว) - Disallow — หมายถึงไม่อนุญาตให้ bot เข้าไปอ่านข้อมูล
ถ้าอยากดูตัวอย่างรูปแบบอื่นไปที่นี่เลย http://www.robotstxt.org/orig.html