วันเสาร์ที่ ๔ สิงหาคม พ.ศ. ๒๕๕๐
Restricting followed links
การท่องไปตามเวบไซต์ต่างๆนั้น จริงๆ เราสนใจข้อมูลไฟล์ HTML เท่านั้นโดยหลีกเลี่ยงหรือไม่สนใจไฟล์อื่นๆ (MIME type) เพราะฉะนั้นเวลาตัว Web Crawler อาจส่งคำสั่งเพื่อขอข้อมูล HTTP HEAD มาอ่านดูเพื่อตรวจสอบว่าเวบไซต์นี้มี MIME type อะไรอยู่บ้างก่อนที่จะทำการดูดข้อมูล บางครั้งตัว Web crawler ถ้าอยากจะหลีกเลี่ยงการขอข้อมูล HEADER มาอ่านบ่อยๆ ก็อาจจะพิจารณาจากนามสกุลของไฟล์ HTML ที่ส่วนมากจะเป็น .html หรือไม่ก็ .htm หรือนามสกุลอื่นๆ ที่เป็นที่รู้จักว่าเป็นไฟล์ที่ให้ข้อมูลในรูปแบบของ html ออกมาอิเช่น .asp , .aspx , .php เป็นต้น บาง Web crawler อาจไม่สนใจ link ที่มี ? อยู่ใน url เนื่องจากเป็นเวบเพจแบบ dynamic ซึ่งใช้เทคนิค ในการส่งข้อมูลไปใน url ซึ่งบางเวบเพจจงใจเขียนหรือสร้างเวบเพจในลักษณะนี้เพื่อไม่อยากให้ ตัว web crawler มาดูดข้อมูลของตัวเองไป เนื่องจาก เวบเพจลักษณ์นี้จะมีการเปลี่ยนแปลงของข้อมูลตลอดเวลา
สมัครสมาชิก:
ส่งความคิดเห็น (Atom)

0 ความคิดเห็น:
แสดงความคิดเห็น