วันพุธที่ ๑ สิงหาคม พ.ศ. ๒๕๕๐

Spiders หรือ Robots

ค้นไปค้นมาใน Google หรือว่า Wikipedia จะมีคำว่า Web Crawler อีกตัวที่เพิ่มเข้ามาแต่โดยรวมแล้วก็ทำหน้าีที่เหมือนกันนั่นแหละคือไปไล่เก็บข้อมูลจากเวบชาวบ้านเค้า
เอามาจัดเรียงให้เป็นระเบียบเรียบร้อยในฐานข้อมูลของตัวเอง ถ้าจะเอาคำจำกัดความแบบเต็มๆ ลองไปอ่านที่นี่ http://en.wikipedia.org/wiki/Web_crawler
ซึ่่งถ้าให้สรุปก็จะประมาณว่า web crawler หรืออาจถูกเรียกชื่อ เป็น web spiders หรือว่า web robot คือโปรแกรม หรือ autonomous script ที่ทำการ ท่องไปทั่ว world wide web แบบอัตโนมัติ ชื่ออื่นๆ ที่เคยเรียกกันแต่ว่า ตอนนี้ไม่ค่อยมีใครเรียกกัน ก็อาทิเช่น ants (คงสังเกตจากพฤติกรรมการเดินของมด) automatic indexers , bots (คงย่อมาจาก robots) หรือ worm (ไม่แน่ใจว่าตัวเดียวกับไวรัสหรือเปล่าแต่คิดว่าคงดูจาก พฤติกรรม) ถึงตรงนี้มีไอเดีย ในการปรับให้ web crawler มาทำหน้าที่ตรวจสอบความถูกต้องของเวบไซต์แหะ

หลักการทำงานของ web crawler คือเราต้องมี list รายการเริ่มต้นของ URLs ที่จะเริ่มก่อน (ถูกเรียกว่า seeds) เช่น http://www.about.com จากนั้น ให้พิจารณาเนื้อหาที่ได้จาก หน้าแรกของเวบไซต์นี้ โดยให้มองที่ tag hyperlink จากนั้นให้เก็บ hyperlink นั้นไว้ใน list ต่อ ซึ่ง hyperlink ที่เก็บพวกนี้เค้าเรียกกันว่า crawl frontier ซึ่ง url ที่ได้จาก crawl frontier นั้น จะเ็ป็น URLs ที่จะให้ web crawler กลับมาดึงข้อมูลเพื่อไป update ใหม่ ในภายหลัง ( ขึ้นอยู่กับ policies ของ web crawler ที่กำหนด)

0 ความคิดเห็น: