วันพุธที่ ๑ สิงหาคม พ.ศ. ๒๕๕๐

Crawling policies

ถ้าอ่านจาก http://en.wikipedia.org/wiki/Web_crawler เรื่อง policies ของ web crawler แล้วเค้าก็บอกว่ามีเรื่องสามเรื่องที่จะเป็นอุปสรรคสำคัญที่ทำให้ web crawler เก็บข้อมูลได้ยากคือ
  • its large volume (ข้อมูลที่เก็บมีขนาดใหญ่เกินไป)
  • its fast rate of change (เวบเพจนั้นมีอัตราของการเปลี่ยนแปลงอย่างรวดเร็ว)
  • dynamic page generation (เวบเพจเป็นแบบ dynamic ไม่คงที่)
ปัญหาที่หนักที่สุดน่าจะเป็นการเก็บข้อมูลจากเวบที่เขียนขึ้นมาจาก server side script (php,jsp,asp...) เนื่องจาก เนื้อหาของเวบไซต์ที่ได้นั้นมาจากการสร้างขึ้นมา ณ ขณะนั้นที่เข้าไปยังเวบไซต์นั้นๆ ซึ่งอาจนำไปสู่เงื่อนไขที่ทำให้ web crawler ไม่สามารถหลุดออกจากเวบไซต์นั้นได้ ดังนั้น web crawler ต้องมีความระมัดระวังหรือมีความสามารถในการพิจารณาว่าจะไป link ถัดไปหรือไม่ ซึ่งมีประเด็นที่ web crawler ต้องพิจารณาคือ

  • A selection policy that states which pages to download.
    • วิธีการเลือกเวบไซต์ที่ต้องการเข้าไปเก็บข้อมูล
  • A re-visit policy that states when to check for changes to the pages.
    • การตรวจสอบการการเปลี่ยนแปลงของข้อมูลเวบไซต์เพื่อเข้าไปเก็บข้อมูลอีกครั้งหนึ่ง
  • A politeness policy that states how to avoid overloading websites.
    • การหลีกเลี่ยงการเข้าไปเก็บข้อมูลเวบไซต์เดิม
  • A parallelization policy that states how to coordinate distributed web crawlers.
    • การทำงานร่วมกันกับ web crawlers หลายๆ ตัวเพื่อช่วยกันทำงาน

0 ความคิดเห็น: