ถ้าอ่านจาก http://en.wikipedia.org/wiki/Web_crawler เรื่อง policies ของ web crawler แล้วเค้าก็บอกว่ามีเรื่องสามเรื่องที่จะเป็นอุปสรรคสำคัญที่ทำให้ web crawler เก็บข้อมูลได้ยากคือ
- its large volume (ข้อมูลที่เก็บมีขนาดใหญ่เกินไป)
- its fast rate of change (เวบเพจนั้นมีอัตราของการเปลี่ยนแปลงอย่างรวดเร็ว)
- dynamic page generation (เวบเพจเป็นแบบ dynamic ไม่คงที่)
ปัญหาที่หนักที่สุดน่าจะเป็นการเก็บข้อมูลจากเวบที่เขียนขึ้นมาจาก server side script (php,jsp,asp...) เนื่องจาก เนื้อหาของเวบไซต์ที่ได้นั้นมาจากการสร้างขึ้นมา ณ ขณะนั้นที่เข้าไปยังเวบไซต์นั้นๆ ซึ่งอาจนำไปสู่เงื่อนไขที่ทำให้ web crawler ไม่สามารถหลุดออกจากเวบไซต์นั้นได้ ดังนั้น web crawler ต้องมีความระมัดระวังหรือมีความสามารถในการพิจารณาว่าจะไป link ถัดไปหรือไม่ ซึ่งมีประเด็นที่ web crawler ต้องพิจารณาคือ
- A selection policy that states which pages to download.
- วิธีการเลือกเวบไซต์ที่ต้องการเข้าไปเก็บข้อมูล
- A re-visit policy that states when to check for changes to the pages.
- การตรวจสอบการการเปลี่ยนแปลงของข้อมูลเวบไซต์เพื่อเข้าไปเก็บข้อมูลอีกครั้งหนึ่ง
- A politeness policy that states how to avoid overloading websites.
- การหลีกเลี่ยงการเข้าไปเก็บข้อมูลเวบไซต์เดิม
- A parallelization policy that states how to coordinate distributed web crawlers.
- การทำงานร่วมกันกับ web crawlers หลายๆ ตัวเพื่อช่วยกันทำงาน
0 ความคิดเห็น:
แสดงความคิดเห็น