ถึงแม้จะเป็น Search Engines ระดับบิ๊ก (Google,Yahoo) ก็มีความสามารถเก็บข้อมูลเว็บไซต์ไว้ได้แค่เพียงส่วนหนึ่งของ เวบไซต์บน อินเทอร์เน็ตที่มีอยู่เท่านั้นเอง จากการศึกษาของ Dr. Steve Lawrence และ Dr. C. Lee Giles แสดงให้เห็นว่า ไม่มี Search Engines รายใดเลยที่จะสามารถเก็บข้อมูลเว็บไซต์ไว้ได้มากกว่า 16% ของเวบไซต์ที่มีอยู่ ตัว crawler ( spiders, robots) ที่มีจะทำการดูดข้อมูลของเวบไซต์ต่างๆ มาเก็บนั้นอย่างหนึ่งที่ต้องทำคือการตัดสินใจในการ ดูดข้อมูลในส่วนที่คิดว่าสำคัญที่สุดของเวบไซต์นั้นๆ มา ซึ่งการที่จะทำแบบนี้ได้นั้นต้อง มีการให้น้ำหนักของความสำคัญของเวบเพจ ต่างๆ ที่จะดูดมา และเวบเพจไหนมันจะมีลำดับความสำคัญมากแค่ไหนในการที่จะดูดมาก็มีสิ่งที่ต้องพิจารณาหลายด้าน อาทิเช่น มีผู้เยี่ยมชมเวบเพจนี้จำนวนมาก หรือมี เวบไซต์อื่น link มายังเวบเพจนี้จำนวนมาก ดังนั้นมันจึงค่อนข้างยากมากในการออกแบบส่วน selection policies
Cho เป็นคนหนึ่งที่ได้ทำการศึกษาเรื่องนี้ โดยข้อมูลที่เก็บได้จำนวน 180,000 เวบเพจจากโดเมน standford.edu โดยใช้วิธีเก็บรวบรวมข้อมูลของเวบเพจในหลายๆ รูปแบบ อาทิเช่นใช้วิธีค้นแบบ breadth-first
บทสรุปเขาพบว่าวิธีแบบ PageRank เวิร์กสุด ตามมาด้วยแบบ Breadth และ Back link
อย่างไรก็ตามอันนี้เป็นผลการศึกษาที่ไ้ด้ข้อมูลมาจากเพียง Domain เีดียว
Najork และ Wiener ได้ใช้เทคนิคแบบ Breadth-First สามารถเก็บรวบรวมเวบเพจได้มากถึง 320 ล้านเวบเพจ เทคนิคของพวกเค้าคือ เวลาที่ web crawler ของพวกเขาเลื้อยไปดูดเวบต่างๆนั้น มันใช้วิธีพิจารณาในการดูดเวบเพจนั้น ด้วยการดูที่ High Pagerank (แต่พวกเขาไม่ได้ทำการศึกษาวิธีการอื่นๆ เพื่อเปรียบเทียบผลการทำงาน) หากจะให้อธิบายผลแล้วตอบว่าเวบเพจไหนมีความสำคัญมากที่สุด (ในการที่จะดูดมาเก็บก่อน) ก็ตรงที่มีจำนวน Link จาก Host อื่น ๆ เชื่อมโยงมายังเพจนั้นมากน้อยแค่ไหนนั่นเอง
Abiteboul ได้ออกแบบวิธีการในการดูดเวบเพจต่างๆ โดยได้สร้าง อัลกอริธึม OPIC (On-line Page Importance Computation) โดยวิธีการแบบ OPIC นี้ได้กำหนดให้แต่ละ page มีค่าเริ่มต้นค่าหนึ่งซึ่งเรียกว่า "cash" ซึ่งคงเปรียบเทียบคล้ายๆ กับเป็นจำนวนเงินว่าง้าน ซึ่ง เกิดจากจำนวนของการ link ที่ได้เชื่อมมายังเวบนั้น ลักษณะจะคล้ายกับเทคนิค PageRank แต่จะทำเร็วกว่าเพราะทำได้ใน step เดียว ตัว Web crawler ที่ใช้ เทคนิคแบบ OPIC นี้จะทำการดูดเอาเวบเพจที่มีค่า "cash" มากสุดก่อน มีการทดลองประสิทธิภาพในการเก็บข้อมูลประมาณ 100,000 เพจ ด้วยเทคนี้ แต่อย่างไรก็ตาม ก็ยังไม่เคยเอาวิธีการนี้ไปเปรียบเทียบกับวิธีการอื่นๆ ที่มีอยู่หรือนำไปใช้ทดสอบเวบเพจต่างๆ ที่มีอยู่จริง
อย่างไรก็ตามอันนี้เป็นผลการศึกษาที่ไ้ด้ข้อมูลมาจากเพียง Domain เีดียว
Najork และ Wiener ได้ใช้เทคนิคแบบ Breadth-First สามารถเก็บรวบรวมเวบเพจได้มากถึง 320 ล้านเวบเพจ เทคนิคของพวกเค้าคือ เวลาที่ web crawler ของพวกเขาเลื้อยไปดูดเวบต่างๆนั้น มันใช้วิธีพิจารณาในการดูดเวบเพจนั้น ด้วยการดูที่ High Pagerank (แต่พวกเขาไม่ได้ทำการศึกษาวิธีการอื่นๆ เพื่อเปรียบเทียบผลการทำงาน) หากจะให้อธิบายผลแล้วตอบว่าเวบเพจไหนมีความสำคัญมากที่สุด (ในการที่จะดูดมาเก็บก่อน) ก็ตรงที่มีจำนวน Link จาก Host อื่น ๆ เชื่อมโยงมายังเพจนั้นมากน้อยแค่ไหนนั่นเอง
Abiteboul ได้ออกแบบวิธีการในการดูดเวบเพจต่างๆ โดยได้สร้าง อัลกอริธึม OPIC (On-line Page Importance Computation) โดยวิธีการแบบ OPIC นี้ได้กำหนดให้แต่ละ page มีค่าเริ่มต้นค่าหนึ่งซึ่งเรียกว่า "cash" ซึ่งคงเปรียบเทียบคล้ายๆ กับเป็นจำนวนเงินว่าง้าน ซึ่ง เกิดจากจำนวนของการ link ที่ได้เชื่อมมายังเวบนั้น ลักษณะจะคล้ายกับเทคนิค PageRank แต่จะทำเร็วกว่าเพราะทำได้ใน step เดียว ตัว Web crawler ที่ใช้ เทคนิคแบบ OPIC นี้จะทำการดูดเอาเวบเพจที่มีค่า "cash" มากสุดก่อน มีการทดลองประสิทธิภาพในการเก็บข้อมูลประมาณ 100,000 เพจ ด้วยเทคนี้ แต่อย่างไรก็ตาม ก็ยังไม่เคยเอาวิธีการนี้ไปเปรียบเทียบกับวิธีการอื่นๆ ที่มีอยู่หรือนำไปใช้ทดสอบเวบเพจต่างๆ ที่มีอยู่จริง

0 ความคิดเห็น:
แสดงความคิดเห็น