Entropy của GỖ TÌM KIẾM và cá nhân VỚI backoff

Có vấn đề gì mà Google biết về một nghìn tỷ địa chỉ Web ?

Là điều quan trọng mà công cụ tìm kiếm mới Cuil có 120 tỷ trang được lập chỉ mục , theo họ, “nhiều hơn ba lần so với bất kỳ công cụ tìm kiếm khác ” ? công ty seo

Các trang hơn được biết về một công cụ tìm kiếm , càng khó có thể cung cấp “tốt nhất” trang để đáp ứng với một tìm kiếm, hoặc kết quả cá nhân theo sở thích của người tìm kiếm .

Nhưng những gì nếu một vài kỹ sư tìm kiếm nói với bạn rằng một nghiên cứu của tập tin đăng nhập một công cụ tìm kiếm thương mại lớn cho thấy rằng trong khi có ” rất nhiều các trang trên mạng, không có nhiều trang mà mọi người thực sự đi đến . ”

Bài báo của họ thảo luận về số lượng các trang hữu ích trên trang web, hoặc các trang mà mọi người thực sự tìm kiếm thông qua như trái ngược với tất cả các trang được lập chỉ mục , và khám phá các khái niệm về thông tin dữ liệu ngẫu nhiên liên quan đến tìm kiếm lập chỉ mục.
Entropy liên quan đến sự không chắc chắn liên quan đến số lượng nội dung thông tin có thể được bỏ qua bởi một ai đó tìm kiếm thông tin . Biết rằng hầu hết các tìm kiếm có thể được trả lời bằng hàng triệu trang chứ không phải là tỷ trong một chỉ mục tìm kiếm có nghĩa là dữ liệu ngẫu nhiên tham gia vào chỉ mục tìm kiếm là nhỏ hơn so với chúng ta có thể tưởng tượng, và nó dễ dàng hơn để dự đoán những trang có thể có ích cho một người tìm kiếm .

Thông tin bổ sung được thông qua cá nhân có thể giảm dữ liệu ngẫu nhiên mà ngay cả nhiều hơn, bằng cách làm cho nó dễ dàng hơn cho công cụ tìm kiếm để dự đoán những trang có thể có ích cho một người tìm kiếm .

Họ thảo luận về cách cá nhân thậm chí có thể giúp tìm kiếm khi không có đủ thông tin thu thập được về lợi ích của một người dùng cá nhân , bởi ” sao lưu off” để nhìn vào các nhóm lớn hơn là các cá nhân có thể là một thành viên của , dựa trên những thứ như những người chia sẻ một số của nhân khẩu học tiếp thị tương tự , hoặc từ thông tin dựa trên một phương pháp tiếp cận lọc cộng tác dựa trên tìm kiếm và chia sẻ các trang click vào cũng như hành vi người dùng khác .

Nó không có đủ dữ liệu về nhân khẩu học thị trường hoặc bấm vào thông qua thông tin để tìm kiếm tổng hợp , cá nhân , một số dữ liệu khác dễ dàng hơn được , chẳng hạn như thông tin vị trí được thông qua địa chỉ IP có thể cung cấp kết quả hữu ích và có ý nghĩa.

Giấy Microsoft giới năm nay tại Hội nghị Đầu tiên ACM quốc tế về tìm kiếm web và khai thác dữ liệu (WSDM 2008) cung cấp một số câu hỏi thú vị và suy nghĩ về kích thước của Web mà mọi người thực sự sử dụng , và là một cách cung cấp kết quả tìm kiếm được cá nhân khi có thông tin hạn chế có sẵn cho một công cụ tìm kiếm về lợi ích của người tìm kiếm liên quan đến một chủ đề cụ thể .

Bài viết này là Entropy của Tìm kiếm Logs: Làm thế nào cứng là tìm kiếm? Cá nhân với ? Với backoff ? (pdf) . Greg Linden đã viết lên một cái nhìn tổng quan của bài báo trong bài viết của mình Có entropy của bản ghi tìm kiếm chỉ ra rằng tìm kiếm sẽ được dễ dàng ? , Và một trình chiếu video về chủ đề có sẵn trực tuyến . công ty seo uy tín

Một vài giấy tờ trích dẫn trong phần tham khảo tài liệu này được đọc thú vị:

Thích ứng Web Search Căn cứ vào hồ sơ tài Xây dựng mà không có bất kỳ nỗ lực từ người sử dụng (pdf)

Cá nhân Tìm kiếm thông qua tự động phân tích của Sở thích và hoạt động (pdf)