MICROSOFT RERANKING VÀ LỌC thông tin dư thừa

Bao nhiêu nhiều bạn sẽ thấy trong kết quả tìm kiếm? Nên công cụ tìm kiếm kết hợp những thứ lên một chút, vì vậy khi bạn tìm kiếm một cái gì đó với một tìm kiếm, bạn không nhìn thấy kết quả là tất cả các chính xác về điều tương tự? Trang trong những kết quả mà dường như quá xa chủ đề cần được đẩy trở lại trong kết quả?

Hãy tưởng tượng thực hiện tìm kiếm tại MSN, với công cụ tìm kiếm đáp ứng truy vấn của bạn bằng cách thu thập các liên kết đến các trang, và mô tả của các trang, sau đó nó có một cái nhìn sâu hơn về nội dung của những tài liệu, và sắp xếp chúng theo một thứ tự khác nhau

Ví dụ, tìm kiếm “Abraham Lincoln”, bạn có thể xem các trang về sau trong kết quả trả về:

Về con mèo của ai đó, có tên là Abraham Lincoln,
Abraham Lincoln Theme Park,
Một trang web bán kỷ vật Abraham Lincoln, và;
Và các trang khác chỉ có phần liên quan.

Nếu là người đầu tiên ba hoặc bốn kết quả mà bạn nhận được từ MSN là về đặt tên theo Tổng thống vật nuôi, và tiếp theo bốn hoặc năm là về công viên chủ đề, mà có thể không được những gì bạn mong đợi để xem.

Một bằng sáng chế mới của Microsoft cố gắng rerank và lọc kết quả tìm kiếm dựa trên thông tin dư thừa.

Khi ai đó loại một truy vấn trong một công cụ tìm kiếm, họ thường nhận được nhiều hơn một tài liệu hoặc đáp ứng hoặc đáp ứng một phần mà truy vấn. “Thông tin dự phòng” nộp hồ sơ bằng sáng chế này mô tả phương tiện tiếp nhận hồ sơ với rất nhiều sự trùng lặp về nội dung, một số trong đó có thể không liên quan hoặc chỉ có một phần liên quan đến những gì người tìm kiếm hy vọng sẽ tìm thấy.

Một ý tưởng đằng sau nộp bằng sáng chế này là khi một người tìm kiếm tìm thấy một số thông tin trong một tài liệu, họ không cần phải lãng phí thời gian tìm kiếm các thông tin tương tự trong nhiều tài liệu khác.

Sử dụng thông tin dự phòng để cải thiện tìm kiếm văn bản
Nhà sáng chế: Eric D. Brill và Susan T. Dumais
Giao cho Tập đoàn Microsoft
US Patent 7.051.014
Cấp ngày 23 tháng năm 2006
Nộp: ngày 18 tháng 6 năm 2003

trừu tượng

Kiến trúc để cải thiện tìm kiếm văn bản bằng cách sử dụng thông tin dự phòng. Một thành phần tìm kiếm được kết hợp với một thành phần phân tích để rerank trả về trong một tìm kiếm theo một giá trị dự phòng.

Mỗi tài liệu lại được sử dụng để phát triển một từ phân phối xác suất tương ứng mà là tiếp tục sử dụng để rerank các tài liệu trở lại theo giá trị dự phòng liên quan.

Trong một khía cạnh khác của chúng, các thành phần truy vấn được kết hợp với một thành phần chiếu để chiếu câu trả lời dư thừa từ một tìm kiếm tài liệu khác. Điều này bao gồm có được lợi ích của câu trả lời dư thừa đáng kể từ một nguồn dữ liệu thứ hai bằng cách chiếu sự thành công của việc tìm kiếm những nguồn dữ liệu thứ hai chống lại một nguồn dữ liệu đầu tiên.

Ứng dụng bằng sáng chế liên quan

Trước khi bằng sáng chế bắt đầu nói với chúng tôi như thế nào dư thừa này lọc các công trình, nó cho chúng ta một chút về một ứng dụng bằng sáng chế có liên quan, và cung cấp một danh sách các hồ sơ bằng sáng chế và các tài liệu tham chiếu của tài liệu này. Tôi đã liệt kê những tài liệu tham khảo ở cuối bài viết này. Dưới đây là một liên kết đến nộp hồ sơ bằng sáng chế có liên quan công ty seo website

Bằng sáng chế này là liên quan đến cấp phát Mỹ Kiến trúc ứng dụng bằng sáng chế để tạo ra phản ứng với truy vấn tìm kiếm động cơ nộp vào ngày 13 Tháng Sáu 2003. Thật thú vị ở chỗ nó cố gắng để hiểu câu hỏi, và cung cấp câu trả lời hữu ích cho họ.

Làm thế nào Thông tin dự phòng được xác định và sử dụng

Kết quả nhận được từ một truy vấn được xem xét, và một phân bố xác suất từ được tạo ra cho một số lượng nhất định kết quả trả về. Những người được so sánh, và khi có những tài liệu đó là quá giống, một số được lọc ra. Các tài liệu có quá không tương tự có thể được đẩy lùi trong bảng xếp hạng, và được coi là lạc đề. Đây là cách nộp bằng sáng chế tóm tắt quá trình này.

Ví dụ, nội dung thông tin cho một tài liệu có thể được thể hiện theo một sự tương đồng giá trị nội dung thông tin tương tự như của một tài liệu trong một tập trở lại là các tài liệu khác trong tập trở lại (ví dụ, một tập hợp các tài liệu trả về bởi một công cụ tìm kiếm truy vấn “Abraham Lincoln”), nhiều khả năng các tài liệu có phải là một tài liệu tốt cho một truy vấn cụ thể.

Vì vậy, nếu, ví dụ, có một trăm trở lại tài liệu mười trong số đó hồ quang thực sự về Abraham Lincoln, và chín mươi trong số đó là các tài liệu chỉ đề cập đến một cách ngẫu nhiên Abraham Lincoln, mỗi chín mươi tài liệu ít có liên quan sẽ có một giá trị dự phòng thông tin thấp đối với để trả về khác, trong khi mười văn bản trở lại trên chủ đề sẽ có giá trị dự phòng thông tin cao, đối với các tài liệu khác có liên quan nhất với.

Vì vậy, một số mức độ dự phòng được sử dụng để xác định những tài liệu này là “về chủ đề.” Nếu không có một mức độ cao của sự dư thừa giữa các kết quả được xem xét, công cụ tìm kiếm có thể thực hiện tìm kiếm tinh tế, tìm kiếm thêm tài liệu mà nó tin được nhiều hơn “về chủ đề.” Điều này thiết lập thứ hai của kết quả tìm kiếm có thể làm theo một số ý tưởng trong các bằng sáng chế liên quan trên, mà cố gắng để tìm “câu trả lời tốt” để truy vấn.

Các tài liệu sáng chế Hoa Kỳ trích dẫn công ty seo

Kỹ thuật cho việc cung cấp thông tin liên quan tăng cường cho các tài liệu lấy trong một tìm kiếm cơ sở dữ liệu đa (6006217) Cấp tháng 12 năm 1999, Lumsden
Tạo thành mối liên hệ giữa câu hỏi và câu trả lời (6028601) của người dùng Cấp tháng 2 năm 2000, Machiraju et al.
Phương pháp và hệ thống trọng lượng kết quả tìm kiếm của công cụ tìm kiếm cơ sở dữ liệu (6182065) Cấp tháng 1 năm 2001, Yeomans
Bộ máy đối thoại ngôn ngữ tự nhiên và phương pháp (6466899) ​​Cấp tháng 10 năm 2002, Yano et al.
Phương pháp để làm giảm kết quả tìm kiếm bằng cách thủ công hoặc tự động không bao gồm kết quả tìm kiếm được trình bày trước đó (6487553) cấp tháng 11 năm 2002, Emens et al.
Phương pháp và thiết bị để thực hiện một tìm kiếm tương tự mối quan hệ dựa trên (6587848) Cấp tháng 7 năm 2003, Aggarwal et al.
Hệ thống và phương pháp xếp hạng và lấy tài liệu dựa trên điểm số thẩm quyền của các lược đồ và tài liệu (6601075) Cấp Tháng 7 năm 2003, Huang et al.
tài liệu tham khảo khác

S Dumais, M. Banko, E. Brill, J. Lin, và A. Ng. Web Question Answering: Luôn luôn là khác tốt hơn? (pdf) Kỷ yếu 25 năm ACM SIGIR Hội nghị, trang 291-298, 2002. trích dẫn khác.
A. Arasu, J. Cho, H. Garcia-Molina, A. Paepcke, và S. Raghavan. Tìm kiếm trên web. Giao dịch ACM về công nghệ Internet, vol. 1 hành 1, trang 2-43, 2001. Trích dẫn khác.
Jonathan Foote, Matthew Cooper, và Unjung Nam. Âm thanh hồi bởi Rythmic tương đồng (pdf). Kỷ yếu của Hội nghị thường niên lần thứ 3 trên Music Thông tin hồi, IRCAM-Trung tâm Pompidou, 2002. 2 trang. trích dẫn khác.