Microsoft giải thích SAO CHÉP KẾT QUẢ NỘI DUNG LỌC

Hôm thứ tư …

Tôi: “Tôi nên bao gồm những gì trong bài trình bày về nội dung trùng lặp ở Webmaster Thế giới Pubcon trong hai tuần?

Với bạn bè: “Làm thế nào một công cụ tìm kiếm quyết định trùng lặp để hiển thị trong kết quả tìm kiếm, và những người thân không hiển thị?”

Tôi: “Tốt lắm.”

Một người bạn: “Đúng. Làm thế nào để họ lựa chọn? PageRank? Người đầu tiên được xuất bản? công ty seo website. ”

Tôi: “Có giấy tờ màu trắng và hồ sơ bằng sáng chế mô tả cách một công cụ tìm kiếm có thể khám phá nội dung trùng lặp. Họ nhìn vào các URL và các cấu trúc liên kết của trang gương, hoặc kiểm tra trình tự từ liên tiếp trong các đoạn quay trở lại với kết quả. ”

Một người bạn: “Đúng vậy. Nhưng điều đó không trả lời câu hỏi. ”

Tôi: “Tôi đã nhìn thấy nhiều hơn một vài vấn đề lọc nội dung trùng lặp trong quá khứ. Tôi đã khám phá các chủ đề cụ thể. Nhưng tôi chưa bao giờ thấy một cái gì đó bằng văn bản về đề tài này từ một người nào đó kết nối với một công cụ tìm kiếm.
Với bạn bè: “Và?”

Tôi: “Nó dường như không được bất kỳ một tín hiệu. Nó không PageRank một mình, hoặc khoảng cách từ thư mục gốc. Nó có thể không phải là người đầu tiên được công bố, bởi vì nhiều trang web năng động, và thời gian đóng dấu trên bản gốc có thể muộn hơn trên các bản sao, và bản sao đầu tiên spidered có thể là một công cụ tìm kiếm nghĩ là lâu đời nhất. Nó không xuất hiện để được cảm nhận thẩm quyền. Nó có thể có một cái gì đó để làm với số lượng và chất lượng của các liên kết trong và ngoài nước từ một trang. Nó có thể là một kết hợp của tất cả những điều và những người khác. ”

Với bạn bè: “Nó vẫn là một câu hỏi hay.”

Tôi “Có nó là. Tôi sẽ làm việc trên đó. ”

Vào sáng thứ năm …

Tôi, tìm kiếm thông qua các ứng dụng bằng sáng chế mới: “Sweet!”

Sụp đổ kết quả tương đương

Cảm ơn, Microsoft.

Một ứng dụng bằng sáng chế mới được công bố thứ năm thảo luận về một số các tín hiệu có thể được sử dụng để xác định kết quả hiển thị, và dùng để lọc, ít nhất có thể trong Windows Live Search.

Nó có thể không bao gồm tất cả các tín hiệu được xem xét – một số người có thể là bí mật thương mại.

Thực tiễn tại Google và Yahoo và Ask.com có ​​thể khác nhau.

Nhưng, tất cả các công cụ tìm kiếm đang nỗ lực để tạo ra trải nghiệm người dùng tốt cho những người tìm kiếm sử dụng dịch vụ của họ. Và tất cả trong số họ muốn tránh trùng lặp kết quả làm đầy lên các điểm đầu trên các trang kết quả tìm kiếm. Các ứng dụng bằng sáng chế cung cấp một số cái nhìn sâu sắc vào những gì công cụ tìm kiếm xem xét trong việc lựa chọn các trang cần hiển thị, và để che giấu.

Tôi ngạc nhiên bởi một vài yếu tố, và bởi sự xuất hiện của một cái gì đó tôi tin rằng tôi đã nhìn thấy Matt Cutts gọi là “URLs đẹp.”

Hệ thống và phương pháp để tối ưu hóa kết quả tìm kiếm thông qua các kết quả tương đương sụp đổ
Được phát minh bởi Brett D. Brewer
Giao cho Microsoft
Ứng dụng bằng sáng chế Mỹ 20060248066
Công bố ngày 02 Tháng 11 2006
Nộp: 28 tháng 4 năm 2005

Trừu tượng công ty seo.

Một hệ thống và phương pháp được cung cấp để tối ưu hóa một tập hợp các kết quả tìm kiếm thường được sản xuất để đáp ứng với một truy vấn. Phương pháp này có thể bao gồm phát hiện có hai hoặc nhiều kết quả truy cập nội dung tương đương và lựa chọn một kết quả người sử dụng ưa thích duy nhất từ ​​hai hoặc nhiều kết quả truy cập nội dung tương đương.

Phương pháp bổ sung có thể bao gồm việc tạo ra một tập hợp các kết quả tìm kiếm hiển thị cho người dùng, tập hợp các kết quả tìm kiếm bao gồm cả kết quả người sử dụng ưa thích duy nhất và không bao gồm bất kỳ kết quả khác mà truy cập các nội dung tương đương. Hệ thống có thể bao gồm một cơ chế phát hiện trùng lặp để phát hiện bất kỳ kết quả mà truy cập nội dung tương đương và kết quả cơ chế lựa chọn người sử dụng ưa thích để lựa chọn một trong những kết quả mà truy cập các nội dung tương đương như là kết quả người sử dụng ưa thích.

Vấn đề trùng lặp nội dung

1. Một công cụ tìm kiếm tìm thấy các tài liệu phù hợp với các truy vấn và gán cho họ điểm để xác định thứ tự mà trong đó họ sẽ được hiển thị.

2. Các trang có thể rất có liên quan như kết quả cũng có thể trùng lặp, hoặc gần bản sao của nhau.

. 3 Ví dụ: www.ymca.net và www.ymca.net / index.jsp dẫn đến cùng một nội dung với các URL chuyển hướng đầu tiên thứ hai. Và, www.ymca.com và www.ymca.com / index.jsp có thể là tấm gương của www.ymca.net.

4. Một công cụ tìm kiếm có thể bao gồm tất cả bốn kết quả trong top ten kết quả tìm kiếm cho truy vấn “YMCA”.

5. Đây là một trải nghiệm người dùng xấu, bởi vì nó giữ người tìm kiếm nhìn thấy kết quả khác cũng có thể có liên quan, trên trang đầu tiên của kết quả.

Một lựa chọn Kết quả

Hệ thống được mô tả bao gồm:

* Một trình thu thập mà thăm các trang web, và lập chỉ mục và lưu trữ kết quả trong một hệ thống chỉ số / lưu trữ.

* Xếp hạng các thành phần mà có thể xếp hạng kết quả nằm trong đáp ứng với các truy vấn tìm kiếm.

* Kết quả các thành phần lưu trữ mà có thể có một bộ nhớ cache cho kết quả gần đây được lưu trữ và một hệ thống chỉ số để lưu giữ các kết quả bổ sung.

* Một cơ chế phát hiện trùng lặp đó sẽ phát hiện các kết quả có nội dung trùng lặp. Một kỹ thuật để phát hiện bản sao tham chiếu trong ứng dụng bằng sáng chế liên quan đến việc sử dụng “shingleprints” như được mô tả trong một ứng dụng của Microsoft bằng sáng chế Mỹ, phương pháp để phát hiện trùng lặp và đàn áp.

* Một mô-đun kết quả lựa chọn sẽ quyết định kết quả để hiển thị cho người tìm kiếm, bất kể shingleprints hoặc các phương pháp khác được sử dụng để xác định là bản sao.

Kết quả lựa chọn Mô-đun

Một số bộ phận có thể được bao gồm trong các mô-đun kết quả lựa chọn:

Một truy vấn thành phần xếp hạng độc lập (giống như PageRank, hoặc điểm chất lượng trang, hoặc những người khác, hoặc sự kết hợp của tất cả),
Một thành phần phân tích kết quả,
Một cơ chế lựa chọn mô hình chuyển hướng,
một nhấp chuột thông qua thành phần xác định mức,
Một cơ chế kết quả lựa chọn người dùng ưa thích, và;
Lưu trữ kết quả.
Khi thấy rằng kết quả là bản sao, hoặc rất gần bản sao, những kết quả sẽ được đặt trong kết quả lưu trữ, nhưng các công cụ tìm kiếm sẽ không hiển thị tất cả.

Module Kết quả tuyển chọn sẽ quyết định (thông qua các thành phần phân tích kết quả) đó là “người sử dụng ưa thích lựa chọn” (thông qua các kết quả cơ chế lựa chọn người dùng ưa thích) để hiển thị để đáp ứng với các truy vấn.

Một URL khác nhau có thể được chọn là URL mà công cụ tìm kiếm thực sự sử dụng để điều hướng đến các trang (lựa chọn thông qua các cơ chế lựa chọn mô hình điều hướng).

Một số yếu tố hợp phần Kết quả phân tích Có thể xem xét

* Mở rộng -. Com có ​​thể là một lựa chọn tốt hơn so với lưới -. Nó “kháng cáo” cho người dùng, vì họ hiểu nó

* URL ngắn hơn – “. Com” Trong ví dụ YMCA ở trên, phiên bản sử dụng ưa thích của URL có thể www.ymca.com cả vì phổ biến hơn “. Net” và vì URL www.ymca.com ngắn hơn so với hai “index.jsp” kết quả.

* Các Navigational Lựa chọn mô hình có thể chọn một URL khác nhau – trong khi tìm kiếm được hiển thị www.ymca.com, các liên kết có thể thực sự đi đến www.ymca.com / index.jsp, được lựa chọn bởi các cơ chế lựa chọn mô hình định vị và được lưu trữ trong khu vực kết quả lưu trữ, để tiết kiệm cho người dùng một chuyển hướng. Loại bỏ chuyển hướng dẫn đến kết quả nhanh nhất.

* Các URL có thể chứa từ khóa xuất hiện trong truy vấn. Trong trường hợp đó, URL hoạt động như một bản tóm tắt tài liệu. Vì vậy, www.sfgiants.com có ​​thể là một lựa chọn tốt hơn so với www.mlb.com/sf/id1223/xyx.com khi truy vấn là “sf giants”

* Searcher vị trí hoặc ngôn ngữ – Một bản sao khác nhau có thể được lựa chọn dựa trên nơi tìm kiếm người là từ. Vì vậy, một người tìm kiếm trụ sở tại London có thể thấy www.example.co.uk nơi một người tìm kiếm New York sẽ nhận được www.example.com

* Phổ biến – như thế nào cũng liên quan đến các trang web là các trang web khác có thể được xác định bởi truy vấn thành phần xếp hạng độc lập.

* Bấm vào thông qua tỷ giá có thể được kiểm tra, và các phiên bản của URL với mức cao nhất có thể được xác định bằng cách bấm vào thông qua thành phần quyết định tốc độ, hoạt động dựa trên giả định rằng tỷ lệ nhấp chuột cao chỉ ra rằng người dùng tìm thấy kết quả khả quan.

* Chuyển hướng ít nhất – được xác định bởi mô hình điều hướng.

Cơ chế lựa chọn kết quả người sử dụng ưa thích sử dụng đầu vào từ các truy vấn thành phần độc lập xếp hạng, thành phần phân tích kết quả, và nhấp chuột thông qua thành phần quyết định để chọn một kết quả người sử dụng ưa thích. (Đó là âm thanh tốt hơn nhiều so với thuật ngữ kỹ thuật tôi đã nhìn thấy Matt Cutts sử dụng liên quan đến các URL hiển thị trong các kết quả trong bối cảnh chuyển hướng – “. URL đẹp nhất” các)

Kết luận

Vì vậy, một cái gì đó giống như PageRank không thành vấn đề khi nói đến lọc kết quả tương đương, cũng như vị trí tìm kiếm, tỷ lệ nhấp chuột thông qua, số lượng chuyển hướng, từ được sử dụng trong các URL, chiều dài của URL, lựa chọn loại tên miền, và có thể các tín hiệu khác.

Điều thú vị khác ở đây là một công cụ tìm kiếm có thể hiển thị một URL cho người tìm kiếm, và sử dụng một trong những khác nhau để điều hướng – URLs đẹp cho mọi người, và URL trực tiếp hơn để điều hướng đến trang.