Xử lý nội dung trùng lặp trong SEO

Một số bằng sáng chế từ các công cụ tìm kiếm cung cấp hình chi tiết như thế nào những công cụ tìm kiếm có thể thực hiện một số chức năng cốt lõi đằng sau cách họ làm việc . Bởi ” chức năng cốt lõi , ” Tôi có nghĩa là một số điều cơ bản như trang bò , lập chỉ mục các trang , và hiển thị các kết quả tìm kiếm.

Ví dụ, cuối tháng mười hai , tôi đã viết một bài có tiêu đề Google Bằng sáng chế trên Anchor Text và Crawling giá khác nhau , về một bằng sáng chế của Google nộp trong năm 2003 đã cho chúng tôi xem làm thế nào các công cụ tìm kiếm thu thập thông tin các trang web, và thu thập các địa chỉ web, hoặc URL , của trang mà nó đi qua .

Các bằng sáng chế các bài được là Neo tag lập chỉ mục trong một hệ thống thu thập web , và nó cho thấy cách Google có thể xác định mức độ thường xuyên nó có thể truy cập hoặc xem lại các trang nhất định , bao gồm cả một số trang bò hàng ngày, và những người khác ngay cả trên một thời gian thực hoặc gần thực cơ sở thời gian – mỗi vài phút trong một số trường hợp . Trong khi có được một rất nhiều thảo luận trong vài tháng qua trực tuyến về thời gian thực lập chỉ mục các trang web, nó là thú vị để lưu ý rằng các bằng sáng chế đã được orginally nộp trong năm 2003.

Rằng bằng sáng chế cũ cũng được các chủ đề như làm thế nào một trình thu thập công cụ tìm kiếm có thể xử lý tạm thời (302) chuyển hướng khác với thường trực (301) chuyển hướng, bằng cách ghi nhận và đôi khi sau khi chuyển hướng tạm thời ngay lập tức ( để thực hiện một quyết định như những gì trang để hiển thị trong tìm kiếm kết quả ) , và thu thập các URL liên quan đến chuyển hướng vĩnh viễn và đưa chúng vào một hàng đợi nơi họ có thể được giải quyết sau – lên đến một tuần hoặc nhiều hơn sau đó.

Nó thảo luận về văn bản liên kết xung quanh và neo văn bản tìm thấy trong thu thập dữ liệu của một trang có thể được sử dụng như các chú thích cho các liên kết , và chi tiết một số thuộc tính mà các công cụ tìm kiếm có thể được xem xét khi xác định việc liên kết văn bản với các liên kết gần đó.

Các bằng sáng chế cũng được một chủ đề rất quan trọng – làm thế nào để xác định nội dung trùng lặp mà nó có thể đi qua khi thu thập các trang web, và làm thế nào để xác định địa chỉ tốt nhất, hoặc URL kinh điển cho nội dung. Điều này là rất quan trọng đối với một công cụ tìm kiếm – nếu cùng một nội dung được tìm thấy ở nhiều trang, một công cụ tìm kiếm có thể quyết định rằng nó không muốn dành thời gian và nguồn lực lập chỉ mục và hiển thị nhiều hơn một nguồn cho cùng một nội dung .

Một bằng sáng chế của Google liên quan đã được cấp trong tuần này mà đi vào chi tiết hơn về cách các công cụ tìm kiếm có thể xử lý nội dung trùng lặp . Nó có một vài phát minh với các bằng sáng chế về neo văn bản, và đã được nộp vào cùng một ngày . Chúng tôi đang nói với một phần đầu của mô tả cho điều này bằng sáng chế mới được cấp lý do tại sao Google có thể tìm kiếm nội dung trùng lặp trong thu thập dữ liệu của các trang web :

Trong khi đó, nó ngày càng trở nên phổ biến hơn rằng có rất nhiều bản sao của một tài liệu chia sẻ nội dung giống hệt nhau , mặc dù chúng có thể được lưu trữ vật lý tại máy chủ web khác nhau .

Một mặt , các bản sao của tài liệu được hoan nghênh vì chúng làm giảm khả năng tắt một máy chủ web một sẽ làm cho các tài liệu trên máy chủ web không có sẵn , nhưng mặt khác , họ có thể làm tăng đáng kể khối lượng công việc và giảm hiệu quả của một công cụ tìm kiếm trên cả hai mặt trước và kết thúc trở lại , nếu không được xử lý một cách thích hợp .

Ví dụ, trở lại vào cuối của một công cụ tìm kiếm , nếu bản sao bản sao của một tài liệu tương tự đang được coi là tài liệu khác nhau không liên quan với nhau về nội dung của họ , điều này sẽ gây ra các công cụ tìm kiếm để lãng phí tài nguyên , chẳng hạn như không gian đĩa, bộ nhớ, và / hoặc băng thông mạng, để xử lý và quản lý các văn bản trùng lặp .

Trên mặt trước , giữ lại văn bản trùng lặp sẽ gây ra các công cụ tìm kiếm phải tìm kiếm thông qua các chỉ số lớn và sử dụng sức mạnh xử lý hơn để xử lý truy vấn . Ngoài ra, kinh nghiệm của người dùng có thể bị ảnh hưởng nếu nội dung đa dạng nên được bao gồm trong các kết quả tìm kiếm được thế bằng văn bản trùng lặp .

Vì những lý do , nó sẽ được mong muốn phát triển một hệ thống và phương pháp phát hiện văn bản trùng lặp thu thập thông tin một công cụ tìm kiếm trước khi công cụ tìm kiếm làm cho bất kỳ nỗ lực hơn nữa để xử lý các tài liệu này .

Nó cũng sẽ là mong muốn để quản lý các văn bản trùng lặp một cách hiệu quả như vậy mà các công cụ tìm kiếm hiệu quả có thể cung cấp các nội dung phù hợp nhất và đáng tin cậy khi trả lời một truy vấn mà tập hợp kết quả bao gồm bất kỳ các văn bản trùng lặp .

Bằng sáng chế là :

Phát hiện trùng lặp tài liệu trong một hệ thống thu thập web
Được phát minh bởi Daniel Dulitz , Alexandre A. Verstak , Sanjay Ghemawat , Jeffrey Dean A.
Giao cho Google
US Patent 7.627.613
Cấp 01 tháng 12 năm 2009
Nộp : 03 tháng 7 năm 2003

trừu tượng

Văn bản trùng lặp được phát hiện trong một hệ thống web thu thập . Khi nhận được một tài liệu mới được thu thập thông tin , một tập hợp các tài liệu, nếu có , chia sẻ cùng một nội dung như các tài liệu mới được thu thập thông tin được xác định. Thông tin nhận dạng tài liệu mới được thu thập và tập hợp lựa chọn các tài liệu được sáp nhập vào thông tin nhận dạng một tập mới của các tài liệu .

Văn bản trùng lặp được bao gồm và loại trừ ra khỏi các thiết lập mới các văn bản dựa trên một truy vấn số liệu độc lập cho mỗi tài liệu như vậy. Một tài liệu đại diện duy nhất cho các thiết lập mới các văn bản được xác định phù hợp với một tập hợp các điều kiện được xác định trước .

Mô tả của cổ phiếu bằng sáng chế nhiều chi tiết được tiết lộ trong các bằng sáng chế được cấp trước đây về cách Google có thể xử lý bò và neo văn bản , mô tả ví dụ như thế nào một số URL cho các trang web được thu thập thông trên cơ sở định kỳ trong một định dạng vòng tròn trên ngày hoặc vài tuần hoặc còn , một số URL được thu thập thông hàng ngày, và URL khác được thu thập thông nhiều lần trong một ngày.

Các tài liệu trùng lặp phát hiện bằng sáng chế không tập trung quá nhiều vào neo văn bản, nhưng thay vì cung cấp thêm chi tiết về cách một bộ lọc nội dung từ các công cụ tìm kiếm có thể làm việc với một máy chủ nội dung trùng lặp , hoặc Dupserver như nó được gọi là trong sáng chế. Bước đầu tiên mà các công cụ tìm kiếm có thể mất sau khi nhận được một trang mới được thu thập thông tin là để tham khảo ý kiến ​​các Dupserver để xem nếu nó là một bản sao của tài liệu khác, và nếu có, để xác định phiên bản có thể là phiên bản kinh điển.

Bằng sáng chế này có thể không bao gồm tất cả các loại nội dung trùng lặp mà Google có thể tìm thấy – nhiều trang web chứa nội dung trùng lặp có thể khác nhau trong một số cách , chẳng hạn như bao gồm các mẫu rất khác nhau đầy với nội dung soạn sẵn như tiêu đề và cuối trang và sidebars rằng sự thay đổi từ một URL khác. Hoặc các trang có thể chứa một số nội dung trùng lặp và một số nội dung độc đáo , hoặc nội dung trùng lặp từ nhiều hơn một nguồn. Các bằng sáng chế không xác định loại nội dung trùng lặp nó che , và cũng cho chúng ta biết về nó như thế nào có thể xử lý chuyển hướng và nội dung trùng lặp kết hợp với những người:

Văn bản trùng lặp là những tài liệu có nội dung giống hệt nhau đáng kể, và trong một số biểu diễn nội dung hoàn toàn giống nhau, nhưng địa chỉ tài liệu khác nhau.

Theo đó, có ít nhất ba tình huống trong đó văn bản trùng lặp được gặp phải một trình thu thập web :

hai trang , bao gồm bất kỳ sự kết hợp của trang web thường xuyên (s) và trang chuyển hướng tạm thời (s) , là những tài liệu trùng lặp nếu họ chia sẻ nội dung trang tương tự, nhưng có các URL khác nhau ;

hai trang chuyển hướng tạm thời là văn bản trùng lặp nếu họ chia sẻ URL cùng một mục tiêu , nhưng có các URL nguồn khác nhau , và

một trang web thông thường và một trang chuyển hướng tạm thời là văn bản trùng lặp nếu URL của trang web thông thường là URL mục tiêu của trang chuyển hướng tạm thời hoặc nội dung của các trang web thông thường là giống như của trang chuyển hướng tạm thời.

Một trang chuyển hướng vĩnh viễn không được trực tiếp tham gia phát hiện tài liệu trùng lặp bởi vì các trình thu thập được cấu hình không để tải về các nội dung của trang mục tiêu . Tuy nhiên , một trang web thông thường hay một trang chuyển hướng tạm thời có thể chứa một URL trong nội dung của nó , mà sẽ xảy ra là URL nguồn của một trang chuyển hướng vĩnh viễn . Vì vậy , bên cạnh việc phát hiện văn bản trùng lặp , các Dupserver cũng được giao nhiệm vụ với công việc thay thế các URL nguồn nhúng vào trong nội dung của một trang web thông thường hay một trang chuyển hướng tạm thời với các URL mục tiêu tương ứng của chuyển hướng vĩnh viễn được biết đến (ví dụ , được lưu trữ trong) Dupserver .

Các chi tiết về các bằng sáng chế một số phương pháp khác nhau trùng lặp nội dung phát hiện rằng nó có thể sử dụng , chẳng hạn như dùng dấu vân tay của nội dung tìm thấy trên các trang để phù hợp với nội dung từ trang này sang trang khác, và làm thế nào thông tin có thể được lưu trữ trong nội dung bảng in ngón tay , và lựa chọn các URL kinh điển cho nội dung.

Một đọc rất nhanh chóng của các bằng sáng chế có thể dẫn một người nào đó nghĩ rằng URL có PageRank cao nhất có thể là phiên bản được lựa chọn như URL kinh điển cho nội dung , nhưng các bằng sáng chế cho chúng ta biết đôi khi ” một trang kinh điển của một lớp tương đương không nhất thiết phải các tài liệu có số điểm cao nhất (ví dụ , các trang xếp hạng cao nhất hoặc số liệu truy vấn độc lập khác ) . ”

Chúng tôi được cho một ví dụ về điều này – Google có thể đăng nhập tất cả các trang mà nó tìm thấy với nội dung trùng lặp , và khi nó đi qua một bản sao mới , nó có thể nhìn vào PageRank (hoặc một số truy vấn xếp hạng độc lập khác ) , và thấy rằng nếu URL mới có một PageRank cao hơn bởi một số lợi nhuận signficant trước khi nó có thể đặt tên URL mới như URL kinh điển. Nó có thể là các yếu tố khác được xem xét là tốt, mặc dù các bằng sáng chế không rõ ràng tên họ .

kết luận

Mặc dù bằng sáng chế này trên nội dung trùng lặp , và các bằng sáng chế liên quan trên neo văn bản đã được đệ trình hơn 6 năm trước đây , họ có giá trị chi tiêu một số thời gian với vì cách mà họ đặt ra chi tiết những cách mà Google có thể thu thập thông tin các trang web, và thu thập và xử lý thông tin từ những trang đó. Nếu bạn quan tâm đến cách làm việc công cụ tìm kiếm , hai tài liệu này cung cấp một số hiểu biết thú vị vào các vấn đề trong quá trình thu thập dữ liệu của các trang web , chẳng hạn như :

Làm thế nào Google có thể xử lý chuyển hướng tạm thời và vĩnh viễn,
Làm thế nào Google xác định giá thu thập dữ liệu khác nhau cho các trang ,
Làm thế nào Google có thể quyết định URL với nội dung trùng lặp có thể được coi là URL Canonical,
Làm thế nào văn bản xung quanh các liên kết có thể được lựa chọn để hoạt động như các chú thích cho các liên kết ,
Làm thế nào neo văn bản chỉ để sao chép các tài liệu có thể được liên kết với các phiên bản kinh điển của tài liệu.