YAHOO NGHIÊN CỨU nhìn MẪU VÀ TÌM KIẾM ENGINE lập chỉ mục

Hiện đã có một số tiền to lớn của sự phát triển , trong những năm qua, các trang web có sử dụng hệ thống quản lý nội dung , chẳng hạn như các blog , các trang web mua sắm thương mại điện tử , wiki , và những người khác . Làm thế nào mà có thể ảnh hưởng đến cách công cụ tìm kiếm chỉ mục các trang của các trang web ?

Một bài báo nghiên cứu của Yahoo mới , trang cấp mẫu phát hiện qua đẳng trương Smoothing (pdf) , thảo luận một số vấn đề tồn tại với rất nhiều trang web sử dụng các mẫu , và một phương pháp sử dụng để cố gắng hiểu nếu một trang đang sử dụng một bản mẫu. Dưới đây là một đoạn trích từ bài báo :

Tăng sử dụng các hệ thống quản lý nội dung để tạo ra các trang web đã làm phong phú đáng kể trải nghiệm duyệt web của người sử dụng ; vô số các liên kết điều hướng trang web , sidebars, thông báo bản quyền , và thời gian cung cấp dễ dàng truy cập và thường xuyên thông tin hữu ích cho người sử dụng .

Tuy nhiên , từ một quan điểm khách quan, các “mẫu” cấu trúc gây ô nhiễm nội dung bởi digressing từ chủ đề chính của bài giảng của trang web công ty seo website
Hơn nữa, họ có thể làm tê liệt thực hiện nhiều mô-đun của công cụ tìm kiếm , bao gồm cả các chỉ số, chức năng xếp hạng , tổng kết , phát hiện trùng lặp , vv

Với nội dung templated hiện chiếm hơn một nửa của tất cả các HTML trên web và tăng trưởng ổn định , bắt buộc công cụ tìm kiếm phát triển các công cụ mở rộng và kỹ thuật để phát hiện đáng tin cậy mẫu trên trang web.

Khoảng vấn đề Templates

Bài viết tập trung khi nhìn vào mã HTML bên dưới các trang , để tìm hiểu làm thế nào để xác định các tính năng mà có thể chỉ ra một trang sử dụng một bản mẫu.

Lý do để làm điều này có thể là để tập trung hơn khi lập chỉ mục một “nội dung” khu vực trên một trang hơn các phần khác có thể lặp lại từ trang này sang trang khi một trang web.

Một vấn đề có thể được giải quyết khi lập chỉ mục trang là các trang web với nội dung tương tự, nhưng các tính năng mẫu khác nhau như điều hướng và tiêu đề và phần chân trang có thể không được xác định là nội dung trùng lặp .

Hai trang có cùng một khu vực templated , nhưng nội dung chính khác nhau cũng có thể được xem như là bản sao mặc dù họ có thể không nên công ty seo.

Mẫu này có thể thực hiện phân loại về nội dung của các trang khó khăn hơn nó phải được, bởi vì việc phân loại các trang có thể đưa vào tài khoản nội dung được tìm thấy trong khu vực templated của trang . Điều này đặc biệt đúng khi nhìn vào nhiều hơn một trang web có chứa nội dung chính nằm trong cùng thể loại, nhưng các thông tin từ các mẫu là rất khác nhau – nói ví dụ xem xét một máy ảnh trên CNET và xem xét lại các máy ảnh cùng trên PCConnection .

Các tính năng mẫu

Một số các đoạn HTML hoặc các tính năng như chuyển hướng sidebars hoặc thông báo bản quyền , mà họ đã xác định trong khi thu thập dữ liệu trên một số trang web (3 , 700 trang web từ chỉ số Yahoo! công cụ tìm kiếm mỗi người đều có ít nhất là 100 trang web ) cho một tập huấn luyện chia sẻ một số đặc điểm chung khi họ nhìn vào những thứ như:

Gần gũi với các lề của trang web,
Số liên kết cho mỗi từ ,
Phần nhỏ của văn bản trong neo,
Kích thước của neo,
Lực kéo của các liên kết có trong nội bộ trang web , và ;
Tỷ lệ của các nhân vật có thể nhìn thấy nội dung HTML