GIẢI QUYẾT các đường dẫn khác nhau với văn bản tương tự (Bụi)

URL khác nhau, trang tương tự dịch vụ seo

Có các trang web nơi (đáng kể) cùng một trang có thể được tìm thấy dưới khác nhau Locators Unform tài nguyên (URL) hoặc địa chỉ.

Ví dụ:

http://www.google.com/news = http://news.google.com/
http://www.nytimes.com = http://nytimes.com
Khi điều này xảy ra, có thể có một số kết quả tiêu cực từ quan điểm của cả hai công cụ tìm kiếm và các chủ sở hữu trang web, chẳng hạn như:

Công cụ tìm kiếm phải dành nhiều thời gian cố gắng để truy cập mỗi phiên bản của trang
Công cụ tìm kiếm có thể đối xử với nhau như trang trang khác nhau nhưng trùng lặp.

Đó là khuyến cáo rằng loại hình này trùng lặp của các trang dưới địa chỉ khác nhau thể tránh được, nếu có thể. Chủ sở hữu trang web có thể cố gắng giảm bớt hoặc hạn chế khả năng rằng các URL khác nhau với cùng một (hoặc tương tự) nội dung xuất hiện trên trang web của họ. Những gì có thể làm công cụ tìm kiếm để hạn chế hoặc ngăn chặn các loại vấn đề?

Một giải pháp có thể cho cụ tìm kiếm?

Ví dụ của tôi là những người đơn giản, nhưng có những tình huống phức tạp hơn nơi nhiều địa chỉ có thể tồn tại cho cùng một trang. Một thuật toán để giúp công cụ tìm kiếm hiểu khi cùng một (hoặc rất tương tự) trang đang được trưng bày trong các URL khác nhau là trọng tâm của một poster trình bày tại Hội nghị WWW2006 tháng vừa qua.

Bản tóm tắt dài poster, Đừng Bò trong Bụi: URL khác nhau với các dòng chữ tương tự, xem xét một số các phiên bản phức tạp hơn, và mô tả một thuật toán có thể giúp công cụ tìm kiếm nhận ra những trang trước khi quý khách đến thăm họ, do đó chỉ có một là thu thập thông tin và có thể lập chỉ mục. Các tác giả Uri Schonfeld, Ziv Bar-Yossef, và Idit Keidar. (Lưu ý: Ziv Bar-Yossef gia nhập Google vào tháng trước.)

Dưới đây là một đoạn trích từ các đoạn giới thiệu vào tài liệu đó công ty seo website

Nhiều trang web xác định liên kết, chuyển hướng, hoặc bí danh, chẳng hạn như cho phép các biểu tượng dấu ngã (“~”) để thay thế một chuỗi như “/ người”, hoặc “/ người sử dụng”. Một số trang web cho phép các công ước khác nhau cho “htm.” Tập tin mở rộng và “html.”; những người khác cho phép nhiều tên tập tin chỉ mục mặc định – “index.html” và “tex2html12”. Một máy chủ web duy nhất thường có nhiều tên DNS, và bất kỳ có thể được gõ vào URL. Như các ví dụ trên minh họa, bụi thường không phải ngẫu nhiên, mà là xuất phát từ một số nguyên tắc chung, mà chúng ta gọi là quy tắc Bụi, chẳng hạn như “~” $ rightarrow $ “/ người”, hoặc “/ default.html” ở cuối URL có thể được bỏ qua.

Hơn nữa, các quy tắc, Bụi thường không phổ quát. Nhiều người hiện vật của một máy chủ web cụ thể thực hiện. Ví dụ, URL của các trang tự động tạo ra thường bao gồm các thông số; mà các thông số ảnh hưởng nội dung của trang là đến phần mềm tạo ra các trang. Một số trang web sử dụng công ước của mình; ví dụ, một trang web diễn đàn chúng tôi nghiên cứu cho phép truy cập vào số câu chuyện “num” trên trang web của mình cả hai thông qua URL “http://domain/story?id=num” và thông qua “http://domain/story_num”. Trong bài báo này, chúng tôi tập trung vào việc phát hiện quy tắc Bụi trong một trang web nhất định. Chúng tôi không biết về bất kỳ công việc trước đó giải quyết vấn đề này.

Trang khác có thể được xác định là tương tự là những nơi mà nội dung chính tại một URL, và cùng một nội dung với một số thông tin bổ sung (như blog ý kiến) có thể được xem tại địa chỉ khác.

Xác định Bụi

Poster lưu ý rằng công cụ tìm kiếm cố gắng xác định Bụi với một số đơn giản và một số phương pháp phức tạp, ví dụ:

“Http://” có thể được thêm vào các liên kết được tìm thấy trong bò, nơi mà nó là mất tích.
Dấu slashes sử dụng trong các liên kết (http://www.example.com/) có thể được gỡ bỏ.
Tóm tắt băm dựa trên nội dung trang (shingles) có thể được so sánh sau khi trang được lấy.
Một thuật toán những gì các giấy giới thiệu là, các tác giả đề cập đến như DustBuster, trông các trang web cá nhân, và cố gắng để xem nếu có những quy tắc được tuân thủ trên các trang web mà nội dung tương tự đang được hiển thị trong các URL khác nhau.

Ví dụ, trong trang web nơi mà “câu chuyện id =?” Có thể được thay thế bằng “story_”, chúng tôi có khả năng nhìn thấy trong danh sách URL nhiều cặp khác nhau của URL mà chỉ khác nhau ở chuỗi này; chúng ta nói rằng đó là một cặp URL là một thể hiện của “câu chuyện? id =” và “story_”. Tập hợp tất cả các trường hợp của một quy tắc được gọi là sự hỗ trợ của luật. Do đó, nỗ lực đầu tiên của chúng tôi để tìm ra Bụi là để tìm kiếm các quy định có hỗ trợ lớn.

Nó cũng cố gắng để hiểu trường hợp ngoại lệ có thể những quy tắc. Poster xác định những chi tiết hơn, và nó có giá trị cố gắng để hiểu các ví dụ, trường hợp ngoại lệ, và cách tiếp cận mà họ sử dụng.

Cho phép các công cụ tìm kiếm quyết định nào URL là tốt

Có một vấn đề mà tôi có với phương pháp này, và đó là các thuật toán quyết định các trang cần index và giữ, và để tránh – và không lấy để lập chỉ mục.

Điều này có thể là một vấn đề, ví dụ, đối với một trang câu chuyện tin tức hiện có tại các URL khác nhau, với một bình luận hiển thị và khác không hiển thị chúng. Hoặc một trang sản phẩm, mà có thể được hiển thị hai lần – một lần với, và một lần mà không đánh giá người sử dụng. Hoặc một tập hợp các trang năng động, nơi một số phần nhỏ của trang thay đổi để đáp ứng với đó liên kết được nhấp vào.

Nhưng các trang có thể có khó khăn được lập chỉ mục nào, hay lọc trong khẩu phần của một trang, nếu một phương pháp tiếp cận shingling được sử dụng, và xác định rằng họ là những trang tương tự hoặc tương tự đáng kể.

Dù bằng cách nào, nếu một thuật toán như DustBuster đã được sử dụng, hoặc cách tiếp cận khác, nó vẫn là công cụ tìm kiếm quyết định của các trang tương tự như nó có thể bao gồm trong chỉ mục của nó, và đó sẽ không. Nếu bạn có thể tránh bụi, nó không phải là một ý tưởng tồi để thử.