Làm thế nào Công cụ Tìm kiếm Có thể Xác định và xử lý 404s mềm và Đăng nhập-yêu cầu trang

Khi mọi người trong mideastern Hoa Kỳ không nghe thấy một cái gì đó mà ai đó nói rằng , họ có thể nói “excuse me ” để yêu cầu người mà họ đang có một cuộc trò chuyện với lặp lại những gì họ vừa nói. Nếu bạn đang có một cuộc trò chuyện trong miền Nam Hoa Kỳ và bạn nói “excuse me” để có được một người nào đó lặp lại chính mình , nó có thể gợi lên một cái nhìn trống rỗng ( Tôi đã nhìn thấy nó).

Giao tiếp phi ngôn ngữ mà dường như không phù hợp với tin nhắn gửi với các từ cũng có thể gây nhầm lẫn và hiểu lầm ( ở đó , quá).

Nhiều trang web được thiết lập không chính xác , trong một cách mà khi một người truy cập hoặc một chương trình công cụ tìm kiếm thu thập dữ liệu cố gắng để đạt được một URL không tồn tại trên trang web và được chuyển từ URL đó không thể truy cập đến một trang lỗi chuyên dụng hiển thị cho người truy cập 404 ( không tìm thấy) hoặc 403 ( cấm ) hoặc 5xx ( lỗi server) thông báo trên màn hình của họ , thông điệp trong tiêu đề từ máy chủ của trang web có thể là một ” 200 ” tin nhắn ok, mà chỉ ra rằng đó không phải là một vấn đề – ngay cả khi có . Một số trang chỉ có thể tiếp cận tạm thời , giống như khi một cơ sở dữ liệu có thể xuống . Khi một lỗi máy chủ cho thấy đối với những người , những tin nhắn được gửi từ máy chủ không phải là một 200 (ok) hoặc tin nhắn .

Đôi khi du khách được chuyển hướng từ các URL không thể truy cập tới chính của trang web là tốt.
Đó là loại thông tin nhầm lẫn tạo ra sự nhầm lẫn và có thể có nghĩa là trang không tồn tại ở các URL hoặc các trang có thể đã được lấy ra từ một trang web vô tình gõ sai hoặc miswritten có thể được thêm vào hoặc lưu giữ trong chỉ số công cụ tìm kiếm của , mặc dù các trang không nên được bao gồm hay cần được loại bỏ . Và có thể sẽ được loại bỏ nếu thông điệp 404 hoặc 403 hay 5xx chính xác đã được đưa trở lại vào một công cụ tìm kiếm.

Một số liên kết khác có thể được tìm thấy trên các trang web có thể trỏ đến trang mà không phải là acccessible trừ khi ai đó đăng nhập vào một trang web, và nếu họ không phải là, một chuyển hướng có thể đưa họ đến một trang đăng nhập hoặc đến một trang nói chúng cho phép đó là cần thiết để xem trang. Và các trang ở phía bên kia của chuyển hướng cũng có thể gửi 200 (ok) thông báo về một công cụ tìm kiếm , mà không thể đăng nhập . Các liên kết trỏ đến trang mà cũng không nên được bao gồm trong chỉ số công cụ tìm kiếm của .

Bởi vì một công cụ tìm kiếm nhận được 200 (ok) thông báo, nó có thể điều trị các trang như thể họ là các trang web sống thực tế .

Khi một khách truy cập xem một trang nói với họ đã có một lỗi 404, nhưng thông điệp tiêu đề gửi từ máy chủ cho thấy 200 (ok) trang , những lỗi đã được gọi là ” mềm 404″ trang .

Một ứng dụng bằng sáng chế mới từ Yahoo cho chúng ta biết mềm trang 404 lỗi tồn tại với số lượng lớn trên Web:

Theo một bài viết, ” Sic gloria quá cảnh telae : hướng tới một sự hiểu biết sâu của web ” , bởi Z Bar- Yossef et al. (2004) , ước tính tài khoản đó 404s mềm trong hơn hai mươi lăm phần trăm của các liên kết chết trên web. Bài viết Z Bar- Yossef đề xuất một phương pháp để phát hiện xem một trang web cụ thể là một phần mềm trang 404 .

Trong một thế giới lý tưởng Wide Web, các thông báo lỗi bên phải nên được gửi thông qua một thông báo lỗi máy chủ, và hiểu lầm nên tránh. Chủ sở hữu trang web nên kiểm tra để đảm bảo rằng loại sự hiểu lầm không xảy ra. Nhưng, như các báo ở trên cho thấy, loại mềm 404 vấn đề xảy ra thường xuyên . Đó là vì lợi ích của chủ sở hữu trang web và công cụ tìm kiếm để tránh những vấn đề như thế.

Các ứng dụng bằng sáng chế sẽ cố gắng để xác định lỗi soft 404 , chuyển hướng để đăng nhập trang, và các vấn đề tương tự khác bằng cách phân nhóm lại với nhau các trang web từ một trang web chia sẻ nhiều điểm tương đồng dựa trên “đặc điểm về nội dung của các trang web ” trong mỗi của những cụm .

Sau khi các trang được nhóm lại với nhau như thế dựa trên nội dung của họ , quá trình được mô tả trong bằng sáng chế nộp hồ sơ cho chúng ta biết nó sẽ cho một số liệu liên quan đến một sự giống nhau giữa các URL Đối với mỗi trang trong mỗi cụm, và những điểm tương đồng dựa trên nội dung và cấu trúc URL có thể được sử dụng để xác định ” các lớp học tương tự ” cho các URL của các trang trên một trang web . Ví dụ, một lớp học như vậy có thể là một “mềm lớp 404 tương tự ”

Các ứng dụng bằng sáng chế là :

Không có giám sát phát hiện trang web Tương ứng với một lớp tương đồng
Được phát minh bởi Mahesh Tiyyagura
Giao cho Yahoo
Ứng dụng bằng sáng chế Mỹ 20090157607
Công bố ngày 18 tháng 6 năm 2009
Nộp ngày 12 tháng 12 năm 2007

Ngoài lớp học cho mềm trang lỗi 404 , các lớp khác cũng có thể được xác định , chẳng hạn như cho các trang chỉ : công ty seo

Ra khỏi cổ phiếu
chương trình ngoại lệ
Cho phép từ chối và
yêu cầu đăng nhập
Các bò của các trang web thường xảy ra độc lập với việc lập chỉ mục nội dung trên các trang này. Trước khi các trang được lập chỉ mục, một số phân tích về nội dung và URL được tìm thấy trên một trang web có thể diễn ra , bao gồm cả một quá trình như được mô tả trong bằng sáng chế nộp đơn này , có thể xác định các lớp học tương tự của các trang web.

Tại sao một công cụ tìm kiếm có thể muốn để Xác định 404s mềm công ty seo uy tín

Một số lý do tại sao một công cụ tìm kiếm có thể muốn xác định xem có mềm 404 trang trên các trang web có thể bao gồm :

1) Một công nhận rằng sự mềm mại 404 trang và các URL của họ không liên quan đến thông tin hữu ích , có nghĩa là một công cụ tìm kiếm sẽ không cần phải chỉ những trang đó.

2) Giảm (hoặc mục nát ) một ” tươi mát ” giá trị cho các trang liên kết với những phần mềm 404 trang, có những trang có thể đã đạt được dựa trên một thuật toán xếp hạng dựa trên liên kết . Nói cách khác, các trang web có liên kết chết có thể xếp hạng cao hơn về ” sự tươi mát. ” Nếu một công cụ tìm kiếm không nhận ra rằng một hoặc nhiều liên kết trên một trang điểm để mềm 404 trang, nó có thể xếp hạng trang cao hơn dựa trên một yếu tố tươi mát . Xác định 404s mềm có nghĩa là một công cụ tìm kiếm sẽ không đưa ra một trang xếp hạng cao dựa trên sự tươi mát.

3) Đối với các trang trên các trang web có thể hiển thị quảng cáo từ các công cụ tìm kiếm, nơi một mềm 404 được hiển thị hoặc một yêu cầu để đăng nhập, hoặc một lớp học tương tự mà không cung cấp thông tin hữu ích , nộp bằng sáng chế cho chúng ta biết người ta cho rằng du khách khả năng muốn để điều hướng nhanh chóng đi từ các trang như vậy. Chúng tôi cũng biết rằng quảng cáo chung chung hơn có thể được hiển thị trên các trang, hoặc quảng cáo chiếm nhiều màn hình bất động sản so với các trang khác trên một trang web.

Nộp bằng sáng chế cung cấp một số chi tiết về cách trang có thể được nhóm lại với nhau dựa trên nội dung của họ , và làm thế nào có thể URL được xác định tương tự. Giấy cú pháp Clustering của Web được nhắc đến như một ví dụ về một nhóm và kỹ thuật shingling mà có thể được sử dụng, như là quá trình được mô tả trong bằng sáng chế cho phương pháp Clustering DataObjects Giống như chặt chẽ .

kết luận

Ứng dụng bằng sáng chế này từ Yahoo mô tả một quá trình có thể được sử dụng khi một trang web không được thiết lập đúng cách để giao tiếp những thứ như một 404 ( không tìm thấy ) thông báo máy chủ thích hợp khi một người truy cập có thể thấy một thông báo 404 trên một trang mà họ xem , nhưng trình duyệt của họ và các chương trình thu thập dữ liệu công cụ tìm kiếm được một 200 (ok) thông báo thay vì .

Đó là khuyến cáo rằng chủ sở hữu trang sửa chữa các vấn đề như 404s mềm hơn là dựa vào các quy trình như những mô tả trong bằng sáng chế này nộp đơn . Đó là vì lợi ích của công cụ tìm kiếm và các trang web chủ sở hữu để reecognize khi truyền đạt sai thông như 404s mềm xảy ra, nhưng nó thậm chí còn tốt hơn nếu thông tin sai đã không được gửi ở nơi đầu tiên .