Tìm kiếm chỉ mục CHẾT HẾT: IBM sáng chế khám phá NÚT treo lủng lẳng

Một người nào đó là cách nhấp vào ngẫu nhiên gần về liên kết thông qua trang web của bạn , và nhìn vào và đọc Những trang . Họ đến một trang Đó Có Không có liên kết trên nó . Nơi nào họ đi tiếp theo? Những loại tác động làm Những trang – có trên bảng xếp hạng cho các trang web của bạn .

Lơ lửng nút và nút trong trang web xếp hạng

Nhiều hệ thống xếp hạng sử dụng đồ thị để Đại diện và phân tích các cấu trúc thông tin . Trên các trang web có thể được coi là ” nút ” và các liên kết giữa các trang như ” cạnh . ” Những nút xếp hạng , hoặc các trang , Trong Những đồ thị bằng chất lượng hay tầm quan trọng của họ có thể là một cách tiếp cận có giá trị.

PageRank là một trong những hệ thống đó sử dụng các ý tưởng của các nút và các cạnh để trang trên web ghi bàn, và nghệ thuật của PageRank có thể aussi áp dụng cho các điểm nút trong các loại của các mạng.

Một bằng sáng chế từ IBM nỗ lực để Cung cấp một số cải tiến cho thuật toán PageRank , và các thông tin tương tự khác đồ thị Khi nhìn vào một loại cụ thể của nút, được biết đến như một ” lơ lửng nút . ”
Đôi khi các nút Hoặc ngoài không có liên kết đến các trang khác , hoặc không có sẵn outlinks của họ cho một thứ hạng xử lý. Khi đó xảy ra , Những nút được gọi là ” lơ lửng nút ” .

Các nút lủng lẳng bằng sáng chế mới Cấp khai thác sâu , và Cung cấp một danh sách các trang đó có thể được xử lý bằng công cụ tìm kiếm như lơ lửng nút. Một nút có thể được treo lủng lẳng cho một loạt các lý do :

Công cụ tìm kiếm biết về trang tháng , nhằm mục đích nó có thể chưa – được – đã không thu thập thông tin .
Trang thực sự có thể – không có outlinks .
Trang có thể được liên kết với , mục tiêu không được phép từ bò của tập tin robots.txt có .
Một liên kết tới trang có thể tồn tại, trang mục tiêu có thể – đã bị xóa bởi công nghệ thông tin tác giả .
Postscript hoặc các tập tin PDF , tất cả mà hiếm khi có nhúng outlinks .
Nếu trang yêu cầu xác thực .
Các trang trở lại thông báo lỗi ( thông báo lỗi tiêu đề http trong các lớp 400 và 500 ) tại thời điểm thu thập dữ liệu , cho thấy dấu hiệu đó Một trang không có sẵn.
Vấn đề với Dangling nút

Nộp bằng sáng chế nhìn vào những gì mà họ gọi là vấn đề với cách các nút lủng lẳng được xử lý .

Điều trị giống hệt nhau – Phương pháp tiếp cận thông thường để vẽ đồ thị kỹ thuật xếp hạng thường đối xử với tất cả các loại nút lơ lửng giống nhau , và loại bỏ các nút lơ lửng từ một đồ thị trước khi tính toán và bảng xếp hạng Sau đó, thêm các nút lủng lẳng trở lại vào phân tích xếp hạng đồ thị. thấy :

Bảng xếp hạng PageRank trích dẫn : Đưa để các trang web ”
Khai thác cấu trúc khối của các trang web để tính toán PageRank (pdf) .
Loại bỏ các nút Dangling – Một đồ thị thông thường xếp hạng kỹ thuật Loại bỏ các nút lủng lẳng Hoàn toàn . thấy :

Những gì bạn có thể làm với một trang web trong túi của bạn ?
Tính hiệu quả của PageRank
Các nhà sáng chế được liệt kê trong bằng sáng chế này cho chúng tôi biết đó ” Loại bỏ các nút lủng lẳng Hoàn toàn làm lệch kết quả trên các nút không lủng lẳng Hơi kể từ khi outdegrees từ các nút không lủng lẳng được điều chỉnh để phản ánh các Thiếu liên kết để treo lủng lẳng nút. ”

Web Crawling – Những phương pháp tiếp cận thông thường để xếp hạng với các nút lủng lẳng không tài khoản cho các loại treo lủng lẳng nút. Sự hiểu biết các loại khác nhau của các nút luận án lủng lẳng Có thể hữu ích Khi quyết định này cần phải được thực hiện hút sự tham gia trình thu thập web và quyết định về Tất cả mà liên kết đến các trang web lơ lửng nên trở Theo sau , và làm thế nào để chỉ định cấp bậc để treo lủng lẳng Những trang web. thấy :

Thích nghi On-Line trang Tầm quan trọng tính toán
Hiệu quả thu thập thông qua URL đặt hàng
Nút Rot – Trang đôi khi được xóa. Khi một trang bị xóa , liên kết đến điểm mà nó sẽ trở thành “bị phá vỡ . ” Sự tồn tại của liên kết bị hỏng trên một trang có thể được xem là một ” dấu hiệu của tiêu chuẩn thấp, chúng tôi chia sẻ công nghệ thông tin của tác giả. ” URL trang bị xóa có thể được coi là một nút lủng lẳng , và trang liên kết đến nó có thể được xem như ít có giá trị. thấy :

Liên kết thối hạn chế tính hữu dụng của tài liệu giáo dục dựa trên web trong hóa sinh và sinh học phân tử
Sự phân rã và thất bại của tài liệu tham khảo web
Bằng sáng chế của IBM xếp hạng được treo lủng lẳng nút

Các bằng sáng chế cho chúng ta biết đó Một hệ thống là cần thiết để xếp hạng các nút lơ lửng trong một đồ thị , và điều chỉnh bảng xếp hạng cho một cái gì đó đó họ gọi là ” trang hình phạt “, đó là các trang web có liên kết đến các trang trở lại thông báo lỗi Khi một trình thu thập đến thăm và gửi thông tin sao một chỉ số công cụ tìm kiếm .

Hệ thống và phương pháp để xếp hạng các nút trong một mạng
Được phát minh bởi Nadav Eiron , Kevin Tuyết McCurley , và John Anthony Tomlin
Giao cho IBM
US Patent 7.251.654
Cấp ngày 31 tháng 7 2007
Nộp : 15 Tháng Năm 2004

trừu tượng

Một hệ thống xử lý trang web lủng lẳng lơ lửng xếp các trang web trên web.

Hệ thống xếp hạng treo lủng lẳng các trang web chất lượng cao đó không thể được thu thập bởi một trình thu thập .

Ngoài ra, hệ thống Điều chỉnh để trừng phạt các bậc treo lủng lẳng các trang web đó trả lại lỗi Khi liên kết treo lủng lẳng trên các trang web được thu thập thông .

Cung cấp một bằng cấp treo lủng lẳng cho các trang web, hệ thống hiện nay Cho phép tập trung nguồn lực trên bò treo lủng lẳng Những trang web mà – có thứ hạng cao nhất trong khu vực hiện uncrawled .

Hệ thống Hoạt động tại địa phương vào các trang web lủng lẳng , Cung cấp quyết định hiệu quả của các cấp cho các trang web lơ lửng. Hệ thống phân biệt đối xử chống lại một cách rõ ràng các trang web trên Cơ sở Dù Họ chỉ để trang hình phạt , tức là , các trang đó trả lại một lỗi Khi một liên kết được Tiếp .

Kết hợp thông tin bằng hạt mịn hơn : như thế này vào bảng xếp hạng, hệ thống có thể Nâng cao chất lượng kết quả tìm kiếm cá nhân và quản lý tài nguyên tốt hơn cho bò.

kết luận

Có rất nhiều cuộc tranh luận trong rõ ràng này về các loại khác nhau của các nút lủng lẳng (hoặc trang) tôi đã liệt kê ở trên có thể được xếp hạng khác , và làm thế nào các bảng xếp hạng của các trang liên kết đến Tất cả có thể bị ảnh hưởng bởi Những sự tồn tại của Những nút treo lủng lẳng .

Theo hệ thống được mô tả , liên kết đến các trang bị xóa , và các liên kết đến các trang đó Sản xuất lỗi máy chủ có thể – có tác động tiêu cực đến các trang của trang web của bạn Đó Cung cấp Những liên kết .

Nếu bạn đã từng tự hỏi làm thế nào một trang công cụ tìm kiếm đó đã không thu thập thông tin có thể được xếp hạng cao trong kết quả tìm kiếm , hoặc làm thế nào một tập tin pdf có thể – có có một số PageRank , nó có giá trị làm việc thông qua các mô tả chi tiết bằng sáng chế này .

Trong khi công cụ tìm kiếm mua sắm lớn có thể không sử dụng các phương pháp mô tả trong bằng sáng chế này , nó Cung cấp cái nhìn sâu vào một số giả định được thực hiện bởi các kỹ sư Liên quan đến bảng xếp hạng tìm kiếm của Những trang không thể được thu thập bởi các công cụ tìm kiếm cho một lý do Nhận xét khác, hoặc cho các trang mà – không có liên kết chỉ ra từ em .

Chúng tôi đã có một cuộc trò chuyện tốt đẹp về tập tin PDF trong tháng Sáu, ở đâu tôi mang lên một số vấn đề Liên quan đến treo lủng lẳng các nút và các tập tin PDF – kiếm tiền của Pdf . Nếu bạn có một số suy nghĩ về chủ đề này , xin vui lòng để thêm vào cuộc đàm thoại.

Một số giấy tờ bổ sung công ty seo website.

Có rất nhiều giấy tờ giới thiệu đến trong tài liệu này . Kể từ khi bằng sáng chế được nộp trong năm 2004, Nó không bao gồm các tài liệu tham khảo trong công nghệ thông tin mô tả các giấy tờ mới tìm hiểu các vấn đề liên quan đến các nút đó lơ lửng.

Có một số giấy tờ khác để giới thiệu trong các bằng sáng chế trong một phần có nhãn ” tài liệu tham khảo khác . ” Những Chẳng phải necessariliy Trích dẫn bởi các tác giả của tài liệu, và một số trong số họ đã được cung cấp bởi việc xem xét cấp bằng sáng chế . Tôi đã ble để tìm các liên kết đến tất cả các mục đích hai của chúng. Họ có thể cung cấp cái nhìn sâu sắc Một số bổ sung vào bằng sáng chế này , vì vậy tôi bao gồm danh sách ở đây:

Cập nhật PageRank với tập hợp lặp đi lặp lại
Phương pháp ngoại suy cho Đẩy nhanh PageRank Tính toán (pdf)
Google Pagerank Thuật toán và Chương trình hoạt động
Thánh hút thuốc lá Batman , đó là một lớn # của các liên kết
Sử dụng không gian phân loại và xếp hạng trong mô hình dựa trên đối tượng nhận
Chiều sâu so với bề rộng
Xem xét lại các thẻ meta của Drupal ngoài phiên bản 3 công ty seo.