YAHOO thay thế GIẢ PageRank VỚI NGƯỜI SỬ DỤNG DỮ LIỆU

PageRank là một thuật toán đo lường tầm quan trọng hoặc chất lượng của một tài liệu Web .

Nó có thể được sử dụng trong một số cách của một công cụ tìm kiếm , chẳng hạn như được kết hợp với các yếu tố liên quan đến xếp hạng kết quả tìm kiếm , hoặc để xác định các trang web để thu thập thông tin (pdf) và làm thế nào thường xuyên để thu thập thông tin cho họ, hoặc đó là một phần của một cơ sở dữ liệu một tài liệu nên được đặt bên trong.

Các thuật toán tìm kiếm được dựa trên giả định về cách mọi người sử dụng web , làm thế nào họ có thể tìm kiếm , những gì họ có thể chú ý đến, và những gì họ có thể tìm thấy quan trọng. Đó là sự thật với PageRank trong cả hai lý thuyết, và làm thế nào nó có thể được sử dụng trong thực tế .

Giả định PageRank thách thức
Đó là tốt để xem người trong cộng đồng tìm kiếm thách thức một số giả định đằng sau PageRank. Một ứng dụng bằng sáng chế từ Yahoo , công bố tuần trước đặt ra một số vấn đề , từ những người biết PageRank rất tốt.

Dưới đây là một số vấn đề các nhà phát minh của điểm nộp hồ sơ liên quan đến bằng sáng chế cho một số giả định cơ bản về PageRank :

Không phải tất cả Liên kết là bình đẳng – những người không chọn ngẫu nhiên các liên kết trên các trang mà họ truy cập – một số trang quan trọng hơn những người khác , và một số ít khi tiếp ở tất cả như ” từ chối trách nhiệm ” liên kết .

Giả định rằng tất cả các liên kết đi trong một trang Web được theo sau bởi một người lướt ngẫu nhiên thống nhất ngẫu nhiên là không thực tế . Trong thực tế, liên kết có thể được phân loại thành các nhóm khác nhau, một số trong đó được tuân thủ hiếm khi nếu ở tất cả (ví dụ , các liên kết từ chối trách nhiệm ) .

” Liên kết nội bộ ” như vậy được biết là ít tự quảng cáo đáng tin cậy và nhiều hơn ” liên kết bên ngoài ” nhưng thường như nhau. Cố gắng gán trọng số để liên kết dựa trên các biện pháp tương tự IR đã được thực hiện nhưng không được sử dụng rộng rãi .

Xem, ví dụ , The Surfer thông minh . Kết hợp xác suất của Liên kết và thông tin nội dung trong PageRank (pdf) , M. Richardson và P. Domingos, tiến bộ trong Hệ thống thông tin xử lý thần kinh 14 , MIT Press, 2002.

Surfers chán Đừng Tới ngẫu nhiên Trang – một trong những giả định của công thức PageRank là đôi khi, thay vì theo một liên kết trên một trang, ” lướt sóng ngẫu nhiên” sẽ trở nên buồn chán và chỉ cần đi bất cứ nơi nào khác một cách ngẫu nhiên . Các ứng dụng bằng sáng chế lưu ý rằng nó là không thực tế khi cho rằng hầu hết mọi người sử dụng các trang web cổng thông tin lớn và chọn trang nhà nhỏ với một xác suất bằng nhau . Khi ai đó để lại một trang để đi nơi khác ( một dịch chuyển nhảy thống nhất cho bất kỳ trang ngẫu nhiên dưới PageRank ) nó dường như không có bất kỳ trang ngẫu nhiên ở tất cả các nơi mà họ sẽ đi .

Surfers chán Đừng Chỉ Tới trang đáng tin – khi mà ” lướt ngẫu nhiên” lá thay vì liên kết sau đây , nó cũng không chắc rằng họ sẽ chỉ đi đến một tập tin cậy của các trang web hoặc các trang web , dưới một cái gì đó như TrustRank (Xem , ví dụ, chống Spam Web với TrustRank – pdf) . Giả định này thực sự không có gì để làm với cách mọi người thực sự sử dụng Web , nhưng thay vì trang bị thêm vào PageRank để chống lại thư rác liên kết thay vì ” phản ánh hành vi người dùng thực tế. ”

Thay đổi trang và Lose Giá trị tại Giá khác nhau – quá trình PageRank cũng bỏ qua các trang được mua và thêm thắt , hoặc phân rã và trở nên ít có giá trị theo thời gian và làm như vậy ở mức giá rất khác nhau.

Đôi khi tính toán PageRank Cheat – một số sử dụng các công thức PageRank trong thực hành được ” . Thường được thực hiện liên quan đến quy tụ của các trang của trang web , máy chủ , hoặc lĩnh vực với , còn được gọi là ‘không ‘ PageRank ” Xem Khai thác cấu trúc khối của trang web cho máy tính PageRank (pdf) . , Điều này có nghĩa rằng các liên kết giữa các trang đang được tổng hợp bằng cách nào đó đến một mức độ khối . Các ứng dụng bằng sáng chế cho chúng ta biết , “Thật không may , hầu hết các công nghệ tự động để thực hiện tổng hợp này không làm việc tốt . ”

Người sử dụng ứng dụng nhạy cảm PageRank bằng sáng chế

Tôi đã đề cập rằng những người đứng sau các ứng dụng bằng sáng chế biết PageRank tốt. Một trong những tài liệu toàn diện nhất và chi tiết tôi đã nhìn thấy trên PageRank là Cuộc điều tra về PageRank máy tính , được viết bởi một trong những nhà phát minh có tên trong tài liệu sau đây . Nó cũng được trích dẫn trong việc nộp bằng sáng chế.

Người sử dụng nhạy cảm PageRank
Được phát minh bởi Pavel Berkhin , Usama Fayyad M. , Prabhakar Raghavan , Andrew Tomkins
Giao cho yahoo
Ứng dụng bằng sáng chế Mỹ 20080010281
Công bố ngày 10 tháng 1 năm 2008
Nộp : ngày 22 tháng 6 2006

trừu tượng

Kỹ thuật được mô tả để tạo ra một giá trị thẩm quyền của đầu tiên một trong đa số các văn bản . Một thành phần đầu tiên của giá trị quyền được tạo ra với tham chiếu đến các liên kết đi kết hợp với các tài liệu đầu tiên . Các liên kết bên ngoài cho phép truy cập vào một tập hợp con đầu tiên của đa số các văn bản .

Một thành phần thứ hai của giá trị quyền được tạo ra với tham chiếu đến một tập hợp con thứ hai của đa số các văn bản . Mỗi tập con thứ hai của văn bản đại diện cho một điểm khởi đầu tiềm năng cho một phiên người dùng .

Thành phần thứ ba về giá trị quyền được tạo ra đại diện cho một khả năng mà một phiên người dùng khởi xướng bởi bất kỳ một dân số của người sử dụng sẽ kết thúc với các tài liệu đầu tiên .

Các thành phần đầu tiên , thứ hai và thứ ba về giá trị quyền được kết hợp để tạo ra giá trị quyền . Ít nhất một trong các thành phần đầu tiên , thứ hai và thứ ba về giá trị quyền được tính toán với tham chiếu đến dữ liệu người dùng liên quan đến ít nhất là một số các liên kết đi và tập hợp con thứ hai của văn bản .

Các ứng dụng bằng sáng chế cho biết thêm yếu tố của hành vi người dùng để tính toán PageRank.

Trọng lượng liên kết – trọng lượng hoặc giá trị của các liên kết có thể bị ảnh hưởng bởi thực tế ” dữ liệu người dùng đại diện cho một tần số mà các liên kết đi tương ứng đã được lựa chọn bởi một dân số của người sử dụng . ”

Khả năng ngẫu nhiên rời đến một trang mới – cơ hội mà một người nào đó có thể để lại (hoặc dịch chuyển ) đến một trang khác thay vì theo một liên kết trên một trang cũng bị ảnh hưởng bởi các dữ liệu người dùng.

Tìm thấy hài lòng với Trang – xác suất mà một người nào đó có thể dừng lại, và không truy cập vào các trang mới bằng cách liên kết trên trang họ đang ở trên sau đây cũng được tính toán bằng cách nhìn vào dữ liệu người dùng .

Ba thành phần này có thể được sử dụng để tạo ra một ” giá trị quyền ” cho một tài liệu trên trang web.

Tầm quan trọng của neo văn bản và văn bản khác liên quan đến một liên kết, cũng được đề cập trong tài PageRank nhạy cảm:

Theo có một hiện thân , một giá trị thẩm quyền của đầu tiên một trong đa số các tài liệu được tạo ra.

Văn bản liên quan đến mỗi một đa số liên kết trong nước cho phép truy cập vào các tài liệu đầu tiên được xác định.

Một khối lượng được giao cho các văn bản có liên quan với nhau của các liên kết trong nước .

Mỗi phòng trong số trọng lượng có nguồn gốc với tham chiếu đến dữ liệu người dùng đại diện cho một tần số mà các liên kết trong nước tương ứng đã được lựa chọn bởi một dân số của người sử dụng .

Giá trị quyền được tạo ra với tham chiếu đến các trọng số.

Vai trò của dữ liệu người dùng

Dữ liệu người dùng đưa vào thuật toán này nên “phản ánh hành vi và / hoặc nhân khẩu học của dân số sử dụng cơ bản . ” Đó là thực tế dữ liệu người dùng thực phản ánh cách mà mọi người duyệt các trang . Người sử dụng PageRank nhạy cảm có thể phản ánh ” hành vi điều hướng của dân số người sử dụng liên quan đến các tài liệu , các trang, các trang web có , và các lĩnh vực truy cập, và các liên kết được lựa chọn . ”

Những gợi ý khác của một người dùng PageRank nhạy cảm

Các ứng dụng bằng sáng chế mô tả một số công thức toán học khác nhau để tính toán tài này PageRank nhạy cảm . Tôi sẽ không đào sâu vào những người. Nó cũng giải quyết một số ý nghĩa thú vị khác :

Sử dụng phân cá nhân PageRank – dữ liệu người dùng từ hồ sơ nhân khẩu học khác nhau ( dựa trên tuổi tác, giới tính , thu nhập, vị trí người sử dụng, hành vi người dùng , vv) có thể được xác định , do đó kết quả tìm kiếm có thể là khác nhau cho những người từ những nhân khẩu học khác nhau. Điều này có thể được sử dụng với phương pháp tiếp cận khác để PageRank cá nhân , như một PageRank nhạy cảm đề  công ty seo uy tín.

Người ghé thăm Blocks – hành vi người dùng dựa trên thăm và duyệt các khối ( các trang web , máy chủ , hoặc tên miền ) có thể hữu ích trong việc tìm hiểu cách mọi người đi từ một khối để khối khác, và tăng thêm một cách tiếp cận mức độ khối PageRank chỉ dựa trên mối liên kết giữa các khối .

Làm thế nào Passage of Time thể ảnh hưởng đến PageRank – PageRank cần được cập nhật thường xuyên vì các liên kết giữa các trang web về việc thay đổi theo thời gian. Các trang có thể được coi là cốt lõi trang cũng có thể thay đổi trong ý nghĩa , hoặc đi ra khỏi thời trang mặc dù các liên kết đến và đi từ các trang không thay đổi. Kết hợp dữ liệu người dùng vào PageRank có nghĩa là sự kiện gần đây có thể được nhấn mạnh , và các sự kiện cũ giảm giá.

Chọn trang để thu thập thông tin – PageRank có thể được sử dụng trong việc xác định thu thập thông tin và theo các liên kết liên kết với một trang . Việc bổ sung các dữ liệu người dùng trong PageRank có thể làm cho việc lựa chọn dễ dàng hơn.

Ngoài PageRank Phân tích của văn bản Kết hợp với Liên kết – neo văn bản có thể được ” . Một trong những tính năng hữu ích nhất được sử dụng trong bảng xếp hạng kết quả tìm kiếm Web lấy ” Tầm quan trọng của neo văn bản ( và văn bản liên quan ) có thể được kết hợp với điểm hành vi người dùng giống như các tầm quan trọng của liên kết trọng lượng có thể khác nhau trong tài PageRank nhạy cảm .

kết luận công ty seo

PageRank , trong hầu hết các công thức khác nhau đã được mô tả trong hồ sơ bằng sáng chế và các giấy tờ , tập trung vào việc liên kết xuất bản trên các trang web, và làm cho một số giả định về cách mọi người truy cập, trình duyệt, và các tài liệu sử dụng kèm theo các liên kết .

Người sử dụng PageRank nhạy cảm cố gắng để thay thế một số những giả định với dữ liệu người dùng thực tế về cách mọi người đi du lịch đến và sử dụng tài liệu Web.

Rất khuyến khích : David Harry đào khá sâu vào các ứng dụng bằng sáng chế này cũng vậy, trong Yahoo, Page Rank và Teleportation Oh My! và cung cấp một cái nhìn của tài liệu này từ một góc độ khác nhau . David rút ra một số khía cạnh hấp dẫn của các tài liệu mà tôi đã làm không , như “The Web Bộ sưu tập rác hữu ích, ” người sử dụng và khám phá các khía cạnh dữ liệu nộp bằng sáng chế.