Một phương pháp YAHOO ĐỂ TRÁNH bò QUẢNG CÁO VÀ PHẦN KẾT THEO DÕI

Một ứng dụng bằng sáng chế của Yahoo vừa được công bố mô tả một vài cách để lọc ra một số URL mà nó có thể thu thập thông tin , để giữ cho những trang từ được lập chỉ mục và trình bày cho người tìm kiếm.

Các URL được nhắc đến trong việc nộp bằng sáng chế là các liên kết ” thoáng ” vì họ thay đổi từ lần đến thăm, thường vì họ là quảng cáo mà có các URL với mã theo dõi bao gồm trong họ, hoặc chứa các ID phiên để theo dõi du khách.

Phương pháp tiếp cận một được cung cấp để xác định liên kết thoáng qua trên một trang web . Cách tiếp cận này đảm bảo rằng các liên kết tạm thời không được thu thập và lưu trữ, do đó tiết kiệm nguồn lực cho bò liên kết hợp lệ dẫn đến thông tin hữu ích .

Liên kết đi trên một trang web được xác định, và sau một khoảng thời gian , một bản sao mới của trang web thu được và các liên kết đi xác định . Các bộ tương ứng của các liên kết được so sánh và liên kết mà không xuất hiện trong cả hai bộ liên kết được xác định là thoáng qua.
Bò liên tiếp để xác định liên kết thoáng qua
Được phát minh bởi Dmitri Pavlovski , Vladimir Ofitserov , và Alexander Arsky
Ứng dụng bằng sáng chế Mỹ 20070226206
Công bố ngày 27 Tháng Chín năm 2007
Nộp : ngày 23 tháng 3 2006

Có ba giai đoạn chính như thế nào một công cụ tìm kiếm hoạt động. Là người đầu tiên liên quan đến một công cụ tìm kiếm gửi ra các chương trình thường được gọi là crawlers hay nhện hoặc robot . Những trình thu thập xác định các trang được lập chỉ mục trên Web, và các địa chỉ của các trang trong các hình thức URL.

Các giai đoạn khác liên quan đến thông tin lập chỉ mục tìm thấy trên các trang trong thu thập dữ liệu , và trình bày các kết quả tìm thấy trong chỉ mục đó để đáp ứng với một truy vấn được thực hiện bởi một người tìm kiếm . Nếu giai đoạn thu thập dữ liệu có thể trở nên hiệu quả hơn, sau đó các giai đoạn khác có thể có ít việc phải làm, và cũng sẽ có hiệu quả hơn.

Làm Web Crawling hiệu quả hơn

Những cách mà các chương trình thu thập dữ liệu từ các công cụ tìm kiếm thực sự làm việc là một cái gì đó công cụ tìm kiếm thường không chia sẻ nhiều về.

Chúng tôi có một số gợi ý , như aa Stanford tài nguyên danh sách trang được sử dụng trong giai đoạn đầu của công việc đối Google , trong đó bao gồm một tài liệu có tựa đề hiệu quả thu thập thông qua URL Thứ tự . Mà thảo luận về bài báo về cách thức một chương trình tìm kiếm thu thập dữ liệu có thể ưu tiên cho các URL một con nhện có thể truy cập tới khi nó tìm thấy địa chỉ các văn bản trong khi thu thập dữ liệu một trang.

Các nhà sáng chế của quá trình Yahoo này mô tả một số yếu tố của một quá trình thu thập dữ liệu trong hồ sơ bằng sáng chế :

Trình thu thập web sử dụng một loạt các thuật toán thu thập dữ liệu để xác định thứ tự mà các trang web được thu thập thông . Ví dụ, một đầu tiên -trong- đầu ra của phương pháp tiếp cận liên kết có thể được sử dụng. Với phương pháp này , các liên kết được thu thập thông dựa trên thứ tự mà chúng được đặt trên một trang web.

Một ví dụ khác , một cách tiếp cận ” tốt nhất ” đầu tiên có thể được sử dụng khi thứ tự liên kết nào được thu thập thông được lựa chọn dựa trên liên kết thích hợp , tức là , các liên kết được coi là phù hợp hơn được thu thập thông trước khi các liên kết được coi là ít có liên quan.

Họ cũng cho chúng tôi biết rằng đó là khá phổ biến đối với các nhà quảng cáo bao gồm thông tin trong URL giúp xác định người sử dụng, và theo dõi, nơi những du khách đang đến từ. Loại thông tin này có thể xuất hiện trong việc sử dụng ID phiên , URL theo dõi , và các kỹ thuật khác mà gây ra một URL để thay đổi từ một khách khác.

Vì những thay đổi , nếu các URL đã được lập chỉ mục, chỉ số công cụ tìm kiếm của có thể chứa rất nhiều các trang tại URL khác nhau mà là bản sao của nhau hoặc không nên được thu thập thông ở nơi đầu tiên . Chúng ta biết rằng :

Bởi vì mục đích của một trình thu thập web là để khám phá các trang có chứa thông tin hữu ích cho người dùng web , nó sẽ là không hiệu quả và lãng phí các nguồn lực để thu thập thông tin và chỉ số mỗi liên kết thoáng qua có ý nghĩa chỉ được sử dụng như một theo dõi hoặc phiên định danh duy nhất .

Trong quá trình nộp hồ sơ bằng sáng chế này là nhằm mục đích tránh những loại liên kết thoáng qua.

Xác định kết thoáng qua

Trên một trang web, bạn có thể tìm thấy văn bản, một liên kết đến các trang khác , và quảng cáo. Các liên kết đến các trang khác có các URL trỏ đến các trang web có thông tin hữu ích được thu thập và lưu trữ. Quảng cáo có thể là một hình ảnh với một URL theo dõi nhúng. Khi một chương trình thu thập dữ liệu web sau URL theo dõi của advertisemen , nó được đưa đến một trang web khác , hoàn toàn có thể nằm trên một máy chủ Web khác nhau.

Một trình thu thập yêu cầu các trang web từ máy chủ lưu trữ , và được cung cấp mã HTML từ trang. Nó phân tích thông qua HTML, và trích ra một danh sách của tất cả các URL từ trang web, và lưu trữ chúng. Sau đó nó đưa ra một ” làm mới ” lệnh cho một bản sao mới của trang, sau một phút hoặc lâu hơn ( nộp bằng sáng chế cho chúng ta biết “, trong khi một phút đã được tìm thấy cho kết quả tốt nhất, bất kỳ độ dài của thời gian có thể được sử dụng. ”

Bản sao làm mới của trang có thể khác nhau từ các bản sao đầu tiên . Nó có thể là các máy chủ web có thể chèn vào các bản sao mới một quảng cáo mới với một URL theo dõi nhúng mới , thay thế các quảng cáo cũ . Trình thu thập thông làm cho một danh sách của tất cả các URL từ trang, và các cửa hàng niêm yết .

Danh sách các URL ban đầu chiết xuất được so sánh với các URL mới được trích xuất. URL mà là trong thu thập dữ liệu đầu tiên của trang web đó đã biến mất trong thu thập dữ liệu thứ hai của trang web được coi là thoáng qua, và không hữu ích cho bò hoặc đưa vào một chỉ mục tìm kiếm .

Trong một phương án , tất cả các liên kết xuất hiện trong cả hai lần thu thập dữ liên tiếp của cùng một trang được đánh dấu là thích hợp cho bò và đưa vào một chỉ mục, và có thực sự thu thập thông tin .

Phân đoạn trang để làm so sánh tương lai nhanh hơn

Thay vì so sánh tất cả các liên kết trên thu thập thông tin tương lai của một trang , nó có thể được dễ dàng hơn để chỉ xem các phần của trang mà liên kết thoáng qua đã được tìm thấy trên thu thập thông tin trước đó. Các bằng sáng chế mô tả nó như thế nào có thể phá vỡ trang thành các phần :

Một cách tiếp cận để xác định các phần của HTML có thể được thực hiện bằng cách sử dụng Document Object Model Tree (DOM) phân hủy . Một cây DOM là một đại diện của một phần của HTML sử dụng một cây của các thẻ HTML mà thẻ nhóm như <table> có thẻ phụ cây <tr> và lần lượt </ tr> thẻ đã thẻ lá <td> .

Nói chung, một cây DOM chứa thẻ và văn bản và các thuộc tính của họ. Để xác định các liên kết tạm thời sử dụng ít hơn thu thập thông tin của trang, các trình thu thập ban đầu có thể lấy một trang nhiều lần, phân hủy HTML bao gồm trang thành một cây DOM, xác định liên kết thoáng qua và xác định các yếu tố DOM cây con thoáng qua có chứa các liên kết chỉ thoáng qua.

Khi thu thập cùng một trang trong tương lai, nếu thu thập phát hiện trang đó có một cây DOM giống với trước đây thu thập thông tin các trường hợp , sau đó các trình thu thập có thể xem xét các liên kết mới có nguồn gốc từ cùng một thoáng qua DOM cây con là thoáng qua mà không có lần nạp thêm cùng một trang .

Loại phân đoạn của các trang web không phải là duy nhất cho Yahoo .

Cả Google và Microsoft đã công bố hồ sơ bằng sáng chế và các giấy tờ mô tả như thế nào họ có thể phần phân đoạn của các trang web cho các mục đích khác nhau. Tôi đã viết về một số cách mà Google có thể làm một cái gì đó như thế trong Google và tài liệu phân đoạn chỉ mục cho tìm kiếm địa phương .

Microsoft đã viết về một vài phương pháp khác nhau để phân chia nhỏ các trang , và tài liệu nổi tiếng nhất của họ về chủ đề này có lẽ là VIPS : tầm nhìn dựa trên thuật toán phân khúc Trang (pdf)  công ty seo website

Bởi vì nhiều trang trên một trang web chia sẻ cùng một mẫu , loại phân đoạn này có thể hữu ích trong việc giúp đỡ thu thập bỏ qua các liên kết tạm thời từ cùng một khu vực trên các trang khác của cùng một trang web .

Các trang web xác định là mục tiêu thường xuyên của Liên kết thoáng qua

URL của các liên kết thoáng qua cũng có thể được xác định và thu thập được, để nó có thể bỏ qua chúng trong tương lai:

Theo một phương án , để giảm số lượng các lần nạp liên tục , một trình thu thập có thể cố gắng để xác định các trang web thường được sử dụng như là mục tiêu của liên kết thoáng qua.

Một cách tiếp cận có thể được sử dụng liên quan đến việc xác định các liên kết tạm thời bằng cách sử dụng các kỹ thuật mô tả ở trên , và tổng hợp thêm tất cả các liên kết bởi các trang web mục tiêu và xác định các trang web mà hầu hết các liên kết là thoáng qua .

Các trình thu thập sau đó có thể sử dụng một danh sách các trang web như vậy để xác định tất cả các liên kết tương lai với họ là các liên kết thoáng qua mà không thực hiện lần nạp bổ sung của cùng một trang công ty seo.

Tôi không chắc chắn nếu điều này sẽ có tác động đến các liên kết không quảng cáo vào các trang web trên các trang web cũng sử dụng quảng cáo.