TRANG CHẤT LƯỢNG VÀ WEB Spam: SỬ DỤNG PHÂN TÍCH NỘI DUNG để phát hiện TRANG SPAM

TRANG CHẤT LƯỢNG VÀ WEB Spam: SỬ DỤNG PHÂN TÍCH NỘI DUNG để phát hiện TRANG SPAM

Một ứng dụng bằng sáng chế mới của Microsoft sẽ xem nội dung tạo ra công cụ tìm kiếm thư rác. Đây là vấn đề, như đã nêu trong hồ sơ bằng sáng chế:

Trong trường hợp tốt nhất, thiết kế tối ưu hóa công cụ tìm kiếm giúp đỡ trang web tạo ra nội dung đó là tốt có cấu trúc, chủ đề, và nhiều từ khóa có liên quan hoặc thuật ngữ truy vấn. Thật không may, một số tối ưu hóa công cụ tìm kiếm đi vượt ra ngoài sản xuất các trang có liên quan: họ cố gắng để thúc đẩy xếp hạng của một trang web bằng cách tải trang với một loạt các thuật ngữ truy vấn phổ biến, cho dù có liên quan hay không. Trong thực tế, một số SEO đi một bước xa hơn: Thay vì tự tạo ra các trang bao gồm thuật ngữ truy vấn không liên quan nhưng nổi tiếng, họ máy tạo ra nhiều trang như vậy, mỗi trong số đó có chứa một số từ khóa monetizable (tức là từ khóa có một giá trị quảng cáo cao, chẳng hạn như tên của một dược phẩm, thẻ tín dụng, thế chấp, vv.) Nhiều tán nhỏ từ các trang máy tạo ra kết quả trong một trang xếp hạng khá lớn cho các trang mục tiêu. Trong một leo thang hơn nữa, SEO đã bắt đầu thiết lập các máy chủ DNS sẽ giải quyết bất kỳ tên máy chủ trong tên miền của họ, và thường bản đồ nó đến một địa chỉ IP duy nhất.

Hầu hết nếu không phải tất cả các trang SEO tạo ra tồn tại chỉ để đánh lừa công cụ tìm kiếm vào chỉ đạo giao thông đối với các trang web “tối ưu hóa”; nói cách khác, các trang SEO tạo ra chỉ dành cho các công cụ tìm kiếm, và hoàn toàn vô ích cho du khách của con người.

Tôi nhận ra câu nói này, được lấy từ một bài nghiên cứu thú vị từ Microsoft, Spam, Damn Spam, và thống kê: Sử dụng phân tích thống kê để Xác định vị trí trang web Spam. Nếu bạn quan tâm đến như thế nào công cụ tìm kiếm đang cố gắng để chống lại các spam trên web, nó là một bài báo “phải đọc”.

 

Có vẻ như bằng sáng chế này là một nỗ lực để có một số nghiên cứu báo cáo trên trong bài báo đó, và xác định một cách để sử dụng nó trong một quá trình có thể giúp các công cụ tìm kiếm chiến web spam. Tuy nhiên, nó không phải là một chước hay rập khuôn bài báo đó, và nó bao gồm một số lãnh thổ mới. Chắc chắn giá trị một cái nhìn, đặc biệt là nếu bạn lo ngại rằng các trang của bạn có thể bị nhầm lẫn với thư rác bằng các công cụ tìm kiếm.

Sử dụng phân tích nội dung để phát hiện các trang web thư rác
Nhà sáng chế: Marc Alexander Najork, Dennis Craig Fetterly, Mark Steven Manasse, và Alexandros Ntoulas
Giao cho Microsoft
Ứng dụng bằng sáng chế Mỹ 20060184500
Công bố ngày 17 tháng 8 2006
Nộp: ngày 11 tháng 2 2005

trừu tượng

Đánh giá nội dung bao gồm nhận được nội dung, phân tích nội dung cho các trang web thư rác sử dụng một kỹ thuật xác định dựa trên nội dung và phân loại nội dung theo phân tích. Một chỉ số của nội dung phân tích có thể được tạo ra. Một hệ thống đánh giá nội dung bao gồm một thiết bị lưu trữ cấu hình để lưu trữ dữ liệu và một bộ xử lý cấu hình để phân tích nội dung sử dụng các kỹ thuật xác định dựa trên nội dung để xác định xem trang web thư rác xuất hiện.

Các bằng sáng chế mô tả một số biện pháp mà tác giả có thể được xem xét khi xem nội dung của một trang để xác định có hay không trang chỉ dành cho thư rác một công cụ tìm kiếm. Các tác giả lưu ý rằng các bước khác và các số liệu khác cũng có thể tham gia.

Phân loại nội dung

Số liệu về các trang được thu thập và đưa vào một chương trình phân loại trong đó sử dụng điểm trọng để phân biệt các trang tốt từ những cái xấu. Chương trình phân loại bắt đầu với một tập dữ liệu ban đầu, được gọi là tập huấn luyện, được chia thành ví dụ tích cực và tiêu cực. Mà tập huấn luyện nhìn vào tất cả các tính năng của các ví dụ tích cực và tiêu cực trong sự kết hợp, trong một nỗ lực để tách các ví dụ tích cực (không phải spam) từ các ví dụ tiêu cực (thư rác).

Sử dụng một phân loại như thế này có thể có nghĩa rằng một khi đường phân chia được thực hiện, dữ liệu bổ sung có thể được xem xét để xem nếu nó có thể được sử dụng để phân biệt các trang tốt từ những cái xấu. Chúng ta biết từ “Thư rác, thư rác Chết tiệt, và Thống kê” giấy Microsoft cũng đang tìm kiếm các tính năng khác của trang và các trang web.

Theo nộp bằng sáng chế, một số lớp học của các trang web thư rác có thể được phát hiện bằng cách phân tích nội dung của trang và tìm kiếm tài sản “bất thường”, chẳng hạn như:

Trang chứa nhiều bất thường từ,
Trang chứa nhiều bất thường từ trong một yếu tố tiêu đề HTML (<title> đây! </ Title>)
Tỷ lệ đánh dấu HTML để văn bản rõ ràng là thấp,
Trang có chứa một số lượng lớn bất thường các từ rất dài hoặc rất ngắn,
Trang chứa nội dung lặp đi lặp lại,
Trang chứa vài bất thường từ thông dụng (“dừng lại từ”), hoặc
Trang có chứa một số lượng lớn hơn dự kiến ​​phổ biến n-gram (trình tự của n từ)
Những số liệu hoặc các bộ lọc có thể được nhập vào một phân loại để quyết định có hay không một trang là spam hoặc xác định khả năng hoặc khả năng rằng trang này là thư rác, bằng cách so sánh các kết quả đầu ra của một hoặc nhiều các số liệu, một mình hoặc kết hợp với một hoặc hơn ngưỡng.

Các bằng sáng chế đề cập đến một cuốn sách tham khảo ví dụ trong đó mô tả cơ thể hiện tại của công việc trong máy học: mẫu phân loại (liên kết của tôi không đi đến cuốn sách riêng của mình, mà là để một trang từ một trong những tác giả, trong đó có một loạt lớn của PowerPoint trình bày về tài liệu trong cuốn sách).

Xác định Spam Web trên Fly

Các bằng sáng chế mô tả phương pháp cho việc tìm kiếm các trang web thu thập thông tin trong thư rác và hay đánh giá nội dung trên bay.

Dưới đây là một bản tóm tắt của quá trình để xác định thư rác thông qua nội dung, trên bay, từ các ứng dụng bằng sáng chế:

Công cụ tìm kiếm nhận được người dùng nhập vào để bắt đầu một truy vấn cụ thể, công ty seo website
Công cụ tìm kiếm thực hiện các truy vấn,
Công cụ tìm kiếm nhận được kết quả truy vấn,
Công cụ tìm kiếm (hoặc bộ xử lý hoặc phân loại, ví dụ) đánh giá kết quả sử dụng các số liệu khác nhau,
Sau khi đánh giá các công cụ tìm kiếm phân tích đánh giá để xác định những nội dung là thư rác web có khả năng.
Từ phân tích đó, công cụ tìm kiếm có thể xác định các trang web như trang web thư rác và có thể ghi lại hoặc lưu trữ các nội dung trong một chỉ số cho các truy vấn trong tương lai,
Kết quả truy vấn này sau đó được đầu ra cho người tìm kiếm.
Phát hiện thư rác web có thể bị loại khỏi chỉ số công cụ tìm kiếm, đưa ra một bảng xếp hạng tìm kiếm thấp, hoặc xử lý một cách để truy vấn người sử dụng không bị ảnh hưởng hoặc dân cư với thư rác web, có thể dẫn đến kết quả tìm kiếm phù hợp hơn, hoặc ít nhất là thiếu sót của một số kết quả không liên quan công ty seo
Dấu hiệu Spam Web?

Danh sách trên của một số “tài sản bất thường” có thể được xem xét cho được kiểm tra chi tiết hơn trong các ứng dụng bằng sáng chế. Sau đây là diễn giải của một số người và một số số liệu bổ sung. Tôi muốn khuyên bạn nên nhìn vào các bằng sáng chế để điều trị chi tiết hơn của họ trong số này. Hãy nhớ rằng nhiều người chỉ là một yếu tố phải được xem xét cùng với những người khác trước khi quyết định thực hiện một trang được thiết kế để spam công cụ tìm kiếm.

1. Khi số lượng từ trên một trang tăng lên, xác suất của thư rác có mặt trên trang đó tăng lên.

2. Khi số lượng từ trong tiêu đề của một trang web tăng lên, xác suất của web thư rác hiện diện gia tăng đáng kể.

3. Khi nội dung hiển thị của tăng trang, xác suất của web thư rác là tăng hiện tại một điểm và sau đó giảm đáng kể.

4. Khi các phần của từ neo tăng (như là một tỷ lệ phần trăm của tất cả các từ trên một trang), xác suất của web tăng thư rác.

5. Web thư rác có nhiều khả năng xảy ra trong các trang web có từ rất lâu hoặc rất ngắn, vì vậy một từ chiều dài thước đo trung bình có thể được sử dụng để xác định các trang thư rác.

6. Khi zipRatio của một trang tăng vượt quá một ngưỡng, có lẽ của các spam trên web hiện diện trên một trang web tăng đáng kể. Một tỷ lệ zip được tính bằng cách chia kích thước (trong byte) của văn bản rõ ràng không nén (như văn bản khác với đánh dấu HTML) bởi kích thước (trong byte) của nén văn bản rõ ràng.

7. Là một tỷ lệ phần trăm (và phân phối) các từ dừng lại (từ thường được sử dụng trong một ngữ liệu cụ tìm kiếm) được sử dụng trên một deceases trang, xác suất của web tăng thư rác.

Ví dụ, 100 từ phổ biến nhất trong một đại diện corpus rất lớn của ngôn ngữ tiếng Anh được xác định, ví dụ, bằng cách kiểm tra tất cả các trang web tiếng Anh tải về của trình thu thập (cùng áp dụng cho các ngôn ngữ khác cũng). Sau đó nó được xác định là tỷ lệ các từ trên một trang web duy nhất được rút ra từ 100 từ thường gặp nhất trong toàn bộ corpus. Ví dụ, những từ như “the”, “a”, “từ”, vv là trong số 100 từ tiếng Anh thường xuyên nhất. Nếu một trang web không có sự xuất hiện của bất kỳ của những lời này, nhưng 100 lần xuất hiện của “thú lông nhím” (một thú ăn kiến ​​gai và một từ hiếm), được xác định là trang có 0% chồng lên nhau với trên 100 từ.

8. Trang cũng được xem xét cho sự tồn tại của thường xảy ra chuỗi các từ liên tiếp (n-gram), vị trí của họ trong một tài liệu, và lời nói thường xảy ra có thể xuất hiện sau khi những trình tự. Xác suất của những người được tính từ các tài liệu trên trang web, và ngưỡng được xác định có thể được sử dụng để xác định có hay không một trang nên được xác định là spam trên web.