SPAM EMAIL LỌC DỰA VÀO KẾT

Liên kết trong email có thể giúp giảm thư rác? Có thể.

Một ứng dụng bằng sáng chế từ Google tuần trước, rằng tôi bị mất cho đến khi tôi kiểm tra cẩn thận thông qua các cơ sở dữ liệu chuyển nhượng bằng sáng chế, mô tả một cách tiếp cận thú vị để kiểm tra sự hiện diện của thư rác trong email.

Nếu một email có một liên kết bên trong nó, các trang mà nó được liên kết để có thể được xem xét sử dụng một khái niệm phân loại của nội dung liên quan.

Khi một thông điệp điện tử nhận được, các siêu liên kết trong tài liệu được xác định được, và thông tin về các liên kết được phân loại dựa trên “các mối quan hệ ngữ nghĩa” từ thông tin đó. Việc phân loại, và các thông tin khác có thể được sử dụng để xác định có hay không được thông báo là không mong muốn và cần được lọc.

Phương pháp và hệ thống để phát hiện e-mail thư rác sử dụng khái niệm phân loại các nội dung liên quan
Được phát minh bởi Johnny Chen
Ứng dụng bằng sáng chế Mỹ 20060122957
Công bố 08 tháng 6 năm 2006
Nộp: 03 tháng 12 năm 2004
trừu tượng

Một hệ thống và phương pháp để phát hiện các thông điệp điện tử không mong muốn (ví dụ, thư rác) sử dụng khái niệm phân loại các siêu liên kết được tiết lộ. Một máy chủ nhận được một tin nhắn điện tử và truy lục các trang web tương ứng với các siêu liên kết trong tin nhắn. Máy chủ thực hiện khái niệm phân loại trên các trang web dựa trên các mối quan hệ lấy ngữ nghĩa trong các thông tin nhận được để xác định xem các thông điệp điện tử đáp ứng tiêu chí được xác định trước liên quan đến các tin nhắn không mong muốn.

Các khái niệm liên quan đến các trang hoặc các tập tin ở đầu kia của liên kết được xác định để xem họ có trong danh mục được “liên kết” với thư rác.

Ví dụ, nếu khái niệm cơ sở dữ liệu bao gồm các khái niệm 228 ​​(cụm) được liệt kê trong hình. 16 của Mỹ Ser ứng dụng bằng sáng chế. Số 10/676, 571, các cụm “khiêu dâm quan hệ tình dục miễn phí phim pic xxx” và “bức ảnh khỏa thân khỏa thân hình ảnh hình ảnh. . . “Có thể được xác định trước như loại không mong muốn.

Các loại liên quan đến thông tin nhận được có thể được so sánh với hai loại không mong muốn để xác định như thế nào các loại kết hợp với thông tin nhận được phù hợp với danh mục không mong muốn.

Trang hoặc tập tin chính nó có thể được kiểm tra, hoặc phát hiện các mô-đun thư rác đang được sử dụng có thể xác định vị trí các URL cho tài liệu trong một cơ sở dữ liệu địa chỉ mà các cửa hàng loại thông tin khái niệm phân loại.

Các yếu tố khác Có thể sử dụng

Khái niệm đặc tính này có thể là cơ sở duy nhất để xác định nếu thông điệp là không mong muốn. Mặc dù phương pháp bổ sung khác cũng có thể được sử dụng.

Khái niệm đặc tính này có thể được kết hợp với các phương pháp khác sử dụng các tiêu chí được xác định trước.

Những sẽ xem xét các tính năng khác trong tin nhắn hoặc các thông tin nhận được, chẳng hạn như:

Bố trí của trang (“nhiều kẻ gửi thư rác tạo ra các trang web mới bằng cách sao chép một trong các trang web trước đó đóng cửa xuống của họ”),
Đồ họa sử dụng,
Từ được sử dụng như “mua ngay bây giờ”, “nhập vào đây”, “khiêu dâm” hay “Viagra” có một số tiền hoặc tỷ lệ khác với những gì được coi là bình thường, giống như trong các trang web spam, và / hoặc;
Vốn đầu tư từ cách sử dụng công ty seo website 
Đăng ký tên miền

Thông tin đăng ký tên miền, từ một tìm kiếm whois của tên miền liên quan đến các siêu liên kết trong tin nhắn cũng có thể được sử dụng để xác định xem một tin nhắn là không mong muốn.

Thông tin đăng ký tên miền quan tâm có thể bao gồm số liên lạc và các thông tin địa chỉ, và / hoặc ngày hết hạn của tên miền.

Các ứng dụng bằng sáng chế ghi chú rằng:

Kẻ gửi thư rác thường đăng ký một trang web chỉ trong một năm (thời gian tối thiểu được phép), vì vậy ngày hết hạn tương ứng với thời hạn một năm thường là một tiêu chí đủ của chính nó để xác định một tin nhắn không mong muốn.

Tôi không chắc là tôi đồng ý với giả định này về tên miền đăng ký trong một năm, nhưng nó là một giả định rằng họ cũng đã về tên miền và các trang web spam trong ứng dụng bằng sáng chế của họ khi thông tin hồi dựa trên dữ liệu lịch sử:

[0099] Một số tín hiệu có thể được sử dụng để phân biệt giữa các lĩnh vực bất hợp pháp và hợp pháp. Ví dụ, lĩnh vực có thể được gia hạn lên đến một khoảng thời gian 10 năm. Có giá trị (hợp pháp) các lĩnh vực thường được trả tiền cho một vài năm trước, trong khi cánh cửa (bất hợp pháp) lĩnh vực hiếm khi được sử dụng trong hơn một năm. Vì vậy, ngày khi một miền hết hạn trong tương lai có thể được sử dụng như một yếu tố trong việc dự đoán tính hợp pháp của một tên miền và, do đó, các tài liệu liên quan theo.

Các hệ thống có thể sử dụng loại lọc có thể cho phép các quy tắc email mà cho phép tin nhắn nhận được từ các địa chỉ quy định hoặc những người mà người sử dụng đã gửi tin nhắn đến, ngay cả khi các liên kết công ty seo trong những thông báo là nghi ngờ.

Làm thế nào Google có thể đi đến với phân loại cho các trang?

Đó là một trong những khía cạnh thú vị của ứng dụng bằng sáng chế này. Nó không thực sự giải thích quá trình phân loại, nhưng nó chỉ đến bằng sáng chế khác:

Phương pháp và thiết bị đặc trưng văn bản dựa trên các cụm từ có liên quan
Nhà sáng chế: Georges Harik, và Noam Shazeer
Ứng dụng bằng sáng chế Mỹ 20040068697
Công bố ngày 08 tháng 4 năm 2004
Nộp: 30 Tháng Chín 2003

trừu tượng

Một phương án của sáng chế hiện nay cung cấp một hệ thống đặc trưng một tài liệu liên quan đến các cụm từ liên quan với khái niệm. Khi nhận được một tài liệu có chứa một tập hợp các từ, hệ thống sẽ chọn “cụm ứng cử viên” của từ liên quan khái niệm có liên quan đến các thiết lập của các từ. Các cụm ứng cử viên được lựa chọn sử dụng một mô hình giải thích như thế nào bộ từ được tạo ra từ các cụm từ liên quan về mặt khái niệm. Tiếp theo, hệ thống xây dựng một tập các thành phần để mô tả tài liệu, trong đó tập hợp các thành phần bao gồm các thành phần cho các cụm ứng cử viên. Mỗi thành phần trong tập hợp các thành phần cho thấy một mức độ mà một cụm ứng cử viên tương ứng có liên quan đến các thiết lập của các từ.

Tôi đã không nhìn vào ứng dụng bằng sáng chế này quá chặt chẽ trước, nhưng có vẻ như ít nhất một ứng dụng thực tế có thể đã đi từ nó với phương pháp này lọc thư rác. Nó cũng có thể cung cấp một số hiểu biết về cách Google thực hiện một số phân tích ngữ nghĩa trên trang.