TRÍCH GOOGLE VỀ SỰ THẬT VÀ XÁC ĐỊNH ĐỐI TƯỢNG TÀI LIỆU

Khai thác thực tế đang phát triển như một phương pháp mà công cụ tìm kiếm có thể sử dụng để xác định và hiểu những gì trang trên trang web được về, và để thu thập dữ kiện về đối tượng và trả lời câu hỏi của người gửi truy vấn đến một công cụ tìm kiếm.

Một bài báo gần đây của Google cung cấp một cái nhìn tổng quan tốt đẹp của một số phương pháp được sử dụng để khai thác thực tế . Một ứng dụng bằng sáng chế của Google công bố tuần trước khám phá nhìn vào tiêu đề trên các trang , và neo văn bản trong các trang có liên quan trên cùng một tên miền để xác định một chủ đề cho một tài liệu .

Bài viết này là chứng thực và Tìm hiểu Sự kiện từ Web (pdf) , và quá trình được mô tả trong nó đã được gọi là Grazer . Dưới đây là một chút về cách thức hoạt động :

Nó bắt đầu với sự kiện nhập khẩu từ một trang web và đưa họ như được biết sự thật ( sự kiện hạt giống). Sau đó, nó sẽ cố gắng để tìm thấy đề cập đến các sự kiện hạt giống trên các trang web khác . Điều này liên quan đến việc lấy trang có liên quan cho mỗi thực thể và sau đó chứng thực sự thật trong đó.
Một khi nó tìm thấy đề cập đến các sự kiện trong một trang , một phát hiện mô hình chính xác cao được áp dụng cho các khu vực xung quanh để tìm các mẫu HTML lặp đi lặp lại . Nếu một mô hình có thể được tìm thấy và nó có chứa một trong những sự kiện ví dụ , Grazer sẽ trích xuất tất cả các sự kiện phù hợp với mô hình và thêm chúng vào các thiết lập thực tế được biết .

Các mở rộng được biết đến bộ thực tế sẽ được sử dụng trong các bước học tập tiếp theo. Đây là một quá trình bootstrapping và tập thực tế được biết không ngừng phát triển lớn hơn. Quá trình học tập tiếp tục cho đến khi một tiêu chí dừng lại là hài lòng.

Các ứng dụng bằng sáng chế mà tôi đã đề cập chia sẻ một tác giả với giấy trong Shubin Zhao . Nó tập trung là khi cố gắng tìm một chủ đề cho các tài liệu đã có sự kiện chiết xuất từ ​​chúng. Phương pháp tiếp cận làm điều này bằng cách nhìn vào tiêu đề trên trang và neo văn bản từ các liên kết trỏ đến trang từ các trang liên quan trong cùng một tên miền .

Bài viết cung cấp một giới thiệu tốt đẹp với các phương pháp mô tả trong các ứng dụng bằng sáng chế.

Các ứng dụng bằng sáng chế :

Xác định chủ đề tài liệu bằng cách sử dụng tiêu đề và neo văn bản của tài liệu liên quan
Được phát minh bởi Shubin Zhao
Ứng dụng bằng sáng chế Mỹ 20070240031
Công bố ngày 11 tháng 10 2007
Nộp : 31 tháng 3 năm 2006

trừu tượng công ty seo website

Một hệ thống và phương pháp xác định một chủ đề cho một tài liệu nguồn. Hệ thống và phương pháp xác định một tập hợp các tài liệu ngang hàng từ cùng một tên miền như các tài liệu nguồn. Đối với mỗi tài liệu ngang hàng, một bộ sưu tập các tài liệu liên kết có chứa một siêu liên kết đến các tài liệu ngang hàng được xác định. Đối với mỗi tài liệu ngang hàng, một nhãn hiệu được tạo ra bằng cách chọn các trận đấu dài nhất neo văn bản của các văn bản liên kết.

Một mô hình giữa các nhãn và tiêu đề của bộ sưu tập các tài liệu ngang hàng là suy luận . Là chủ đề của các nguồn tài liệu được xác định bằng cách áp dụng các mô hình để tiêu đề của tài liệu nguồn.

Một số bài viết liên quan trên thực tế Khai thác

Ứng dụng bằng sáng chế này đi vào nhiều chi tiết về các thành phần của một kho lưu trữ thực tế . Tôi đã đi vào rất nhiều chi tiết trên mà đối tượng trong một bài trước tại: Google trên Khai thác và Hình ảnh của Sự kiện

Nó cũng nói về người lao công của Google, đó là chương trình phần mềm được sử dụng để xử lý dữ liệu tìm thấy trên trang web. Tôi đã đưa ra một danh sách của một số các loại khác nhau của các chương trình y có thể được Google sử dụng trong Google người gác cổng Clean Up kiện trên Web công ty seo

Mùa hè vừa qua đã thấy rất nhiều các ứng dụng bằng sáng chế được công bố bởi Google liên quan đến khai thác thực tế, và tôi tạo ra một danh sách rất nhiều trong số họ tại: Google & Khai thác thực tế , chuẩn hóa , và trực quan