GOOGLE LẶN VÀO lập chỉ mục các WEB DEEP

Hầu hết các thông tin trên web là bên dưới bề mặt, không thể truy cập công cụ tìm kiếm. Một báo cáo chính thức từ Brightplanet được công bố vào tháng Bảy năm 2001 khám phá bao nhiêu thông tin có thể được ẩn dưới các trang web công bố công khai.

Google cung cấp một cách khá sâu sắc cái nhìn như thế nào công ty seo website  họ có thể chỉ số và thông tin thứ hạng nằm trong các phần của trang web sâu, trong một ứng dụng bằng sáng chế nộp tuần trước:

Tìm kiếm thông qua nội dung có thể truy cập thông qua các hình thức dựa trên web
Được phát minh bởi Alon Y. Halevy, Jayant Madhavan, và David H. Ko
Ứng dụng bằng sáng chế Mỹ 20060230033
Công bố ngày 12 tháng 10 2006
Nộp vào 05 tháng 4 năm 2006

Trừu tượng
Một phương án của sáng chế hiện nay cung cấp một hệ thống tạo điều kiện tìm kiếm thông qua nội dung có thể truy cập mặc dù hình thức dựa trên web. Trong khi hoạt động, hệ thống nhận được một truy vấn có chứa từ khóa. Tiếp theo, hệ thống phân tích các truy vấn để tạo ra một truy vấn cấu trúc. Hệ thống sau đó thực hiện một tra cứu dựa trên truy vấn có cấu trúc trong một cơ sở dữ liệu có chứa các mục mô tả các hình thức dựa trên web. Tiếp theo, hệ thống xếp hạng các hình thức trả về bởi việc tra cứu và sử dụng các bảng xếp hạng và các mục cơ sở dữ liệu liên quan để tạo điều kiện tìm kiếm thông qua các nội dung có thể truy cập thông qua các hình thức.

Thúc đẩy tôi vào đọc sau đây từ khi nộp đơn sáng chế là để xem xét rằng có một lý do tại sao nhiều trang web ẩn thông tin đằng sau thông tin đăng nhập và tôi đã đi xa như vậy để tự hỏi liệu Googlebot có thể đăng nhập vào các trang web dưới tên Googlebot; câu hỏi kích hoạt bởi đoạn này:

Công cụ tìm kiếm truyền thống không có khả năng tìm kiếm thông qua dữ liệu được ẩn đằng sau các hình thức dựa trên web. Do đó, một số lượng lớn các dữ liệu liên quan có thể không thể dễ dàng truy cập thông qua công cụ tìm kiếm truyền thống.

Những gì cần thiết là một phương pháp và bộ máy điều kiện tìm kiếm hiệu quả thông qua thông tin được ẩn đằng sau các hình thức dựa trên web là.

Tổng quan

Một số trong những điều nhìn trong việc nộp bằng sáng chế:

1. Làm thế nào hình thức được tìm thấy trên các trang web có thể được lập chỉ mục, bao gồm bò, hướng dẫn sử trình, và các phương pháp khác có thể.

2. Những loại thông tin được thu thập và lập chỉ mục về các trang mà hình thức được tìm thấy trên.

3. Làm thế nào có thể thu thập thông tin về nội dung của các hình thức, bao gồm thu thập nó từ URL nơi “nhận được” báo cáo được sử dụng, và điền vào thông tin trong các hình thức để trích xuất thông tin xuất ra từ những hình thức.

4. Thu thập siêu dữ liệu về nguồn gốc của một hình thức, chẳng hạn như một lớp học cho rằng nguồn, một “vị trí địa lý liên quan nhất đến nguồn,” và có lẽ một PageRank cho nguồn.

5. Thu thập siêu dữ liệu về các mẫu tự, chẳng hạn như một lớp học của các hình thức xác định công ty seo , thông tin vị trí địa lý phù hợp nhất với đối tượng lấy ra, các lĩnh vực, trong đó lĩnh vực được yêu cầu đầu vào các lĩnh vực và có thể ánh xạ giữa các trường và thuộc tính của lớp liên kết của các lĩnh vực này.

6 Làm thế nào một hình thức có thể được xếp hạng, trong đó có xem xét.:

– Xấp xỉ một số trang hạng dựa trên các liên kết đến các trang web dưới hình thức là khi,
– Điểm cho các từ khóa dựa trên sự liên quan của văn bản trên trang đó,
– Một điểm bản thể học dựa trên sự liên quan của một lớp học tìm kiếm ontology cho một truy vấn liên quan đến trang đó,
– Điểm hình thức dựa trên khả năng của các hình thức để trả lời các truy vấn, và / hoặc;
– Điểm vị trí dựa trên khoảng cách từ vị trí phù hợp nhất cho trang kết hợp với các hình thức từ các địa điểm xác định trong truy vấn.

Các loại thông tin thu thập về hình thức

1 lĩnh vực trong các hình thức-Đối với mỗi lĩnh vực.:

– Tên tham số của nó (sử dụng để gọi một số kịch bản phía máy chủ),
– Con người có thể đọc được hoặc văn bản rõ ràng cho lĩnh vực đó,
– Kiểu trường (văn bản, chọn hộp, nút radio, hoặc hộp kiểm), và;
– Giá trị tiêu biểu cho lĩnh vực này (ví dụ như các tùy chọn trong một hộp chọn).

2. Các lớp học của các hình thức-Các loại của các đối tượng có thể đạt được bằng cách truy vấn hình thức, chẳng hạn như sách, khách sạn, nhà hàng. Một nguồn tin có thể có nhiều hình thức, có thể liên quan đến các lớp học khác nhau của các đối tượng. Ví dụ, báo chí thường có các hình thức cho tìm kiếm nhà ở, công ăn việc làm và xe hơi để bán.

3. Vị trí địa lý-Một vị trí địa lý cụ thể cho các đối tượng lấy ra bằng cách sử dụng hình thức. Một khách sạn, chẳng hạn, sẽ có một địa chỉ liên kết với nó.

4. Mục bắt buộc-Thông tin về những lĩnh vực được yêu cầu phải gửi biểu mẫu. Có thể có nhiều hơn một sự kết hợp, trong một số trường hợp.

5. Tính-Các đầu ra loại thông tin thu được từ các câu trả lời cho một hình thức trình thành công. Đây là những mô tả như là “Tìm kiếm Onotology” tài sản chúng tôi có thể tìm thấy trong các câu trả lời.

6. Schema lập bản đồ lập bản đồ giữa các lĩnh vực trong các hình thức và các thuộc tính Tìm kiếm Ontology. Ví dụ, một lĩnh vực có thể yêu cầu một trong hai mã bưu điện, thành phố và tiểu bang.

7. Những từ khóa-bổ sung có thể được các từ khoá bổ sung mà mô tả hình thức web.

Kết luận

Có một số chiến lược được sử dụng trong tài liệu này để trả lại kết quả từ cơ sở dữ liệu web sâu để một người tìm kiếm. Nói chung, những người cố gắng tìm hiểu nguồn gốc của thông tin, các hình thức sử dụng và cách họ làm việc, thông tin liên quan đến từng lĩnh vực của từng hình thức, nội dung có thể được lấy ra bằng cách sử dụng các hình thức, làm thế nào để xếp hạng các thông tin có thể được tìm thấy trong phản ứng để điền vào một mẫu, và một vị trí liên quan đến thông tin đó nếu cần thiết.

Nếu bạn quan tâm đến như thế nào web sâu có thể được thu thập và lập chỉ mục, ứng dụng bằng sáng chế này cho thấy một số chiến lược để hoàn thành các nhiệm vụ. Đồng phát minh, tiến sĩ Halevy, mô tả một số vấn đề liên quan đến việc cố gắng để chỉ số như một loạt các thông tin, tổ chức trong nhiều cách khác nhau dựa trên quy tắc kinh doanh mà không lường trước được lập chỉ mục bởi một công cụ tìm kiếm, trong một bài báo ông viết gọi là Tại sao dữ liệu của bạn sẽ không Trộn.

Trong tài liệu đó, ông mô tả một số trong những chiến lược ông đã sử dụng thành công để tạo ra www.everyclassified.com, mà tổng hợp nội dung từ hàng ngàn nguồn hình thức khác nhau và hơn 5.000 bản đồ ngữ nghĩa của các hình thức web vào loại phổ biến của quảng cáo phân loại. Công ty của ông, Transformic Inc, được mua lại bởi Google có thể vào tháng Chín năm 2005, là tác giả của everyclassified.com.