Chia sẻ về công cụ tìm kiếm tự động

Có một chút công viên trải dài Delaware và Maryland trong đó có một đài tưởng niệm đánh dấu ranh giới giữa các tiểu bang. Khắc trên đầu trang của các điểm đánh dấu bằng đá là một dòng cho biết sự tách biệt giữa các quốc gia , và cho thấy các điểm mà một vòng cung bắt đầu, tách Delaware từ Pennsylvania. Nếu bạn nhìn vào một bản đồ biên giới, bạn sẽ thấy rằng phần đầu của bang Delaware là một hình vòng cung mà các biện pháp 12 dặm từ một vòm trên đầu trang của một tòa án ở New Castle lịch sử , Delaware . Vòng cung giữa Delaware và Pennsylvania đã được xác định trong một chứng thư để William Penn từ Công tước xứ York năm 1682. Lãnh thổ của Maryland cũng đã tham gia vào việc thiết lập các biên giới.

Bạn có thể nhảy trên đỉnh đánh dấu và ngồi trên ranh giới tiểu bang nếu bạn muốn . Tượng đài được bao quanh bởi rừng, và bạn phải đi xuống một con đường trong công viên để đạt được nó .

Chúng tôi có những khảo sát của ngành, nghề đó , giữa các quốc gia , giữa các quốc gia , thị xã, thành phố và các quận xung quanh cho các cấp, cũng như việc thăm dò và phát hiện ra những nơi mà chúng ta đang sống . Các chương trình mà công cụ tìm kiếm sử dụng để khám phá các trang mới trên web và vào lại trang cũ là một chút như những nhà thám hiểm và khảo sát – tìm kiếm tài liệu trực tuyến để thêm vào chỉ mục của họ để chúng ta có thể khám phá những chỉ số và tìm kiếm thông tin và các trang lưu trữ trên máy chủ nằm rải rác trên toàn cầu.
Những chương trình này thường được gọi là trình thu thập hoặc nhện hoặc robot hoặc chương trình , và có rất nhiều hạn chế hạn chế như thế nào họ có thể có thể khám phá và xác định các trang mà chúng tôi tìm thấy trực tuyến .

Trình thu thập từ các công cụ tìm kiếm có xu hướng khá đơn giản, và không xem các trang như chúng tôi làm với các trình duyệt. Họ thường không chạy các kịch bản java mà chúng ta làm khi chúng tôi ghé thăm trang, hoặc giải quyết hình ảnh và xem bất kỳ văn bản mà chúng ta có thể thấy những hình ảnh trên .

Đơn giản và phức tạp Crawling Chương Trình

Trong tháng tư, IBM đã được cấp bằng sáng chế ( ban đầu được nộp vào 30 tháng 6 năm 2000 ) mô tả một chương trình thu thập dữ liệu web sẽ thấy trang web trên mạng một cách rất giống với những gì chúng ta nhìn thấy khi chúng ta duyệt Web. Bằng sáng chế , hệ thống và phương pháp để nâng cao dựa trên trình duyệt web thu thập dữ liệu , nhìn vào ” inline- khung , khung , hình ảnh, applet, âm thanh, video , hoặc tương đương ” trên các trang web , và làm cho những người để có được một sự hiểu biết về HTML thức đánh dấu cho thấy tại một địa chỉ URL khi ai đó có thể truy cập vào một trang . Nó thậm chí còn mô tả bằng cách sử dụng ký tự quang học (OCR) phần mềm đọc văn bản có thể xuất hiện trong hình ảnh.

Nếu một công cụ tìm kiếm được theo dõi quá trình thăm dò chi tiết được mô tả trong bằng sáng chế của IBM , nó có lẽ sẽ là một quá trình khá tính toán đắt tiền để sử dụng, và có khả năng sẽ mất một số tiền hợp lý của thời gian và công sức để chỉ số nhiều trang. Các trình thu thập các công cụ tìm kiếm thương mại lớn sử dụng dường như đơn giản hơn nhiều , và không khám phá những trang web trên mạng trong đó chiều sâu hơn nhiều. Nguyên tắc Webmaster của Google mô tả sự đơn giản của các chương trình thu thập dữ liệu mà họ sử dụng với tuyên bố này :

Sử dụng trình duyệt văn bản như Lynx để kiểm tra trang web của bạn , bởi vì hầu hết nhện công cụ tìm kiếm thấy trang web của bạn nhiều như Lynx . Nếu tính năng như JavaScript , cookies, session IDs , frame, DHTML, hoặc Flash giữ cho bạn khỏi nhìn thấy tất cả các trang web của bạn trong một trình duyệt văn bản, sau đó tìm kiếm nhện động cơ có thể gặp khó khăn khi thu thập dữ liệu trang web của bạn .

Lynx là một trong những chương trình duyệt web rất sớm, và là một trong rất đơn giản , cho phép bạn xem xét các văn bản trên trang .

Xem ra cho cookies

Một trong những nỗ lực mà một người nào đó thực hiện tối ưu hóa công cụ tìm kiếm có thể và nên đưa vào một trang web là để xem làm thế nào công cụ tìm kiếm thân thiện với các trang của trang web đó có thể được. Một phần của cuộc điều tra mà là đảm bảo rằng các chương trình công cụ tìm kiếm thu thập dữ liệu có thể truy cập tất cả các trang của một trang web mà chủ sở hữu trang web muốn lập chỉ mục, và các thông tin có ý nghĩa từ các trang thu thập thông tin có thể được lập chỉ mục của công cụ tìm kiếm . Một trở ngại để lập chỉ mục một trang web là khi một chương trình công cụ tìm kiếm thu thập dữ liệu là cần thiết để có một “cookie” để xem các trang .

Một cookie là một chuỗi nhỏ của văn bản có thể được gửi bởi một trang web được lưu trữ trên máy tính của người truy cập . Một cookie thường bao gồm các cặp tên- giá trị lưu trữ thông tin về một khách đi trên các trang web , bao gồm các thông tin như nội dung của giỏ mua hàng , sở thích người dùng cho trang web, và thông tin có thể giúp theo dõi các trang mà khách truy cập đi vào trên một trang web. Một cookie có thể giúp một trang web cá nhân hoá những kinh nghiệm mà một người truy cập có trên các trang của nó . Trình thu thập thông thường không có các tập tin cookie , và trình thu thập có thể không thể truy cập vào trang nơi lấy một cookie là bắt buộc.

Cookie Bật Tìm kiếm Crawlers

Một nộp đơn sáng chế vừa được công bố từ Google mô tả cách nó có thể cho phép các chương trình thu thập dữ liệu để chấp nhận cookie khi quý khách đến thăm trang của một trang web . Một trong những thách thức sau một trình thu thập chấp nhận cookie là một công cụ tìm kiếm có thể có nhiều hơn một bánh xích hoặc nhện hoặc robot thăm các trang của một trang web trong khi trườn bò các trang này, và nó sẽ là lý tưởng nếu họ “chia sẻ” một cookie . Đó là trọng tâm của việc nộp bằng sáng chế :

Công cụ tìm kiếm với nhiều trình thu thập chia sẻ các tập tin cookie
Được phát minh bởi Anurag Acharya , Michal Louz -On, Alexander C. Roetter
Giao cho Google )
US Patent 7.546.370
Cấp ngày 09 tháng 6 năm 2009
Nộp : ngày 18 tháng 8 năm 2004

Các bằng sáng chế xác định những vấn đề mà tìm kiếm thu thập thông với các trang web có yêu cầu cookie như sau:

Trình thu thập thông mạng thông thường không có cơ sở cho việc thu thập các tập tin cookie như vậy , cũng không phải để xử lý các điều kiện lỗi cookie khác nhau. Kết quả là , trình thu thập web thông thường không thể thu thập thông tin một bộ đầy đủ các trang hoặc các tài liệu trong các trang web yêu cầu cookie , do đó làm giảm số lượng thông tin có sẵn thông qua việc sử dụng công cụ tìm kiếm như vậy. công ty seo giá rẻ

Ngoài ra, trình thu thập thông mạng thông thường không có cơ sở để phối hợp những nỗ lực của một bộ song song của trình thu thập thông mạng đối với bò một bộ đầy đủ các trang hoặc các tài liệu trong các trang web mà yêu cầu các cookie. Có một nhu cầu , do đó , đối với một công cụ tìm kiếm được cải thiện sử dụng nhiều trình thu thập để truy cập các trang web yêu cầu cookie .

Nộp bằng sáng chế đi vào một số lượng lớn các chi tiết về các tập tin cookie , và làm thế nào các chương trình tìm kiếm thu thập dữ liệu có thể chia sẻ chúng. Không có dấu hiệu cho thấy Google đã bắt đầu thu thập thông tin các trang mà chỉ có thể được truy cập bằng cách chấp nhận cookie, nhưng nó có thể trong tương lai.

Cho đến lúc đó , nếu bạn sở hữu hoặc làm việc trên một trang web, và bạn yêu cầu khách truy cập đi cookie để xem các trang nhất định và muốn các trang được lập chỉ mục , hãy chắc chắn rằng công cụ tìm kiếm không phải chấp nhận cookie để xem những trang đó.

Tại một số điểm , chúng tôi thậm chí có thể bắt đầu thấy các chương trình thu thập dữ liệu như được mô tả trong bằng sáng chế của IBM mà nhìn vào văn bản trong hình ảnh, thông tin xuất hiện trong khung hình và khung nội tuyến , và các phần khác của trang được kích hoạt bởi kịch bản java applet và khác .công ty seo chất lượng

Khi họ làm, chỉ số công cụ tìm kiếm có thể được nhiều hơn như các bản đồ chúng tôi có ngày hôm nay so với các cuộc điều tra của biên giới địa lý của điều tra từ năm trôi qua .