NEW GOOGLE TIẾP CẬN lập chỉ mục và STOPWORDS

NEW GOOGLE TIẾP CẬN lập chỉ mục và STOPWORDS

Cách đây không lâu , nếu bạn nhập vào Google cụm từ (không có dấu ngoặc kép) ” một căn phòng với một cái nhìn , ” bạn có thể đã nhận được một số cảnh báo rằng truy vấn của bạn có ” Stop Words . ”

Ngăn chặn từ là những từ mà xuất hiện rất thường xuyên trong các tài liệu và trên các trang web công cụ tìm kiếm thường sẽ bỏ qua chúng khi lập chỉ mục các từ trên trang . Đây có thể là những từ như : một , và , là , trên , của , hay , những , là , với .

Tạm biệt để ngăn chặn từ?

Trong đó tìm kiếm cho ” một căn phòng với một cái nhìn “, bạn có thể nhận được kết quả như ” một phòng cho một cái nhìn , ” hoặc ” phòng để xem , ” hoặc cụm từ khác thay thế một số từ dừng lại với những người khác . Đã làm cho nó ít có khả năng tìm thấy chính xác những gì bạn đang tìm kiếm khi bạn tìm kiếm một cụm từ với từ dừng lại ở đó .
Tôi không nhìn thấy Google bỏ qua từ dừng lại nữa. Tuần trước, Dan Thies hỏi Dừng Words Are Dead! Tôi Hoa hậu Memo khác?

Bằng sáng chế của Google mới được cấp này dường như để giữ một số câu trả lời cho sự biến mất các từ dừng lại , và để có khả năng một số vấn đề khác lập chỉ mục từ Google:

Tài liệu chương trình nén hỗ trợ tìm kiếm và một phần giải nén
Được phát minh bởi Olcan Sercinoglu
Giao cho Google
US Patent 7.319.994
Cấp 15 tháng 1 năm 2008
Nộp ngày 23 tháng 5 năm 2003

Trừu tượng không phải là dễ đọc , nhưng đó là bản tóm tắt các phát minh cho đến các bằng sáng chế , vì vậy nó có giá trị xem xét :

Một phương án của sáng chế hiện nay cung cấp một hệ thống tạo điều kiện truy cập vào một đại diện nén một tập hợp các tài liệu, trong đó các đại diện nén hỗ trợ tìm kiếm và một phần giải nén.

Trong khi hoạt động , hệ thống nhận được yêu cầu tìm kiếm chứa thuật ngữ được tìm kiếm trong tập hợp các tài liệu. Để đáp ứng với yêu cầu tìm kiếm , hệ thống xác định sự xuất hiện của các điều khoản trong bộ tài liệu bằng cách làm theo con trỏ thông qua các đại diện nén.

Đại diện nén này mã hóa xuất hiện của một thuật ngữ như một con trỏ đến sự xuất hiện tiếp theo của thuật ngữ này để tạo điều kiện điều tra nhanh chóng của các lần xuất hiện của thuật ngữ này. Hơn nữa, các đại diện nén duy trì trật tự tuần tự giữa các học kỳ liền kề trong tập hợp các tài liệu , cho phép các điều khoản lân cận truy cập nhanh .

Có rất nhiều ý nghĩa đằng sau này ngoài stopwords biến mất . Các bằng sáng chế không trực tiếp giải quyết lập chỉ mục bằng cách sử dụng từ dừng lại :

Thông thường , đưa ra một truy vấn, nút cổ chai hiệu suất là thời gian cần để giải mã các lần xuất hiện (mà thường được đồng bằng mã hóa để tiết kiệm không gian , và do đó cần được thực hiện ngay từ đầu ) của thuật ngữ thường xuyên xảy ra nhất, đặc biệt là nếu thuật ngữ này là một cái gọi là stop- từ như “the”.

Hệ thống sẽ tìm các từ ngữ ít phổ biến xuất hiện trong các truy vấn, và sau đó nhìn xem nếu các từ dừng trong truy vấn gần đó.

Chúng tôi cũng được nói rằng tìm kiếm cho cụm từ theo hệ thống này sẽ trở thành nhanh hơn rất nhiều :

Lưu ý đặc biệt , cụm từ phù hợp sẽ trở nên nhanh hơn nhiều kể từ khi chúng tôi chỉ cần phải giải mã một số giới hạn các điều khoản mà là ngay lập tức sau khi hoặc trước hạn ít nhất là phổ biến . Hoạt động này sẽ có sự phức tạp O thời gian (K * L * N) trong đó K là định danh hạn tần số mã hóa (được thảo luận trước đó) , L là chiều dài của cụm từ , và N là số lần xuất hiện của thuật ngữ kém thường xuyên trong các cụm từ.

Hồ sơ bằng sáng chế liên quan công ty seo website

Tôi đã viết trước về một số tài liệu bằng sáng chế liên quan mà khám phá một số quy trình khác mà làm việc với các khía cạnh của phương pháp nén được mô tả trong bằng sáng chế này .

Google xem xét xử lý truy vấn nhiều giai đoạn , trong đó mô tả một cách tìm kiếm có thể được xử lý trong một số giai đoạn , theo các ứng dụng bằng sáng chế : hệ thống xử lý truy vấn nhiều giai đoạn và phương pháp để sử dụng với kho tokenspace

Google trên nhiều Tầng chỉ mục và nhiều dàn dựng truy vấn chế biến khám phá hệ thống bằng sáng chế của Google và phương pháp để mã hóa và giải mã chiều dài thay đổi dữ liệu

Một lý do cho sự mất mát của kết quả bổ sung , quá  công ty seo uy tín 

Trở lại vào tháng Mười Hai , một bài ở blog chính thức của Google nói về The Ultimate Số phận của kết quả bổ sung. Trong đó, chúng tôi đã nói từ Google rằng “thay vì tìm kiếm một số phần của chỉ số của chúng tôi có chiều sâu hơn cho các truy vấn tối nghĩa, chúng ta bây giờ tìm kiếm trên toàn bộ chỉ số cho mỗi truy vấn. ”

Sử dụng các quy trình lập chỉ mục trong ba hồ sơ bằng sáng chế có thể giải thích một số thay đổi đối với kết quả mà chúng ta thấy trong Google, nếu họ đang được sử dụng . Có thể họ cũng chiếm sự biến mất của kết quả bổ sung không? Bạn nghĩ gì ? N