GOOGLE STOPWORDS sáng chế

Khi ai đó tìm kiếm tại một trong các công cụ tìm kiếm , họ thường gõ vào cụm từ khóa , bao gồm như là đã được viết cho độc giả của con người. Những cụm từ có thể chứa từ hoặc cụm từ mà hiển thị rất thường xuyên trong các trang trên trang web, và có ít để làm với các thông tin được tìm kiếm bởi người tìm kiếm.

Công cụ tìm kiếm tập trung vào lấy kết quả tìm kiếm dựa trên từ khóa tìm thấy trong các truy vấn thường bỏ qua những từ thường xuyên xuất hiện và không liên quan chứa trong thuật ngữ truy vấn tìm kiếm.

Những từ đã được đề cập đến trong quá khứ bởi Google là ” stopwords “, và có thể là những từ như : một , và , là , trên , của , hay , những , là , với . Nhóm tương tự của từ mà xuất hiện rất phổ biến trên các trang web , và cũng không có liên quan đến những tìm kiếm thực tế có thể được gọi là ” stop- cụm từ. ”

Từ “a” trong truy vấn “, một khách sạn London ” là một stopword .
Cụm từ “cho tôi ” trong truy vấn “cho tôi khách sạn London” là một điểm dừng cụm từ .

Cả hai “a” và “cho tôi ” không cung cấp nhiều ý nghĩa trong ý định của người tìm kiếm để tìm thông tin về khách sạn ở London .

Stopwords có ý nghĩa và Stop- cụm từ

Đôi khi từ và cụm từ mà có thể được xem xét stopwords hoặc ngừng – cụm từ có thể thực sự có ý nghĩa và quan trọng . Ví dụ , từ “the” trong cụm từ ” ma trận ” có thể được coi là một stopword , nhưng ai đó tìm kiếm các thuật ngữ có thể tìm kiếm thông tin về bộ phim “The Matrix” thay vì cố gắng tìm thông tin về các thông tin chứa trong toán học một bảng các hàng và cột ( một ma trận ) .

Một tìm kiếm cho “Show me the money” có thể tìm kiếm một bộ phim mà cụm từ là một dòng quan trọng , lặp đi lặp lại một vài lần trong phim. Hoặc tìm kiếm cho ” chỉ cho tôi con đường ” có thể là một yêu cầu tìm bài hát bằng cách sử dụng cụm từ đó như một tiêu đề từ Peter Frampton hoặc từ các ban nhạc Styx .

Một bằng sáng chế của Google được cấp tuần này tìm hiểu làm thế nào một công cụ tìm kiếm có thể xem xét các truy vấn có chứa stopwords hoặc ngừng – cụm từ và xác định có hay không các stopword hoặc ngừng cụm từ là đủ ý nghĩa bao gồm trong kết quả tìm kiếm hiển thị cho một tìm kiếm.

Là Stopwords quan trọng nữa?

Vào tháng Giêng, tôi đã viết một bài có tiêu đề Phương pháp tiếp cận mới của Google để chỉ mục và Stopwords , mà khám phá một cách tiếp cận mới để lập chỉ mục nội dung của các trang web, và nén và giải nén các phần của một số công cụ tìm kiếm sẽ xuất hiện để cho phép lập chỉ mục tốt hơn và phục hồi các cụm từ trong một chỉ mục tìm kiếm .

Trong quá khứ, Google sẽ đôi khi cho người tìm kiếm trong không gian trên một tập hợp các kết quả tìm kiếm là các truy vấn tìm kiếm của họ có ” ngăn chặn từ, ” và rằng stopwords đã bị bỏ qua trong việc tìm kiếm mà chỉ thực hiện bởi các công cụ tìm kiếm . Trong một số truy vấn mà đã chứa stopwords được ” ý nghĩa”, Google có thể không có hiển thị thông báo đó. Làm thế nào mà Google biết liệu stopwords là có ý nghĩa hay không?

Cũng trong tháng , có vẻ như Google dừng hiển thị các thông báo về các truy vấn có chứa từ dừng lại . Có công cụ tìm kiếm vẫn tìm các từ dừng lại và dừng lại cụm từ, và cố gắng để xác định xem họ có ý nghĩa hay không?

Sử dụng Danh mục Stopwords Được biết đến và Stop – cụm từ và cụm từ ngoại lệ

Một cách mà các công cụ tìm kiếm có thể xử lý và ngăn chặn stopwords – cụm từ là sử dụng một danh sách các stopwords biết và ngăn chặn nhóm từ , và dải những người ra từ một truy vấn tìm kiếm trước khi thực hiện tìm kiếm và trình bày kết quả tìm kiếm để tìm kiếm một .

Phương pháp có thể bỏ qua stopwords có ý nghĩa và dừng các cụm từ. Để tránh vấn đề đó, một công cụ tìm kiếm có thể sau đó xây dựng một danh sách các cụm từ ” đặc biệt ” khi xác định stopwords được bao gồm trong một truy vấn. Danh sách đó có thể bao gồm các cụm từ như ” ma trận ” hoặc “cho tôi tiền. ” Xác định những cụm từ đặc biệt, và giữ một danh sách những cụm từ được cập nhật có thể là khó khăn.

Phương pháp tiếp cận thay thế để sử dụng Chức năng biết đến và Expections

Cách tiếp cận khác có thể là để xác định khi một truy vấn có chứa stopwords và ngăn chặn nhóm từ , và sau đó thực hiện tìm kiếm trên các truy vấn có chứa stopwords có và không có stopwords , để các kết quả , hoặc danh sách các hạng mục liên quan đến kết quả tìm kiếm , có thể được so sánh để xem họ là tương tự đáng kể.

Nếu bộ dữ liệu tương tự đáng kể, việc loại bỏ các stopword tiềm năng hoặc stopwords có thể không tài liệu để tìm kiếm. Nếu kết quả hoặc các loại tương tự là không đáng kể, các stopword có thể được coi là tài liệu để tìm kiếm , và không cần được loại bỏ từ các truy vấn .

Bằng sáng chế là :

Vị stopwords có ý nghĩa hoặc ngừng – cụm từ trong hệ thống tìm kiếm dựa trên từ khóa
Được phát minh bởi Simon Tong ; Uri Lerner, Amit Singhal , Paul Haahr và Steven Baker
Giao cho Google Inc
US Patent 7.409.383
Cấp 05 tháng 8 năm 2008
Nộp : ngày 31 tháng 3 năm 2004

trừu tượng

Một thành phần phát hiện stopword phát hiện stopwords (còn cụm từ dừng ) trong các truy vấn tìm kiếm các hệ thống truy vấn thông tin đầu vào từ khóa dựa trên . Stopwords tiềm năng ban đầu được xác định bằng cách so sánh các điều khoản trong truy vấn tìm kiếm một danh sách các stopwords biết . Dữ liệu bối cảnh sau đó được lấy ra dựa trên các truy vấn tìm kiếm và xác định stopwords .

Trong một triển khai thực hiện , dữ liệu bao gồm các tài liệu bối cảnh lấy từ một số tài liệu . Trong việc thực hiện khác, các dữ liệu ngữ cảnh bao gồm loại có liên quan đến truy vấn tìm kiếm . Bộ dữ liệu lấy bối cảnh được so sánh với nhau để xác định xem họ là tương tự đáng kể.

Nếu bộ dữ liệu bối cảnh tương tự đáng kể, thực tế này có thể được sử dụng để suy luận rằng việc loại bỏ các stopword tiềm năng (s) không phải là tài liệu để tìm kiếm. Nếu bộ dữ liệu bối cảnh không giống với , các stopword tiềm năng có thể được coi là trọng yếu để tìm kiếm và không cần được loại bỏ từ các truy vấn .

So sánh tương đồng kết quả hoặc mục từ nhiều Bộ câu hỏi

Các bằng sáng chế quá trình khám phá stopword này sâu hơn , bao gồm những thứ như thế nào một danh sách các stopwords có thể được xác định bằng tay, hoặc một cách tự động bằng cách nhìn vào tần số hạn trên trang web, với những từ thường xuyên nhất xuất hiện hoặc cụm từ có khả năng được stopwords hoặc dừng các cụm từ. Nó cũng bàn chải như thế nào loại có thể được chỉ định để truy vấn các điều khoản . Tần số hạn và loại có thể đóng một vai trò trong việc xác định tương tự như kết quả khi tìm kiếm một kết quả truy vấn tìm kiếm có và không có từ dừng lại .

Cho dù hai bộ kết quả , hoặc dữ liệu bối cảnh , được ” tương tự đáng kể ” có thể được xác định bằng cách nhìn vào những thứ như :

1) tần số Lời thuật ngữ xuất hiện trong các trang kết quả tìm kiếm từ các truy vấn với stopwords và các truy vấn cùng withoug các stopwords . Nếu tần số tương đối bằng nhau, các bộ kết quả có thể được coi là tương đương đáng kể.

2) Tỷ lệ tài liệu xuất hiện trong hai bộ khác nhau của kết quả cũng có thể được sử dụng.

3 ) Bộ các loại từ các kết quả tìm kiếm khác nhau có thể được so sánh , bằng cách tính toán phần của các loại có trong cả hai bộ .

4) điểm danh sự liên quan giữa cả hai bộ các truy vấn có thể được so sánh. công ty seo

giữ chỗ

Khi tìm kiếm được thực hiện trên phiên bản của một truy vấn mà không bao gồm stopwords , các stopwords có thể được thay thế bằng giữ chỗ , ​​cho thấy sự hiện diện của một thế giới không có liên quan đến các từ thực tế được thay thế.

Hãy truy vấn tìm kiếm “chỉ cho tôi cách lời bài hát . ” Công cụ tìm kiếm có thể xác định “cho tôi ” và “the” như stopwords . Để so sánh kết quả tìm kiếm nhiệm kỳ hai , và không có các stopwords , công cụ tìm kiếm có thể sử dụng ” cách lời bài hát” hoặc nó có thể sử dụng giữ chỗ , ​​chẳng hạn như ” *** cách lời bài hát, ” ở đâu ” * ” đại diện cho từ giữ chỗ .

Nhiều truy vấn thực sự có thể được sử dụng và so sánh, với chủ nơi cho một số các stopwords xác định , cũng như bao gồm một số stopwords hoặc ngừng – cụm từ và không phải người khác .

Ví dụ

Truy vấn ban đầu : “chỉ cho tôi cách lời bài hát”

Truy vấn thay thế :

cách lời bài hát
chỉ cho tôi cách * lời bài hát
** Cách lời bài hát
*** Cách lời bài hát

kết luận

Thật thú vị để xem làm thế nào Google có thể đã cố gắng để hiểu xem stopwords là có ý nghĩa hay không khi họ xuất hiện trong các truy vấn tìm kiếm, bằng cách so sánh kết quả tập hợp có và không có từ dừng lại ( và bằng cách sử dụng giữ chỗ trong một số các so sánh).

Tìm kiếm trên Google với các truy vấn có chứa stopwords dường như cung cấp kết quả mà tập trung vào các trang có cụm từ có chứa các stopwords trong truy vấn trở lại – phần lớn thời gian . Đôi khi , kết quả cho thấy Nói cách khác nơi stopwords ban đầu đã xuất hiện để thay thế. Ví dụ, một tìm kiếm trên ” phòng cho một cái nhìn ” (không có dấu ngoặc kép) cho thấy kết quả cho cụm từ ” một căn phòng với một cái nhìn . ” công ty seo chất lượng

Google vẫn là sau quá trình so sánh trên, có giữ chỗ cho stopwords , hoặc là nó làm cái gì khác , chẳng hạn như cung cấp một kết quả bằng cách mở rộng một truy vấn dựa trên dữ liệu người dùng như nhìn vào các phiên bản truy vấn trong các buổi tìm kiếm cá nhân ? Hay cái gì khác hoàn toàn?