Google index dữ liệu theo kiểu mới

Đối với nhiều truy vấn tìm kiếm , kết quả tìm kiếm rất gần đây (ví dụ như từ 6-12 giờ cuối cùng ) được ưa thích hơn kết quả cũ và cũ hơn có thể xếp hạng tốt dựa trên tín hiệu phổ biến , bao gồm cả giao thông sử dụng trong quá khứ đáng kể mà có thể khiến họ đã được giao một thứ hạng cao . Điều đó có thể làm việc tốt nếu bạn nghĩ về công cụ tìm kiếm như một kho lưu trữ các trang mà có thể có liên quan như tài liệu tham khảo , giống như một thư viện .

Nhưng với các trang web trở thành một nơi mà mọi người thường xuyên tweet cập nhật mạng xã hội, với các nguồn tin tức phấn đấu để được là người đầu tiên công bố về các chủ đề vi phạm , các blogger xuất bản về các chủ đề mới , thương nhân cung cấp sản phẩm mới và chiết khấu cũ , và nội dung trực tuyến khác xuất hiện với nhấn mạnh vào sự tươi mới , công cụ tìm kiếm ngày càng trở nên một thời gian thực màn hình gần của thế giới xung quanh chúng ta .

Máy thiết lập Linotype loại cũ mà đã có phần có thể chuyển động nhiều hơn khi nó được xây dựng hơn bất cứ điều gì khác.

Một dấu hiệu trên Linotype loại thiết lập máy trên lưu ý rằng nó có bộ phận chuyển động hơn khi nó được xây dựng hơn bất cứ điều gì khác bao giờ được xây dựng bởi người đàn ông . Nó đã không tạo ra nội dung mới một cách nhanh chóng , hoặc, nhưng nó là nhà nước của nghệ thuật vào thời điểm đó .

Đến cuối năm ngoái, tôi đã viết một bài về chủ đề Cập nhật mới Freshness của Google : Truyền thông xã hội đã thay đổi những kỳ vọng của Searchers.

Khoảng một tháng trước đó, tôi đã viết về cách Yahoo có thể tìm đến phương tiện truyền thông xã hội để khám phá các đường dẫn mới về các chủ đề bùng phát và tươi trong Đỗ Công cụ tìm kiếm sử dụng truyền thông xã hội để khám phá chủ đề mới?

Với cả Google và Yahoo khám phá cách thức mới để khám phá nội dung tươi cho kết quả tìm kiếm , mà lá chúng tôi tự hỏi những gì Bing có thể làm trong khu vực đó.

Một trong những điều mà tôi thực sự thích về kết quả tìm kiếm của Google là khả năng tinh chỉnh kết quả tìm kiếm của tôi dung từ giờ qua, qua 24 giờ, tuần qua, tháng qua, và năm vừa qua, hoặc một phạm vi ngày tùy chỉnh. Yahoo cũng cung cấp cơ hội để lọc các tìm kiếm của ngày hôm qua , tuần qua, và tháng vừa qua. Và mặc dù Yahoo sử dụng dữ liệu thu thập dữ liệu của Bing , Bing không quy định loại lọc bởi khoảng thời gian gần đây.

Một bằng sáng chế của Microsoft cấp tuần này thảo luận về một chiến lược mà họ có thể sử dụng để cố gắng bao gồm nhiều nội dung mới trong các kết quả tìm kiếm của họ .

Quá trình này liên quan đến việc sử dụng một chỉ số ” trong bộ nhớ “, thêm vào chỉ số đảo ngược của Bing để trả lại kết quả từ các công cụ tìm kiếm . Chỉ số trong bộ nhớ sẽ được cập nhật trong quá trình một ngày, và bao gồm các nội dung tươi hơn chỉ số đảo ngược Bing của trang web. Nội dung thêm vào chỉ mục trong bộ nhớ có thể được xếp vào chỉ số của Bing ngược trên một cơ sở hàng ngày , hoặc một số lượng thiết lập khác của thời gian .

Tìm kiếm sẽ được đáp ứng bởi các chỉ số đảo ngược , và sau đó chỉ số trong bộ nhớ sẽ được kiểm tra cho kết quả có liên quan bổ sung, trong đó bao gồm nội dung tươi thêm vào trong quá trình cả một ngày. Sau đó, kết quả trả về sẽ được xếp hạng và sẽ bao gồm các kết quả rất gần đây nếu có bất kỳ .

Chúng tôi không biết nếu quá trình được mô tả trong bằng sáng chế này là một trong đó Microsoft đã thực hiện , là một trong những họ khám phá và quyết định một cách tiếp cận khác nhau, hoặc có thể đã lỗi thời. Chúng ta biết rằng cập nhật Caffeine của Google, trong đó giới thiệu các hệ thống bình lược để chỉ mục của Google để di chuyển từ một bản cập nhật hàng loạt chỉ số của họ cho một gia tăng, một đã diễn ra một vài năm trước đây .

Quá trình được mô tả trong bằng sáng chế này xuất hiện để cung cấp nội dung cập nhật để tìm kiếm trong khi vẫn giữ lại một quá trình thực thi mà nếp gấp nội dung mới vào cơ sở dữ liệu cũ trên cơ sở định kỳ .

Vì vậy, những loại nội dung được thêm vào chỉ mục trong bộ nhớ ?

Hành vi người dùng đáng kể tập trung vào một tài liệu có thể gây ra việc bổ sung các nội dung mà chỉ số trong bộ nhớ . Hành vi đó có thể đến từ một khung thời gian gần đây được xác định trước , chẳng hạn như trong vòng 12 giờ qua hoặc trong bảy 7 ngày qua. Quan trọng là hoạt động từ đủ người dùng khác nhau trong khoảng thời gian đó .

Một tín hiệu có thể được xem xét là liệu hành vi được gắn với một sửa đổi được thực hiện cho một trang , ví dụ như thay đổi nội dung làm thay đổi ít nhất một hạn trên một trang , ví dụ như giá mới tại một trang web bán lẻ dựa trên .

Công cụ tìm kiếm có thể tìm hiểu về những thay đổi về nội dung và các dấu hiệu của hành vi người dùng đáng kể thông qua tập tin cập nhật từ các trang web , như trình sản phẩm nguồn cấp dữ liệu và bản đồ website XML và có khả năng ngay cả một cái gì đó như thức ăn dữ liệu của Twitter tweet mới, và thu thập dữ liệu các trang của một trang web và so sánh chúng với các phiên bản trước đó.

Một tìm kiếm của Bing cho một số môn học chuyên đề rất gần đây, như một tìm kiếm cho [ trận động đất ] không hiển thị các loại kết quả gần đây mà tôi mong chờ , vì vậy nó có thể là họ đã không kết hợp sự thay đổi này vào kết quả của họ .

Các bằng sáng chế của Microsoft là :

Sử dụng dữ liệu hành vi để nhanh chóng cải thiện thứ hạng tìm kiếm
Được phát minh bởi Walter Sun, Jay Kumar Goyal , Pratibha Permandla , Yinzhe Yu , và Jingfeng Li
Giao cho Microsoft
US Patent 8.244.701
Cấp ngày 14 tháng tám 2012
Nộp : 27 tháng 6 2011

trừu tượng

Hệ thống và phương pháp để áp dụng dữ liệu hành vi người dùng để cải thiện truy vấn tìm kiếm kết quả xếp hạng được cung cấp. Khi nhận được một tập tin cập nhật chỉ ra rằng gần đây, đáng kể dữ liệu hành vi người dùng có sẵn cho một tài liệu liên kết với một chỉ số đảo ngược , các tập tin cập nhật được công bố định kỳ và thường xuyên đến một máy chủ chỉ mục . Sau khi lọc ra những thông tin cập nhật liên quan từ các tập tin cập nhật , máy chủ chỉ trích các định dạng của các tài liệu có dữ liệu liên quan đến hành vi người dùng . Tập tin cập nhật và nhận dạng các tài liệu được sử dụng để cập nhật một chỉ mục trong bộ nhớ có chứa đại diện của siêu dữ liệu chỉ định của hành vi người dùng .

Chỉ số trong bộ nhớ được cập nhật liên tục và sử dụng để phục vụ kết quả truy vấn tìm kiếm để đáp ứng với truy vấn tìm kiếm của người dùng. Kết quả truy vấn tìm kiếm của chỉ số trong bộ nhớ được xếp hạng bằng cách sử dụng dữ liệu hành vi người dùng trước khi ăn . Như vậy, kết quả kết hợp với , siêu dữ liệu sử dụng hành vi đáng kể gần đây nhận được vị trí nổi bật trên trang kết quả tìm kiếm.

Hãy aways

Một trong những lĩnh vực mà Bing dường như rơi đằng sau Google và Yahoo là trong hiển thị kết quả tìm kiếm lọc bởi ngày hôm qua , tuần , tháng . Tôi không chắc chắn lý do tại sao Yahoo cung cấp tính năng này và Bing thì không. Một cái nhìn kết quả tìm kiếm cho một thuật ngữ như [ trận động đất ] tại Google và Bing cho thấy một số kết quả hơi kịp thời hơn từ Google hơn từ Bing , nhưng thời gian thực kết quả mà Google sử dụng để hiển thị bao gồm dữ liệu từ luồng dữ liệu của Twitter đang bị mất trong này khu vực .

Quá trình được mô tả trong bằng sáng chế của Microsoft này cho thấy một bước tiến trong việc lập chỉ mục gia tăng của các kết quả tìm kiếm mà Google đạt được với cập nhật Caffeine của họ , nhưng nó không có vẻ như Bing đã thực hiện quá trình này được nêu ra trong một cách mà có bề mặt nội dung gần đây. Nó có thể là một sự thay đổi như vậy có thể mang lại kết quả tìm kiếm chất lượng thấp hơn để Bing , và có thể được giữ quá trình này từ được sử dụng.

Các trang và nội dung nhanh hơn đi từ được xuất bản trực tuyến để được bao gồm trong một chỉ mục tìm kiếm và kết quả tìm kiếm , ít thời gian hơn để có phân loại , phân loại và xác định chất lượng của các kết quả.

Tại một Q & A phiên ngày hôm qua tại SES San Francisco, Matt Cutts của Google đã trả lời một số câu hỏi thú vị về những gì Google đang làm để tìm kiếm những ngày này. Một trong những điểm ông đã là ” Bạn không nên đặt rất nhiều trọng lượng trên 1 s chỉ được nêu ra ” . Rõ ràng là Google vẫn đang thử nghiệm với trọng lượng bao nhiêu họ nên cung cấp cho các tín hiệu xã hội liên quan đến các vị trí trong kết quả tìm kiếm . Nó có thể là tín hiệu xã hội có thể hữu ích trong bảng xếp hạng nội dung rất gần đây trên trang web, đặc biệt là kể từ khi hầu hết các trang rất xuất bản gần đây đã không có một cơ hội để tích lũy liên kết như là một tín hiệu chất lượng có thể giúp một công cụ tìm kiếm để xác định thứ hạng cho trang .

Nội dung tin tức không có xu hướng xuất hiện một cách nhanh chóng và được xếp hạng cao trong kết quả tìm kiếm Web , nhưng kết quả tin tức của Google được giới hạn cho các trang web đã được chấp nhận như là nguồn tin tức , và có khả năng liên tục giám sát về chất lượng nội dung và đánh giá trên một bộ khác nhau của thuật toán hơn các thể loại khác của các trang web để xác định thứ hạng .

Cơ hội được rằng Bing đang đấu tranh để tìm thấy một số các câu trả lời tương tự như thế nào để xếp hạng nội dung rất gần đây. Bằng sáng chế này cho thấy một nỗ lực để di chuyển theo hướng đó.