KHAI TRIỂN KẾT NỐI GIỮA SÁCH TRÊN GOOGLE SÁCH TÌM KIẾM

Vào tháng Chín năm 2007, các nhà khoa học nghiên cứu của Google Bill Schilit và Okan Kolak công bố một tính năng mới cho Google Book Search mà họ gọi là ưa thích Passages . Thông báo đến trong một bài đăng blog Bên trong Tìm kiếm Sách của Google mang tên Dive vào hồ bơi meme với Google Book Search

Phổ biến Passages cho chúng ta khả năng tìm thấy mối liên hệ giữa cuốn sách bằng cách trích dẫn thú vị hoặc đoạn từ một cuốn sách hay tạp chí hay ấn phẩm , và hiển thị, nơi những người xuất hiện trong tác phẩm văn học khác . Ví dụ, đoạn văn sau đây cho thấy các cuốn sách Moneyball : The Art of Winning một trò chơi không lành mạnh:

Như vậy : thời gian gần đây trong một tai nạn của một con tàu ở California, một trong những hành khách gắn chặt một vành đai về anh ta với £ 200 của vàng ở trong đó , mà ông đã được tìm thấy sau đó ở phía dưới. Bây giờ, khi ông đã chìm – có anh vàng ? hoặc có vàng anh ta?
Quote John Ruskin này bắt đầu ra khỏi cuốn sách, và xuất hiện trong ít nhất 35 ấn phẩm khác.

Đoạn có thể được lấy từ các tài liệu trong một cuốn sách xuất hiện trong dấu ngoặc kép , như một ở trên, hoặc trong những đoạn không thể viện chứng từ các văn bản của cuốn sách. Ví dụ, một đoạn khác từ Moneyball xuất hiện trên trang 37 của cuốn sách:

Theo quan điểm của Thánh Phaolô, đó là điều tuyệt vời về những cầu thủ đại học : họ có số liệu thống kê có ý nghĩa. Họ chơi trò chơi nhiều hơn, chống cạnh tranh cứng hơn, so với các cầu thủ trung học. Cỡ mẫu thống kê có liên quan của họ là lớn hơn, và do đó một sự phản ánh chính xác hơn về một số thực tế cơ bản . Bạn có thể dự án các cầu thủ đại học một cách chắc chắn hơn bạn có thể dự án cầu thủ trung học. Các …

Các tính năng được ưa thích Passages cho chúng ta biết đoạn này xuất hiện trong hai cuốn sách từ 2003-2008, và chúng tôi thấy rằng các cuốn sách khác xuất hiện trong là
Bóng chày kinh tế : Các trò chơi Real xúc

Khả năng tạo ra các liên kết giữa các tài liệu dựa trên đoạn được chia sẻ giữa chúng, trong một bộ sưu tập rất lớn các tài liệu mà không chứa các liên kết với nhau điều thú vị về tính năng được ưa thích Tìm kiếm Sách Passages là .

Một sự bổ sung tính năng này xem xét các văn bản của các đoạn , và một số tiền nhất định từ sau khi họ xác định điều khoản quan trọng mà cùng xảy ra trong bối cảnh của những đoạn , do đó những đoạn và những cuốn sách họ được chứa trong có thể được tìm kiếm bởi những ” ý tưởng chính . ”

Những thách thức kỹ thuật đằng sau sự phát triển của Popular Passages và những ý tưởng quan trọng tìm kiếm được mô tả trong một vài giấy tờ trắng từ các nhà nghiên cứu sau các quá trình :

Liên kết tạo ra bởi Khai thác Trích dẫn (pdf)
Khám phá một thư viện kỹ thuật số thông qua ý tưởng chính (pdf) – trình bày (pdf)
Ngoài ra còn có một số hồ sơ bằng sáng chế của Google liên quan đến việc xác định các trích dẫn và đoạn và ý tưởng chính, và các bảng xếp hạng của những đoạn khi họ xuất hiện như là kết quả trong Tìm kiếm Sách của Google:

Xác định và liên kết Passages tương tự trong một văn bản kỹ thuật số Corpus
Được phát minh bởi William N. Schilit , Okan Kolak , và Adam Mathes
Giao cho Google
Ứng dụng bằng sáng chế Mỹ 20090024606
Công bố ngày 22 tháng 1 năm 2009
Nộp : 20 tháng 7 2007

trừu tượng

Một corpus chứa văn bản kỹ thuật số từ nhiều tài liệu . Một công cụ khai thác đoạn xác định đoạn tương tự như trong các tài liệu và lưu trữ dữ liệu mô tả những điểm tương đồng . Các nhóm công cụ khai thác đoạn đoạn tương tự thành các nhóm dựa trên mức độ tương tự hoặc các tiêu chuẩn khác .

Các công cụ khai thác đoạn đứng đoạn tương tự được tìm thấy trong corpus văn bản dựa trên chất lượng hoặc tiêu chuẩn khác. Giao diện người dùng được trình bày bao gồm các liên kết siêu văn bản liên quan đến đoạn tương tự mà cho phép người dùng điều hướng các tài liệu.

Xếp hạng đoạn tương tự
Được phát minh bởi William N. Schilit , Okan Kolak , và Justin John Paul Vincent – Foglesong
Ứng dụng bằng sáng chế Mỹ 20090055389
Công bố ngày 26 tháng 2 2009
Nộp : 05 tháng 6 năm 2008

trừu tượng

Đoạn trong một ngữ liệu kỹ thuật số được ghi và xếp hạng dựa ít nhất một phần vào đặc điểm của các trường hợp của những đoạn xảy ra trong corpus .

Đặc điểm này bao gồm sự phổ biến của các tác giả , đặc điểm của những lời giới thiệu và sau đoạn tương tự, tần số xuất hiện của đoạn văn trong ngữ liệu kỹ thuật số , độ dài của các đoạn tương tự, những lời của các đoạn tương tự, việc sử dụng dấu chấm câu với những đoạn văn tương tự, và sự khuếch tán của đoạn văn tương tự trong corpus kỹ thuật số.

Các đặc tính được ghi bàn và trọng để sản xuất điểm xếp hạng cho các đoạn liên quan. Điểm xếp hạng được sử dụng cho các mục đích bao gồm lựa chọn đoạn để hiển thị kết hợp với tài liệu và những đoạn xếp hạng hiển thị để đáp ứng với một tìm kiếm.

Xác định thuật ngữ chính liên quan đến Passages tương tự
Được phát minh bởi William N. Schilit và Okan Kolak
Ứng dụng bằng sáng chế Mỹ 20090055394
Công bố ngày 26 tháng 2 2009
Nộp : ngày 30 tháng 1 năm 2008

trừu tượng

Điều khoản chính cho đoạn tương tự từ một ngữ liệu lớn được xác định và được sử dụng để tăng cường tìm kiếm và duyệt corpus . Ngữ liệu có chứa nhiều tài liệu như văn bản của cuốn sách.

Duyệt theo khái niệm được hỗ trợ bằng cách xác định một tập hợp các đoạn tương tự hoặc trích dẫn trong các tài liệu được lưu trữ trong tập văn bản và gán điều khoản quan trọng để đoạn nối đoạn khái niệm có liên quan với nhau.

Bối cảnh của mỗi trường hợp đoạn được xác định và có thể bao gồm , ví dụ, các văn bản xung quanh đoạn văn . Bối cảnh của tất cả các trường đoạn tương tự được phân tích để xác định điều khoản quan trọng cho việc thông qua tương tự.

Các điều khoản quan trọng có liên quan được phân tích để xác định mối quan hệ giữa các điều khoản quan trọng từ bộ đoạn văn tương tự khác . Các điều khoản quan trọng có thể được sử dụng như một cơ sở cho việc điều hướng các tài liệu trong corpus . Các điều khoản chính cho phép truy cập các tài liệu trong corpus bởi khái niệm tham chiếu trong tài liệu.

Tìm kiếm Sách Google cung cấp một số tính năng thú vị khác, chẳng hạn như :

Ý kiến ​​của cuốn sách được liệt kê, công ty seo
Tài liệu tham khảo từ các trang web và cuốn sách khác và các công trình học thuật,
Liên kết đến các phiên bản khác của cùng một cuốn sách và cuốn sách có liên quan ,
Danh sách các ” điều khoản quan trọng ” xuất hiện trong cuốn sách với các liên kết đến nơi mà họ xuất hiện, và ;
Một bản đồ của Google đến những nơi được đề cập trong cuốn sách.
Những bài báo trên cho chúng ta biết được ưa thích Passages đã chứng tỏ là một trong những tính năng điều hướng phổ biến nhất của Google Book Search từ khi phát hành .

Tôi không ngạc nhiên với sự thừa nhận đó. Có thể tìm thấy giá thú xuất hiện trong một cuốn sách, và được chia sẻ trong cuốn sách khác là một cách hấp dẫn để khám phá những ý tưởng trong cuốn sách được chia sẻ bởi các tác giả khác , và để xem làm thế nào những ý tưởng lây lan.

Nhìn thấy như thế nào các nhà phát minh của Popular Passages đã đưa ra phương pháp của họ để tìm kiếm đoạn chia sẻ thú vị trong văn bản được quét và xếp hạng chúng , trong những bài báo và hồ sơ bằng sáng chế trên, cho chúng ta hiểu thấu đáo cách thách thức của tìm kiếm và khám phá những ý tưởng có thể được phát hiện.

Điều này có nghĩa gì cho tìm kiếm trên web? công ty seo website

Xem xét sự phát triển của sẵn có của sách, tạp chí , và các tài liệu khác trên web mà không cần các siêu liên kết , các phương pháp tìm kiếm thông tin như các liên kết tự động giữa ưa thích Passages trong những tài liệu in ấn và xác định các thuật ngữ truy vấn phù hợp với ý tưởng chính được lấy từ văn bản liên quan đến các đoạn có thể trở nên khá phổ biến trên các trang web trong tương lai.