Không có cấu trúc quản lý thông tin sáng chế của IBM'S

Sự khác biệt giữa doanh nghiệp tìm kiếm và tìm kiếm web là gì? Phát triển trong tìm kiếm doanh nghiệp sẽ một ngày nào đó cho phép công cụ tìm kiếm được tạo ra chỉ số sức mạnh của web là tốt, hoặc tốt hơn so với công cụ tìm kiếm web hiện nay?

IBM đã được cấp bằng sáng chế của họ ngày hôm nay trên Kiến trúc Quản lý Thông tin phi cấu trúc, được tạo sẵn cho phát triển nguồn mở mùa hè năm ngoái. SourceForge có thêm thông tin về bản chất mã nguồn mở của UIMA, cũng như IBM. IBM gần đây đã quyết định di chuyển phát triển mã nguồn mở này trên Apache.

Không có cấu trúc quản lý thông tin là chủ đề của một tạp chí Hệ thống IBM vào năm 2004, trong đó có một số bài viết chi tiết về chủ đề này. Từng AZ Broder và AC Ciccolo rất khuyến khích, nếu bạn muốn có được một nắm về tiềm năng của phương pháp này để lập chỉ mục thông tin phi cấu trúc – Hướng tới thế hệ tiếp theo của công nghệ tìm kiếm doanh nghiệp. Nó mô tả một số khác biệt giữa doanh nghiệp tìm kiếm và tìm kiếm web, và cung cấp bản tóm tắt của các bài viết khác trong vấn đề này. Tôi thấy đoạn này thú vị:

Lĩnh vực UIM có thể đi vòng tròn đầy đủ: trong khi các mô hình tìm kiếm không có cấu trúc trên web bùng nổ trong lĩnh vực tiêu dùng trước khi được áp dụng trong doanh nghiệp, chúng tôi tin rằng sự kết hợp của các chú thích ngữ nghĩa và ngôn ngữ với tìm kiếm không có cấu trúc sẽ đi theo con đường thông thường đầu tiên được phát triển trong lĩnh vực doanh nghiệp trước khi trở thành phổ biến trong thế giới Web.
Cả hai tác giả cũng được liệt kê trong số các đồng minh trên các bằng sáng chế mới được cấp, và Tiến sĩ Broder hiện tại là Yahoo!

Một số thông tin về các bằng sáng chế công ty seo website.

Hệ thống, phương pháp và sản phẩm chương trình máy tính để thực hiện quản lý thông tin phi cấu trúc và phân tích văn bản tự động, và cung cấp quan điểm tài liệu có nguồn gốc từ nhiều tài liệu khác nhau tokenizations
Được phát minh bởi Andrei Z Broder, David Carmel, Arthur C. Ciccolo, David Ferrucci, Yoelle Maarek, Yosi Thánh Lễ, Aya Soffer, và Wlodek W. Zadrozny
Giao cho IBM
US Patent 7.139.752
Cấp 21 tháng 11 năm 2006
Nộp ngày 30 Tháng Năm 2003

Trừu tượng

Tiết lộ là một kiến ​​trúc hệ thống, các thành phần và một kỹ thuật tìm kiếm cho một hệ thống quản lý phi cấu trúc thông tin (UIMS). Các UIMS thể được cung cấp như trung gian cho việc quản lý hiệu quả và trao đổi thông tin phi cấu trúc trên một mảng rộng các nguồn thông tin. Kiến trúc thông thường bao gồm một công cụ tìm kiếm, lưu trữ dữ liệu, công cụ phân tích có chứa annotators tài liệu pipelined và bộ điều hợp khác nhau. Các kỹ thuật tìm kiếm này sử dụng một kỹ thuật tìm kiếm hai cấp. Cũng tiết lộ là hệ thống, phương pháp và chương trình sản phẩm máy tính để xử lý dữ liệu tài liệu. Phương pháp này bao gồm nhập một tài liệu và hoạt động ít nhất một công cụ phân tích văn bản bao gồm một đa số annotators ghép cho tokenizing dữ liệu tài liệu để xác định và chú thích một loại nội dung ngữ nghĩa. Hoạt động động cơ ít nhất một phân tích văn bản tạo ra một đa số quan điểm của một tài liệu, trong đó mỗi của đa số quan điểm được bắt nguồn từ một tokenization khác nhau của tài liệu. Phương pháp hơn nữa bao gồm lưu trữ đa số điểm trong một cấu trúc dữ liệu thông thường liên kết với các tài liệu.

Trong khi IBM bước đầu phát triển công nghệ này, việc phát hành của một số hoặc tất cả của nó phát triển nguồn mở là thú vị ở chỗ nó có thể giúp tăng trưởng kích thích của kiến ​​trúc quản lý thông tin phi cấu trúc này.

Một người đằng sau nghiên cứu này, tiến sĩ Broder, bây giờ là với Yahoo, và một, Tiến sĩ Maarek, hiện đang phụ trách trung tâm nghiên cứu Haifa của Google. Nó có thể là ý tưởng phát triển trong khi kiến ​​trúc này đã được tạo ra nằm trong số những người bị xem xét trong khi cả hai công cụ tìm kiếm hướng tới tương lai công ty seo.

Công nghệ sẽ phát triển đầu tiên trong lĩnh vực doanh nghiệp vượt qua đó phát triển trên web, hoặc hợp nhất với nó? Nó có thể.