CÙNG-SITE TRANG SAO CHÉP AT URL khác nhau

Một trong những vấn đề kỹ thuật có thể gây ra vấn đề với một công cụ tìm kiếm thu thập dữ liệu một trang web để chỉ mục các trang của nó là khi nội dung của các trang trên trang web đó xuất hiện nhiều lần trên các trang web ở các URL khác nhau ( định vị tài nguyên duy nhất , hoặc địa chỉ trang web ) .

Thật không may, vấn đề này xảy ra thường xuyên hơn là cần.

Một ứng dụng bằng sáng chế mới từ Yahoo tìm hiểu làm thế nào họ có thể xử lý các URL động để tránh vấn đề này . Những gì là tốt đẹp về các ứng dụng bằng sáng chế là nó xác định một số các vấn đề có thể phát sinh do nội dung trùng lặp ở các địa chỉ web khác nhau trên cùng một trang web , và một số phương pháp mà họ có thể sử dụng để giải quyết vấn đề .

Trong khi công cụ tìm kiếm như Yahoo có thể giải quyết một số vấn đề xung quanh nội dung trùng lặp , nó thường vì lợi ích tốt nhất của các chủ sở hữu trang web để không dựa vào công cụ tìm kiếm để khắc phục vấn đề này một mình.

Tránh trùng lặp Crawling Trang
Chương trình thu thập dữ liệu duyệt web trên toàn thế giới và xác định và chỉ số càng nhiều thông tin càng tốt. Các chương trình này xác định vị trí các trang mới cũng như cập nhật trên các trang cũ, vì vậy thông tin có thể được lập chỉ mục và có sẵn để tìm kiếm thông qua các công cụ tìm kiếm .

Trình thu thập web thường bắt đầu thu thập dữ liệu các trang web tại một hoặc nhiều trang web, và làm theo các liên kết đến những trang web đến các trang khác , và như vậy và như vậy.

Một chiến lược mà các chương trình này có thể làm theo để lấy càng nhiều thông tin như họ có thể là cố gắng để chỉ ” thu thập dữ liệu ” các trang cung cấp nội dung duy nhất – các trang chưa được lập chỉ mục hoặc đã được cập nhật nếu họ đã có trong chỉ số .

Một giả định rằng một trình thu thập web có thể làm trong khi sau chiến lược này là một URL duy nhất ( định vị tài nguyên duy nhất ) tương ứng với một trang web duy nhất. Như tôi đã nói ở trên , đây không phải là luôn luôn đúng.

Một công cụ tìm kiếm không muốn chỉ số cùng một trang trên một trang web nhiều hơn một lần , nhưng nó xảy ra, và thường các trang khác của một trang web không được lập chỉ mục trong khi những người khác được lập chỉ mục nhiều lần uder URL khác nhau. Tôi nhớ lại nhìn thấy ít nhất một trang trên một trang web được lập chỉ mục nhiều ngàn lần trong Google .

Vấn đề có thể xảy ra khi một trang web sử dụng một hệ thống quản lý nội dung hay nền tảng thương mại điện tử có sử dụng các URL động .

Một URL động thường là kết quả của tìm kiếm của một trang web cơ sở dữ liệu theo định hướng hoặc URL của một trang web mà chạy một kịch bản . Trái ngược với các URL tĩnh , trong đó nội dung của trang web không thay đổi trừ khi những thay đổi được mã hóa thành HTML, URL động thường được tạo ra từ các truy vấn cơ sở dữ liệu cụ thể cho một trang web .

Các trang web có một số nội dung cố định và một số phần của trang web là một mẫu để hiển thị các kết quả truy vấn , nơi mà nội dung xuất phát từ cơ sở dữ liệu được liên kết với các trang web . Điều này dẫn đến sự thay đổi trang dựa trên các dữ liệu lấy từ cơ sở dữ liệu theo các tham số động .

URL động thường chứa các ký tự sau đây : &, % , + , = , $, cgi . Một ví dụ về URL động có thể là một cái gì đó như sau:

http://www.amazon.com/store?prod=camera

& thương hiệu = sony
& sessionid = 7ek138 – dje72931d91ds .

Nhiều thông số trong URL

URL của một trang có thể chứa nhiều mẩu thông tin trong các lĩnh vực khác nhau, được gọi là các thông số, và trong đó xác định đặc điểm khác nhau và phân loại của một sản phẩm hay dịch vụ, hoặc có thể xác định thứ tự mà trong đó thông tin có thể được hiển thị cho người xem. Dưới đây là một ví dụ về một URL của một trang web trên trang web của JCPenny cho một trung tâm lưu trữ Modular :

http://www5.jcpenney.com/jcp/ProductsHOM.aspx

? DeptID = 40525
& CatID = 40.681
& CatTyp = DEP
& ItemTyp = G
& GrpTyp = STY
& ItemID = 11a46ae
& ProdSeq = 5
& Cat = tự chọn % 2bhutches
& Đẹp = Nội thất & PCAT = ăn uống % 2bkitchen
& PCatID = 40530
& RefPage = ProductList
& Bán =
& ProdCount = 26
& RecPtr =
& ShowMenu =
& TTYP =
& ShopBy = 0
& RefPageName = CategoryAll % 252Easpx
& RefCatID = 40530
& RefDeptID = 40525
& Trang = 1 & CmCatId = NGOẠI | 40530 | 40681

Một công cụ tìm kiếm có thể có vấn đề lập chỉ mục trang đó tại URL đó bởi vì nó có chứa rất nhiều thông số, nhưng nó có thể cố gắng . Google có cùng sản phẩm được liệt kê bảy lần trong các URL khác nhau, với số tiền khác nhau và sự kết hợp của các thông số trong URL của mỗi danh sách.

Khi có nhiều hơn một tham số được sử dụng trong một URL động , nó có thể là nếu một hoặc nhiều tham số được lấy ra từ URL , nội dung của trang không thay đổi trong bất kỳ cách nào . Ví dụ trong các báo ở trên bao gồm một sessionid rằng nếu loại bỏ không làm thay đổi nội dung của trang ( session ID thường được sử dụng bởi các trang web để theo dõi sự tiến bộ của một người truy cập duy nhất thông qua các trang của một trang web ) .

Một tham số thường được sử dụng bởi một số trang web năng động là một tham số theo dõi nguồn cho phép chủ sở hữu trang web biết một người truy cập đến từ trước khi đến trang web.

Vì vậy, mỗi lần một người đến một trang web có sử dụng session ID và ID nguồn trong URL , họ có thể được cho một số duy nhất cho những thông số, mặc dù họ có thể được truy cập vào cùng một trang. Một chương trình công cụ tìm kiếm thu thập dữ liệu cũng có thể được cung cấp một ID phiên cho một trang , cũng như một ID nguồn.

Nếu bạn xem xét thông qua kết quả tìm kiếm trong công cụ tìm kiếm , bạn có thể xem các trang trong chỉ số có phiên ID và ID nguồn trong URL của họ. Một trang web không nên được phục vụ ID phiên hoặc ID nguồn công cụ tìm kiếm . Bởi vì nhiều người làm , các công cụ tìm kiếm có thể kết thúc các trang chỉ mục từ một trang web nhiều hơn một lần .

Nó cũng có thể là một URL có thể thay đổi cho cùng một nội dung vì cách mà thông tin trên trang được sắp xếp hoặc hiển thị , hoặc vì các con đường thông qua một trang web mà ai đó đã để có được một sản phẩm cụ thể .

Nội dung của trang có thể được sắp xếp khác nhau đôi khi , hoặc bao gồm một chút nội dung bổ sung , như một tập hợp các hướng mẩu bánh mì cho thấy các phòng ban và chuyên mục , nội dung tổng thể của trang web tại các URL khác nhau có thể được đáng kể như vậy. Có một khả năng hàng trăm các trang web trùng lặp có thể tồn tại cung cấp các nội dung cụ thể như vậy.

Và một trình thu thập web có thể vô tình gửi tất cả các bản sao được thu thập.

Tại sao chỉ mục Bản sao một vấn đề?

Lãng phí thời gian So sánh trang

Trong khi một công cụ tìm kiếm có thể cố gắng ” thông minh phân tích một trang web cụ thể và so sánh các trang web cụ thể đối với các trang web khác để xác định xem nội dung của các trang web cụ thể là thật sự độc đáo , ” nó không phải là bất thường đối với các lỗi xảy ra trong quá trình phân tích đó. Và nó chiếm nhiều tài nguyên tính toán để truy cập vào các trang web và so sánh chúng.

Bằng cách chi tiêu thời gian thực hiện so sánh của các trang trên một trang web, một công cụ tìm kiếm có thể không dành nhiều thời gian truy cập vào các trang khác đó là hợp lệ và không trùng lặp .

Cho một trang web với hàng ngàn , hoặc thậm chí hàng triệu trang, một chương trình công cụ tìm kiếm thu thập dữ liệu chỉ được sẽ dành một lượng thời gian nhất định trên trang web đó trước khi nó di chuyển trên các trang web khác . Nếu nó cố gắng để chỉ số và so sánh các trang của một trang web quá nhanh, nó có thể ảnh hưởng tiêu cực đến hiệu suất của các trang web trong phục vụ các trang cho du khách. Ngoài ra còn có rất nhiều các trang web mà cần phải được lập chỉ mục trên web.

Vì vậy, một trang web có cùng một nội dung có thể được truy cập theo một số phiên bản khác nhau của các URL có thể sẽ có cùng một trang được lập chỉ mục một số lần , và có các trang khác của trang web không được lập chỉ mục ở tất cả .

Quy định nghiêm ngặt đối với chỉ mục Trang có thể gây ra vấn đề

Một chương trình thu thập dữ liệu cũng có thể đưa ra một bộ quy tắc để làm theo để cố gắng để tránh trùng lặp cho các trang web cụ thể , chẳng hạn như chỉ nhìn vào một số nhỏ các trang có từ ” tương tự như tìm kiếm ” URL. Hoặc nó có thể không truy cập URL dài hơn một số lượng nhất định của nhân vật . Những quy tắc có thể dẫn đến một số lượng đáng kể của nội dung đang được bỏ qua.

Yahoo bằng sáng chế ứng dụng

Xử lý các URL động trong thu thập dữ liệu bảo hiểm tốt hơn nội dung độc đáo
Được phát minh bởi Priyank S. Garg và Arnabnil Bhattacharjee
Ứng dụng bằng sáng chế Mỹ 20080091685
Công bố ngày 17 tháng 4 năm 2008
Nộp : 13 Tháng Mười 2006

trừu tượng

Kỹ thuật để xác định các trang web trùng lặp được cung cấp. Trong một kỹ thuật , một hoặc nhiều tham số của một URL duy nhất đầu tiên được xác định nơi mỗi một hoặc nhiều tham số không ảnh hưởng đáng kể nội dung của các trang web tương ứng. URL đầu tiên và URL tiếp theo có thể được viết lại để thả mỗi một hoặc nhiều tham số .

Mỗi phòng trong số URL tiếp theo được so sánh với URL đầu tiên . Nếu URL tiếp theo là giống như URL đầu tiên , sau đó các trang web tương ứng của địa chỉ URL sau không được truy cập hoặc thu thập thông tin . Trong kỹ thuật khác, các thông số của nhiều URL đều được sắp xếp , ví dụ, theo bảng chữ cái . Nếu có URL là như nhau, sau đó các trang web của các URL bị trùng lặp không được truy cập hoặc thu thập thông tin .

Các ứng dụng bằng sáng chế cung cấp một số chi tiết về một số chiến lược mà các công cụ tìm kiếm có thể làm để cố gắng chỉ URL của một trang web mà không chiếm quá nhiều trang trùng lặp. Các phương pháp được mô tả bao gồm làm những việc như loại bỏ các thông số trong URL có vẻ như là không cần thiết cũng như phiên và nguồn ID , và phân loại các thông số còn lại trong các URL theo số thứ tự và chữ cái.

Ví dụ : công ty seo 

URL này:

http://www.amazon.com/store?prod=camera

& thương hiệu = sony & sessionid = 2k4gd0 – 3k9sx1zc8d

có thể được viết lại để hình thức này :

http://www.amazon.com/store?prod=camera&brand=sony

Các URL khác tìm thấy bởi các trình thu thập cũng được viết lại và so sánh với các hình thức ngắn của URL. Nếu chúng phù hợp thì những trang này không thu thập thông tin và lập chỉ mục.

Công cụ tìm kiếm có thể hiển thị phiên bản ngắn hơn của URL trong chỉ mục của nó trừ khi máy chủ nơi trang được tổ chức cần để xem phiên bản dài hơn để phục vụ trang trong câu hỏi .

kết luận công ty seo uy tín

Quá trình được mô tả trong bằng sáng chế nộp hồ sơ có thể nắm bắt một số URL có chứa nội dung trùng lặp , nhưng nó đứng một cơ hội tốt của nhiều người khác mất tích .

Tôi đã viết trước đây về phương pháp tiếp cận từ Google và Microsoft để cố gắng giải quyết vấn đề này của cùng một nội dung ở các URL khác nhau của một trang web :

Giải quyết các URL khác nhau với các dòng chữ tương tự ( Bụi )
Microsoft Tạo Nội quy cho các URL Canonical
Trong khi nó có thể mất một số công việc cẩn thận và lập kế hoạch , đó là khuyến cáo rằng chủ sở hữu trang web làm việc để tránh việc cùng một nội dung ở các trang khác nhau càng nhiều càng tốt , hơn là dựa trên các công cụ tìm kiếm để tìm ra các URL có chứa nội dung trùng lặp hay không.