Những huyền thoại về hình phạt nội dung trùng lặp

Thảo luận trong 'Hướng dẫn SEO Web lên TOP - Onpage' bắt đầu bởi Học SEO Web, 13/1/17.

  1. Học SEO Web Team quản lý Ravak

    Những huyền thoại về hình phạt nội dung trùng lặp
    Có rất nhiều những rắc rối xung quanh cách Google xử lý nội dung trùng lặp. Nhưng bạn đừng lo lắng, tôi có mặt tại đây để giúp bạn xóa bỏ những lo lắng đó.

    Nhiều người e ngại về nội dung trùng lặp hơn là các liên kết spam. Có rất nhiều những huyền thoại xung quanh nội dung trùng lặp mà mọi người thực sự nghĩ rằng nó gây ra một hình phạt và các trang của họ sẽ cạnh tranh với nhau và làm tổn thương trang web của bạn. Tôi thấy các bài viết diễn đàn, Reddit threads, technical audits, tools và thậm chí trang web tin tức SEO xuất bản các bài viết cho thấy rõ ràng rằng có nhiều người không hiểu về cách Google xử lý nội dung trùng lặp.
    [​IMG]

    Google đã cố gắng giết chết những huyền thoại xung quanh nội dung trùng lặp. Susan Moska đăng tải bài viết trên blog Google Webmaster vào năm 2008:

    Chúng ta hãy làm cho nó đi ngủ mãi mãi: không có cái gọi là "hình phạt nội dung trùng lặp. Bạn có thể giúp các webmaster của bạn bằng cách không duy trì huyền thoại về hình phạt nội dung trùng lặp".

    Nội dung trùng lặp là gì?

    Theo Google:

    Nội dung trùng lặp thường dùng để chỉ các khối nội dung bên trong hoặc bên ngoài domain hoặc là hoàn toàn rất giống với nội dung khác.

    Nhiều người nhầm lẫn nội dung trùng lặp với một hình phạt vì cách Google xử lý nó. Thực sự là trùng lặp chỉ được lọc trong các kết quả tìm kiếm. Bạn có thể tìm thấy điều này bằng cách adding &filter=0 vào cuối URL và loại bỏ bộ lọc.

    Adding &filter=0 vào cuối URL trên một tìm kiếm với “raleigh seo meetup” sẽ hiển thị chính xác 2 lần. Tôi không nói rằng Meetup đã làm một công việc tốt, bởi họ có 2 phiên bản (HTTP và HTTPS), cả hai đều sử dụng thẻ canonical nhưng tôi nghĩ rằng nó không hiển thị chính xác cùng môt trang được index.
    [​IMG]

    Có bao nhiêu trang web là duplicate?

    Theo Matt Cutts, 25-30% trang web là trùng lặp nội dung. Một nghiên cứu gần đây của Raven Tools dựa trên dữ liệu từ site auditor tool của họ, họ đã nhìn thấy một kết quả tương tự, trong đó có 29% các trang có nội dung trùng lặp.

    Suy nghĩ của Google về trùng lặp nội dung?

    Có nhiều bài viết rất hay đã được xuất bản bởi Google. Tôi sẽ cung cấp cho bạn một bản tóm tắt các phần tốt nhất nhưng tôi khuyên bạn nên đọc qua các bài viết dưới đây:

    - Nội dung trùng lặp không khiến trang web của bạn bị phạt.
    - Google biết rằng người dùng muốn sự đa dạng trong kết quả tìm kiếm, vì vậy họ chỉ hiển thị một phiên bản.
    - Google thiết kế các thuật toán để tránh nội dung trùng lặp đến từ các webmaster.
    - Nội dung trùng lặp không phải là căn cứ để hành động trừ khi mục đích của nó là thao túng kết quả tìm kiếm.
    - Điều tồi tệ nhất có thể xảy ra từ bộ lọc này là một phiên bản ít được mong muốn sẽ hiển thị trong kết quả tìm kiếm.
    - Google cố gắng để xác định nguồn gốc của nội dung và hiển thị nó.
    - Nếu ai đó sao chép nội dung của bạn mà không được sự cho phép, bạn có thể yêu cầu xóa bỏ nó bằng cách gửi yêu cầu theo Digital Millennium Copyright Act.
    - Đừng chặn truy cập vào nội dung trùng lặp. Nếu không thể thu thập tất cả các phiên bản, chúng không thể hợp nhất các tín hiệu.

    Tham khảo thêm các nguồn sau:

    - Deftly dealing with duplicate content
    - Duplicate content due to scrapers
    - Google, duplicate content caused by URL parameters, and you
    - Duplicate content summit at SMX Advanced
    - Learn the impact of duplicate URLs
    - Duplicate content (Search Console Help)

    Nguyên nhân của nội dung trùng lặp

    - HTTP và HTTPS
    - www và non-www
    - Parameters và faceted navigation
    - Session IDs
    - Trailing slashes
    - Index pages
    - Alternate page versions hoặc AMP pages hoặc print

    Dev/hosting environments

    - Pagination
    - Scrapers
    - Phiên bản Country/language

    Các giải pháp cho nội dung trùng lặp

    Giải pháp này sẽ phụ thuộc vào tình hình cụ thể:

    - Không làm gì và hy vọng Google nhận được nó ngay.Trước đây Google sẽ gộc các trang và hợp nhất các tín hiệu, xử lý hiệu quả các vấn đề nội dung trùng lặp của bạn.

    - Thẻ canonical. Thẻ này được sử dụng để hợp nhất các tín hiệu và chọn phiên bản yêu thích của bạn.

    - Chuyển hướng 301. Chuyển hướng này ngăn chặn các trang có vấn đề trùng lặp bằng cách chặn một số phiên bản thay thế được hiển thị.

    - Nói cho Google cách xử lý các thông số URL. Thiết lập này sẽ cho Google thấy được các thông số thực sự đang làm việc thay vì cố gắng để tìm ra nó.

    - Rel=”alternate”. Được sử dụng để hợp nhất các phiên bản thay thế của một trang, chẳng hạn như các trang mobile hoặc các trang quốc gia/ngôn ngữ. Với các trang quốc gia/ ngôn ngữ, hreflang được sử dụng để hiển thị các trang quốc gia / ngôn ngữ chính xác trong các kết quả tìm kiếm. Một vài tháng trước, John Mueller trả lời các câu hỏi trong Hangout Webmaster, nói rằng việc fix hreflang sẽ không tăng thứ hạng nhưng sẽ giúp các phiên bản được hiển thị chính xác.

    - Rel=”prev” và rel=”next”. Sử dụng cho việc phân trang.

    TL; DR

    Có một số điều mà thực sự có thể gây ra vấn đề, chẳng hạn như scrap/spam nhưng hầu hết các phần, vấn đề được gây ra bởi chính các trang web. Đừng disallow trong robots.txt, đừng noindex, đừng canonical từ các trang đang nhắm mục tiêu từ khóa dài nhưng hãy sử dụng các tín hiệu nói trên cho các vấn đề cụ thể của bạn để tìm ra cách bạn muốn xử lý nội dung trùng lặp. Kiểm tra phần trợ giúp của Google về nội dung trùng lặp.

    Các huyền thoại về hình phạt nội dung trùng lặp cần phải xóa bỏ hoàn toàn. Những hiểu lầm cần thông tin chính xác hay những huyền thoại này có thể xuất hiện khoảng thêm 10 năm nữa. Có rất nhiều cách để củng cố tín hiệu trên nhiều trang và thậm chí nếu bạn không sử dụng chúng, Google sẽ cố gắng hợp nhất tín hiệu của bạn.

    Ghi nguồn


    Mã:


    www.thegioiseo.com

    https://ravak.com.vn
     
XenForo Add-ons by Brivium ™ © 2012-2013 Brivium LLC.