File robots.txt là một trong những tập tin được mọi website sử dụng để điều hướng bots, spiders. Việc sử dụng robot txt sẽ mang lại nhiều lợi ích. Hãy cùng SONQB Solutions tìm hiểu File robots.txt là gì và cách tạo một file chuẩn Seo cho website như thế nào qua bài viết sau đây.
File robots.txt là gì?
Tập tin robots.txt đóng vai trò quan trọng cho phép bot công cụ tìm kiếm đánh chỉ mục (index) một khu vực nào đó. Nó là một dang text đặc biệt không phải HTML.
Với mọi website đều phải có tập tin này. Tại sao lại như vậy? Bởi lẽ một trang web bất kỳ đều xuất hiện rất nhiều URL, tuy nhiên một số URL lại không có giá trị về mặt SEO. Đôi khi chúng trùng lặp từ các biến thể gốc.
Chẳng hạn như:
https://www.sonqb.com/thu-thuat-seo/page/2/
https://www.sonqb.com/thu-thuat-seo/page/3/
Công dụng của file robots.txt là gì?
Dưới đây là một số công dụng tuyệt vời mà tập tin này mang lại:
Chặn bot thu thập dữ liệu
Vai trò đầu tiên cần nhắc tới đó chính là chặn bot, khi chúng ta mới bắt đầu xây dựng một website có khá nhiều thứ chưa được tối ưu. Nếu lỡ may để Google thu thập các dữ liệu đó sẽ bị coi là “rác” và không đánh giá cao website của bạn. Sử dụng robot txt sẽ ngăn chặn không cho index bất kỳ một page nào bạn muốn.
Chặn bọ quét backlink
Ahrefs, Majestic và Moz hiện tại là 3 công cụ kiểm tra backlink khá tốt. Nếu bạn không muốn cho đối thủ phân tích backlink thì nên sử dụng Robots.txt.
Hướng dẫn cách tạo file robots.txt cho website WordPress
Nếu bạn sử dụng mã nguồn WordPress một tập tin thông thường khi tạo ra sẽ có dạng:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.sonqb.com/sitemap_index.xml
Giải thích:
- User-agent: Khai báo tên công cụ tìm kiếm muốn điều khiển, khi đặt dấu “*” sẽ cho tất cả công cụ thu thập dữ liệu
- Disallow: Ngăn chặn bot ghé thăm một thu mục, url nào đó trên website
- Allow: Ngược lại với Disallow. Nó sẽ cho phép bot truy cập vào
- Sitemap: Tập tin bản đồ các URL trong website
Trong WordPress để tạo file robots.txt trước tiên cần cài đặt plugin Yoast Seo
Tại cột Menu bên trái bạn rê chuột vào SEO
=> Tools
(Công cụ)
Tiếp theo nhấp vào File Editor
Dán đoạn mã vào trong khu vực cho phép sau đó ấn Save changes to robots.txt
để lưu lại
Nên chặn những tập tin nào trong file robots.txt
Khi muốn chặn một thư mục nào đó ta sử dụng Disallow, tuy nhiên bạn cần thận trọng khi thực hiện điều này. Bởi nếu không biết sẽ vô tình cản trở quá trình lập chỉ mục website khiến nó không thể index.
Một số tập tin nên chặn đó là:
- Các page có dạng như thế nào /page/2/, /page/3/. Bạn sẽ chèn thêm một dòng Disallow: /page/*
- Nếu không muốn cho index một bài viết bất kỳ thêm dòng Disallow: /url-bat-ky/
- Nên chặn bot truy cập vào thư mục /wp-admin/ và /wp-content/ bằng dòng Disallow: /wp-admin/ và Disallow: /wp-content/
- Nên cho phép bot thu thập hình ảnh Allow: /wp-admin/images/*
Bài viết này SONQB Solutions đã giải thích khái niệm file robots.txt là gì hi vọng bạn sẽ biết cách thực hiện để mang lại hiệu quả tốt nhất khi làm Seo.