File robots.txt chính là công cụ quan trọng để tăng cường hiệu suất và hiệu quả của website trên công cụ tìm kiếm. Nó giúp quản lý cách mà các robot của công cụ tìm kiếm truy cập và thu thập thông tin trên trang web. File robots.txt cũng đóng vai trò quan trọng trong việc tối ưu hóa SEO và cải thiện vị trí của trang web trên kết quả tìm kiếm.
Để tạo file robots.txt, bạn cần chỉ định các chỉ thị và hướng dẫn cho các robot của công cụ tìm kiếm. Việc tạo file robots.txt đơn giản nhưng đòi hỏi sự cẩn thận và hiểu biết về cách hoạt động của các robot tìm kiếm. Đầu tiên, bạn cần xác định các phần của website bạn muốn các robot tìm kiếm truy cập hay không truy cập. Sau đó, viết các quy tắc và chỉ thị vào file robots.txt của bạn. Đảm bảo rằng file này được đặt ở thư mục gốc của website và được viết đúng cú pháp để đảm bảo hiệu quả cho quá trình tìm kiếm và thu thập dữ liệu.
1. File robots.txt là gì?
File robots.txt là một tệp văn bản có đuôi mở rộng txt, thuộc vào Robots Exclusion Protocol (REP), chứa các quy định về cách mà Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu, truy cập, index và cung cấp nội dung cho người dùng. Ngoài ra, REP còn bao gồm các lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions, hỗ trợ các công cụ của Google trong việc xử lý các liên kết (ví dụ: Follow hoặc Nofollow link). Điều này giúp website có thể hiệu quả quản lý cách robot tìm kiếm xử lý trang web của mình và cải thiện vị trí trên kết quả tìm kiếm.
2. Cú pháp của file robots.txt
Các cú pháp là ngôn ngữ riêng của các tập tin robots.txt. Có 5 thuật ngữ phổ biến sẽ bắt gặp trong một file robots.txt. Bao gồm:
User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kỳ dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
Allow (chỉ áp dụng cho bọ tìm kiếm Google Bot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
Crawl-delay: Thông báo cho các Web Crawler biết rằng phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Có thể cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.
3. Tại sao cần tạo file robots.txt?
Tạo file robots.txt mang đến nhiều lợi ích bởi nhiều lý do:
– Ngăn chặn nội dung trùng lặp xuất hiện trong website (các Robot Meta thường là lựa chọn tốt).
– Giữ một số phần của trang ở chế độ riêng tư.
– Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP.
– Chỉ định vị trí của Sitemap.
– Ngăn các công cụ của Google Index một số tệp nhất định trên trang web của bạn (hình ảnh từ máy tính, PDF, …).
– Dùng lệnh Crawl-delay để cài đặt thời gian, ngăn việc máy chủ bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
Tệp robots.txt có định dạng cơ bản sau:
User-agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:
Tuy nhiên, có thể lược bỏ các phần Crawl-delay và Sitemap. Đây là định dạng cơ bản của robots.txt WordPress hoàn chỉnh. Nhưng trên thực tế thì file robots.txt chứa nhiều dòng User-agent và nhiều chỉ thị của người dùng hơn.
Chẳng hạn như các dòng lệnh: Disallow, Allow, Crawl-delay, … Mỗi lệnh thường được viết riêng biệt cách nhau bởi 1 dòng.
Trong một file robots.txt WordPress có thể chỉ định nhiều lệnh cho các con bot bằng cách viết liên tục không cách dòng. Tuy nhiên trong trường hợp một file robots.txt có nhiều lệnh đối với 1 loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.
4. Cách Submit File Robots.txt lên Công cụ Tìm kiếm
Có 2 cách để submit File Robots.txt
Sử dụng Google Search Console
Truy cập Google Search Console và đăng nhập bằng tài khoản Google quản trị website.
Chọn tab “Crawl”.
Nhấp vào “Robots.txt Tester”.
Nhập URL website của bạn và nhấp vào “Kiểm tra”.
Nếu file robots.txt tồn tại, Google Search Console sẽ hiển thị nội dung của file.
Nhấp vào “Submit” để submit file robots.txt.
Sử dụng Bing Webmaster Tools
Truy cập Bing Webmaster Tools và đăng nhập bằng tài khoản Microsoft quản trị website.
Chọn tab “Crawl”.
Nhấp vào “Robots.txt”.
Nhập URL website của bạn và nhấp vào “Submit”.
5. File robots.txt hoạt động như thế nào?
Quá trình hoạt động của file robots.txt diễn ra theo các bước sau:
- Bước 1: Crawl (cào/phân tích) dữ liệu trên trang web để khám phá nội dung bằng cách theo dõi các liên kết từ trang này đến trang khác và thu thập dữ liệu từ hàng tỷ trang web khác nhau. Quá trình này được gọi là “Spidering”.
- Bước 2: Index nội dung để cung cấp kết quả tìm kiếm cho người dùng. File robots.txt chứa thông tin về cách các công cụ của Google thu thập dữ liệu từ website. Trong quá trình này, các bots được hướng dẫn bằng các thông tin cụ thể từ file robots.txt.
Nếu tệp robots.txt không chứa bất kỳ chỉ thị nào cho User-agent hoặc nếu không có file robots.txt cho website, các bots sẽ tiếp tục thu thập thông tin từ web theo cách mặc định. Điều này cho phép quá trình thu thập dữ liệu hoạt động một cách hiệu quả và chính xác.
6. File robots.txt nằm ở đâu trên một website?
Khi tạo website WordPress, web sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của server.
Ví dụ: Nếu site đặt trong thư mục gốc của địa chỉ abcdef.com, bạn sẽ có thể truy cập file robots.txt ở đường dẫn abcdef.com/robots.txt, kết quả ban đầu sẽ tương tự như sau:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
7. Làm thế nào để kiểm tra website có file robots.txt không?
Thực hiện theo các bước dưới đây để kiểm tra website có file robots.txt không:
Nhập Root Domain (ví dụ: abcdef.com) > Chèn /robots.txt vào cuối (ví dụ: abcdef.com/robots.txt) > Nhấn Enter.
Nếu không có trang .txt xuất hiện, thì chắc chắn website hiện không tạo robots.txt cho WordPress.
8. Quy tắc nào cần được bổ sung vào trong file robots.txt WordPress?
File robots.txt WordPress đều xử lý một quy tắc tại một thời điểm. Tuy nhiên, nếu muốn áp dụng các quy tắc khác nhau cho các bot khác nhau thì chỉ cần thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot.
Ví dụ: Tạo một quy tắc áp dụng cho tất cả các bot và một quy tắc khác chỉ áp dụng cho Bingbot, có thể thực hiện như sau:
User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /
Từ đó, tất cả các bot sẽ bị chặn truy cập / wp-admin / nhưng Bingbot sẽ bị chặn truy cập toàn bộ trang web.
9. Các Cách tạo file robots.txt WordPress đơn giản
Dưới đây là 3 cách tạo robots.txt cho WordPress:
Sử dụng Yoast SEO
Bước 1: Đăng nhập vào website của bạn trên WordPress, khi đăng nhập vào sẽ thấy giao diện của WordPress Dashboard.
Bước 2: Chọn mục SEO > Chọn Tools.
Chọn Tools trong mục SEO
Bước 3: Chọn File editor.
Như vậy, sẽ xuất hiện mục robots.txt và .htaccess file. Đây là nơi giúp tạo file robots.txt.
Sử dụng bộ Plugin All in One SEO
Sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress đơn giản, dễ sử dụng.
Bước 1: Truy cập giao diện chính của Plugin All in One SEO Pack.
Bước 2: Chọn All in One SEO > Chọn Feature Manager > Nhấp Active cho mục Robots.txt.
Bước 3: Tạo lập và điều chỉnh file robots.txt WordPress.
Lưu ý: All in One SEO làm mờ đi thông tin của file robots.txt thay vì được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến người dùng hơi bị động một chút khi chỉnh sửa file robots.txt WordPress. Tuy nhiên, yếu tố này sẽ giúp họ hạn chế thiệt hại cho website của mình, đặc biệt một số Malware bots sẽ gây hại cho website.
Tạo rồi upload file robots.txt qua FTP
Để tạo file robots.txt WordPress bằng tay bằng phương pháp tạo rồi upload file robots.txt qua FTP, có thể thực hiện theo các bước sau đây:
Bước 1: Mở Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress.
Bước 2: Mở FTP > Chọn thư mục public_html > Chọn file robots.txt > Chọn Upload.
10. Quy tắc khi tạo file robots.txt
Để đảm bảo bot có thể tìm thấy, file robots.txt của WordPress cần được đặt trong thư mục cấp cao nhất của trang web.
Để file được nhận diện đúng, tên tệp phải là robots.txt (không phải Robots.txt hoặc robots.TXT) vì tệp phân biệt chữ hoa và chữ thường.
Không nên cấm /wp-content/themes/ hoặc /wp-content/plugins/ trong phần Disallow của file robots.txt. Việc này có thể gây trở ngại cho các công cụ hiểu rõ về giao diện của blog hoặc website.
Một số User-agent có thể bỏ qua file robots.txt chuẩn của bạn, đặc biệt là Malware robots (bot chứa mã độc hại) và các trình Scraping (công cụ tự thu thập thông tin văn bản). Điều này là phổ biến và cần được chú ý để tăng cường bảo mật cho trang web của bạn.
11. Một số lưu ý khi sử dụng file robots.txt
- Robots.txt không phải là phương pháp để ẩn trang web khỏi các công cụ tìm kiếm. Các công cụ tìm kiếm có thể bỏ qua các chỉ thị robots.txt nếu chúng cho rằng các chỉ thị này không hợp lệ hoặc có hại.
- Robots.txt chỉ là một hướng dẫn cho trình thu thập thông tin. Các trình thu thập thông tin có thể bỏ qua chỉ thị robots.txt nếu chúng cho rằng các chỉ thị này không hợp lý hoặc không có lợi cho người dùng.
- Link juice sẽ không được truyền từ các trang bị chặn đến trang đích. Do đó, nếu muốn truyền link juice qua các trang này, hãy sử dụng phương pháp khác thay vì sử dụng robots.txt WordPress.
Tóm lại, robots.txt là một tệp quan trọng giúp quản lý lưu lượng thu thập dữ liệu của các công cụ tìm kiếm. Nếu sử dụng robots.txt một cách hợp lý, bạn có thể cải thiện hiệu quả thu thập dữ liệu của các công cụ tìm kiếm và tối ưu hóa trang web của mình cho SEO.
12. Những câu hỏi thường gặp về robots.txt
Kích thước tối đa của file robots.txt là bao nhiêu?
Kích thước tối đa của file robots.txt Khoảng 500 kilobyte.
File robots.txt WordPress nằm ở đâu trên website?
File robots.txt WordPress nằm tại vị trí domain.com/robots.txt.
Làm cách nào để chỉnh sửa robots.txt WordPress?
Có thể thực hiện theo cách thủ công hoặc sử dụng một trong nhiều plugin WordPress SEO như Yoast, cho phép chỉnh sửa robots.txt từ WordPress backend.
Điều gì xảy ra nếu Disallow vào nội dung Noindex trong robots.txt?
Nếu Disallow vào nội dung Noindex trong robots.txt thì Google sẽ không bao giờ thấy lệnh Noindex vì nó không thể Crawl dữ liệu trang.
Làm sao tạm ngừng toàn bộ hoạt động thu thập dữ liệu trang web?
Có thể tạm ngừng toàn bộ hoạt động thu thập dữ liệu bằng cách trả về một mã kết quả HTTP 503 cho mọi URL, bao gồm cả tệp robots.txt. Nhưng không nên thay đổi tệp robots.txt để chặn hoạt động thu thập dữ liệu.
Điều gì sẽ xảy ra nếu không có tệp robots.txt?
Nếu không có tệp robots.txt, trình thu thập thông tin của công cụ tìm kiếm cho rằng tất cả các trang có sẵn trên trang web của bạn đều ở chế độ công khai và nó có thể được thu thập dữ liệu, sau đó thêm vào chỉ mục của nó.
Điều gì sẽ xảy ra nếu robots.txt không được định dạng tốt?
Điều này phụ thuộc vào vấn đề nếu các công cụ tìm kiếm không thể hiểu nội dung của tệp tin vì nó bị định cấu hình sai, họ vẫn truy cập vào trang web và bỏ qua bất cứ điều gì trong robots.txt.
[related_posts_by_tax posts_per_page="6" title="Bài liên quan" taxonomies="category,post_tag"]