Robot.txt và seo: mọi thứ bạn cần & nbsp; biết

Robot.txt là một trong những tệp đơn giản nhất trên một trang web, nhưng đó cũng là một trong những thứ dễ gây lộn xộn nhất. Chỉ cần một nhân vật ra khỏi nơi có thể tàn phá SEO của bạn và ngăn các công cụ tìm kiếm truy cập nội dung quan trọng trên trang web của bạn.

Đây là lý do tại sao robot.txt Misconfigurations cực kỳ phổ biến ngay cả giữa các chuyên gia SEO có kinh nghiệm.

Nội dung chính Show

Tệp robot.txt là gì?
Tệp robot.txt trông như thế nào?
User-agents
Chỉ thị.
Chỉ thị được hỗ trợ
Chỉ thị không được hỗ trợ
Bạn có cần một tập tin robot.txt?
Cách tìm tệp robot.txt của bạn
Cách tạo tệp robot.txt
Nơi để đặt tệp robot.txt của bạn
Tập tin robot.txt thực hành tốt nhất
Sử dụng một dòng mới cho mỗi chỉ thị
Sử dụng ký tự đại diện để đơn giản hóa hướng dẫn
Sử dụng "$" để chỉ định kết thúc Aurl
Sử dụng chỉ người dùng-người dùng chỉ
Sử dụng tính đặc hiệu để tránh các lỗi không chủ ý
Sử dụng Nhận xét để giải thích tệp robot.txt của bạn cho con người
Sử dụng tệp robot.txt riêng cho mỗi tên miền phụ
Ví dụ các tập tin robot.txt.
Toàn quyền truy cập Allbots
Không có quyền truy cập cho Allbots
Chặn một thư mục con cho Allbots
Chặn một thư mục con cho tất cả các bot (với một tệp trong phép)
Chặn một tập tin cho allbots
Chặn một tệp filetype (PDF) cho Allbots
Chặn tất cả các URL tham số chỉ cho Googlebot
Cách kiểm tra tệp robot.txt của bạn để tìm lỗi
Gửi URL bị chặn bởi robot.txt
Bị chặn bởi robot.txt.
Được lập chỉ mục, mặc dù bị chặn bởi robot.txt
Câu hỏi thường gặp
Kích thước tối đa của tệp robots.txt là bao nhiêu?
Robots.txt ở đâu trong wordpress?
Làm cách nào để chỉnh sửa robot.txt trong WordPress?
Điều gì xảy ra nếu tôi không cho phép truy cập vào nội dung không nhiễu trong robot.txt?
Suy nghĩ cuối cùng

Trong hướng dẫn này, bạn sẽ học:

Thật là một fileis robot.txt
Những gì robot.txt trông giống nhau
Đại lý người dùng Robots.txt và chỉ thị
Cho dù bạn cần một tập tin robot.txt
Cách tìm tệp robot.txt của bạn
Cách tạo tệp robot.txt
Thực hành tốt nhất robot.txt.
Ví dụ các tập tin robot.txt.
Cách kiểm tra tệp robot.txt của bạn để gặp sự cố

Robot.txt và seo: mọi thứ bạn cần & nbsp; biết

Mới đối với SEO kỹ thuật? Kiểm tra vượt trội.

Hướng dẫn dành cho người mới bắt đầu về SEO kỹ thuật

Tệp robot.txt là gì?

Tệp robot.txt bảo các công cụ tìm kiếm nơi họ có thể và không thể truy cập của bạn.

Chủ yếu, nó liệt kê tất cả nội dung bạn muốn khóa khỏi các công cụ tìm kiếm như Google. Bạn cũng có thể nói với một số công cụ tìm kiếm (không phải Google) Cách Họ có thể thu thập dữ liệu cho phép nội dung.

lưu ý quan trọng

Hầu hết các công cụ tìm kiếm đều ngoan ngoãn. Họ không có thói quen phá vỡ một mục. Điều đó nói rằng, một số không ngại ngùng khi chọn một vài ổ khóa ẩn dụ.

Google không phải là một trong những công cụ tìm kiếm đó. Họ tuân theo các hướng dẫn trong tệp robot.txt.

Chỉ cần biết rằng một số công cụ tìm kiếm bỏ qua nó hoàn toàn.

Tệp robot.txt trông như thế nào?

Đây là định dạng cơ bản của tệp robot.txt:

Sơ đồ trang web: [Địa điểm URL của Sơ đồ trang web] Tác nhân người dùng: [Định danh bot] [Chỉ thị 1] [Chỉ thị 2] [Chỉ thị ...] Tác nhân người dùng: [Mã định danh bot khác] [Chỉ thị 1] [Chỉ thị 2] [Chỉ thị ...]

Nếu bạn chưa bao giờ nhìn thấy một trong những tập tin này trước đây, điều đó có vẻ khó khăn. Tuy nhiên, cú pháp khá đơn giản. Nói tóm lại, bạn chỉ định các quy tắc cho các bot bằng cách nêu user-agentfollowed by directives.

Hãy khám phá hai thành phần này chi tiết hơn.

User-agents

Mỗi công cụ tìm kiếm xác định chính nó với một tác nhân người dùng khác nhau. Bạn có thể đặt các hướng dẫn tùy chỉnh cho mỗi trong số này trong tệp robot.txt của bạn. Có hàng trăm đại lý người dùng, nhưng đây là một số tài sản hữu ích:

google: googlebot
Hình ảnh Google: Googlebot-Image
Bing: Bingbot
Yahoo: Slurp
Baidu : Baiduskider
Duckduckgo: Duckduckbot

Sidenote.

Tất cả các tác nhân người dùng là trường hợp nhạy cảm trong robot.txt.

Bạn cũng có thể sử dụng ký tự đại diện STAR (*) để chỉ định các chỉ thị cho tất cả các đại lý người dùng.

Ví dụ: Letssay rằng bạn muốn chặn tất cả các bot ngoại trừ Googlebot từ việc thu thập dữ liệu trang web của bạn. Đây là cách bạn sẽ làm:

Đại lý người dùng: * Không cho phép: / Người dùng đại lý: Googlebot Cho phép: /

Biết rằng tệp robot.txt của bạn có thể bao gồm bao gồm nhiều đại lý người dùng như bạn muốn. Điều đó nói rằng, mỗi khi bạn tuyên bố một người dùng mới, nó hoạt động như một bảng đá sạch. Nói cách khác, nếu bạn thêm các chỉ thị cho nhiều đại lý người dùng, các chỉ thị được khai báo cho tác nhân người dùng đầu tiên không áp dụng cho thứ hai hoặc thứ ba hoặc thứ tư, và sớm.

Ngoại lệ đối với quy tắc đó là khi bạn khai báo cùng một đại lý người dùng nhiều lần. Trong trường hợp đó, tất cả các chỉ thị có liên quan được kết hợp và theo sau.

LƯU Ý QUAN TRỌNG

Crawlers chỉ tuân theo các quy tắc được khai báo theo (các) người dùng áp dụng chính xác nhất cho họ . Đó là lý do tại sao tệp robot.txt trên tất cả các bot ngoại trừ googlebot (và các bot google khác) từ việc thu thập dữ liệu trang web. Googlebot bỏ qua Tuyên bố đại lý người dùng ít cụ thể hơn.

Chỉ thị.

Chỉ thị là các quy tắc mà bạn muốn các đại lý người dùng được tuyên bố theo dõi.

Chỉ thị được hỗ trợ

Dưới đây là các chỉ thị mà Google hiện đang hỗ trợ, cùng với Womuses.

Không cho phép

Sử dụng chỉ thị này để hướng dẫn các công cụ tìm kiếm không truy cập các tệp và trang nằm dưới một đường dẫn cụ thể. Ví dụ: nếu bạn muốn chặn tất cả các công cụ tìm kiếm truy cập blog của mình và tất cả các bài đăng của nó, tệp robot.txt của bạn có thể trông giống như:

Đại lý người dùng: * Không cho phép: / Blog

Sidenote.

Nếu bạn không xác định một đường dẫn sau chỉ thị không cho phép, các công cụ tìm kiếm sẽ bỏ qua nó.

Cho phép

Sử dụng chỉ thị này để cho phép các công cụ tìm kiếm thu thập thư mục con hoặc trang ngay cả trong thư mục không được phép. Ví dụ: nếu bạn muốn ngăn các công cụ tìm kiếm truy cập vào mỗi bài đăng trên blog của bạn ngoại trừ tệp, thì tệp robot.txt của bạn có thể trông giống như:

Đại lý người dùng: * Không cho phép: / Blog Cho phép: / Blog / Bưu điện được phép

Trong ví dụ này, các công cụ tìm kiếm có thể truy cập / blog / được phép-post . Nhưng họ không thể truy cập:

/ blog / bài viết khác-post
/ blog / chưa-other-post
/blog/doad-me.pdf

Cả Google và BingSupport Chỉ thị này.

Sidenote.

Cũng như chỉ thị không cho phép, nếu bạn không xác định một đường dẫn sau khi cho phép chỉ thị, các công cụ tìm kiếm sẽ bỏ qua nó.

Một lưu ý về các quy tắc mâu thuẫn

Trừ khi bạn cẩn thận, không cho phép và cho phép các chỉ thị có thể dễ dàng xung đột với nhau. Trong ví dụ dưới đây, chúng tôi không thể truy cập vào /blog/and allowing access to /blog.

Đại lý người dùng: * Không cho phép: / Blog / Cho phép: / Blog

Trong trường hợp này, URL / Blog / Chữ viết / dường như không được phép vừa cho phép. Vậy những cuốn sách nào?

Đối với Google và Bing, quy tắc là chỉ thị với hầu hết các ký tự chiến thắng. Độ chắc chắn, đó là chỉ thị không cho phép.

Không cho phép: / Blog / (6 ký tự) Cho phép: / Blog (5 Charactors) < / a >. (6 characters)
Allow: /blog(5 charactors)

Nếu các chỉ thị cho phép và không cho phép có độ dài bằng nhau, thì việc chỉ thị hạn chế ít hạn chế nhất. Trong trường hợp này, đó sẽ là lệnh cho phép.

Sidenote.

TẠI ĐÂY, / blog (không có dấu gạch chéo) vẫn có thể truy cập và có thể thu thập dữ liệu.

Chính, Đây chỉ là trường hợp cho Google và Bing . Các công cụ tìm kiếm khác nghe chỉ thị kết hợp đầu tiên. Trong trường hợp này, đó là không cho phép.

Sơ đồ trang web

Sử dụng chỉ thị này để chỉ định vị trí của (các) Sơ đồ trang web của bạn cho các công cụ tìm kiếm. Nếu bạn không quen thuộc với sơ đồ trang web, chúng thường bao gồm các trang mà bạn muốn các công cụ tìm kiếm thu thập dữ liệu và Indindex.

Đây là một ví dụ về tệp robot.txt bằng Chỉ thị Sơ đồ trang web:

Sơ đồ trang web: https://www.domain.com/sitemap.xml. Đại lý người dùng: * Không cho phép: / Blog / Cho phép: / Blog / Tiêu đề /

Làm thế nào quan trọng bao gồm (các) Sơ đồ trang web của bạn trong tệp robot.txt của bạn? Nếu bạn đã gửi thông qua Search Console, thì đó là một chút dư thừa cho Google. Tuy nhiên, nó không nói với các công cụ tìm kiếm khác như Bing nơi tìm sơ đồ trang web của bạn, vì vậy nó vẫn là thực hành tốt.

Lưu ý rằng bạn không cần lặp lại chỉ thị SiteMap nhiều lần cho mỗi tác nhân người dùng. Nó không áp dụng cho chỉ một. Vì vậy, tốt nhất bạn phải bao gồm các chỉ thị Sơ đồ trang web ở đầu hoặc cuối tệp robot.txt của bạn. Ví dụ:

Sơ đồ trang web: https://www.domain.com/sitemap.xml. Người dùng đại lý: Googlebot Không cho phép: / Blog / Cho phép: / Blog / Tiêu đề / Người dùng đại lý: Bingbot Không cho phép: / Dịch vụ /

Google hỗ trợ Chỉ thị Sơ đồ trang web, như yêu cầu, Bing, Andyahoo.

Sidenote.

Bạn có thể bao gồm nhiều sơ đồ trang web như bạn muốn trong tệp robot.txt của bạn.

Chỉ thị không được hỗ trợ

Dưới đây là các chỉ thị không còn được Google hỗ trợ nữa trong số đó về mặt kỹ thuật sẽ không bao giờ.

Crawl-delay

Trước đây, bạn có thể sử dụng chỉ thị này để chỉ định độ trễ thu thập dữ liệu trong vài giây. Ví dụ: nếu bạn muốn Googlebot đợi 5 giây sau mỗi hành động thu thập dữ liệu, bạn sẽ đặt trễ thu thập dữ liệu thành 5 Likeso:

Người dùng đại lý: Googlebot Thu thập dữ liệu: 5

Google không còn hỗ trợ chỉ thị này, mà Bing và Yandexdo.

Điều đó nói rằng, hãy cẩn thận khi đặt chỉ thị này, đặc biệt nếu bạn có một trang web lớn. Nếu bạn đặt độ trễ thu thập dữ liệu là 5 giây, thì bạn đang giới hạn các bot để thu thập tối đa 17.280 URL mỗi ngày. Điều đó không hữu ích lắm nếu bạn có hàng triệu trang, nhưng nó có thể lưu băng thông nếu bạn có một trang web nhỏ.

NOINDEX.

Chỉ thị này không bao giờ được Google hỗ trợ chính thức. Tuy nhiên, cho đến gần đây, người ta nghĩ rằng Google đã có một số mã "xử lý các quy tắc không được hỗ trợ và chưa được công bố (chẳng hạn như No Index)." Vì vậy, nếuOu muốn ngăn Google lập chỉ mục tất cả các bài đăng trên blog của bạn, bạn có thể sử dụng chỉ thị sau:

Người dùng đại lý: Googlebot NOINDEX: / Blog /

Tuy nhiên, vào ngày 1 tháng 9 năm 2019, Google đã nói rõ rằng Chỉ thị này không được hỗ trợ . Nếu bạn muốn loại trừ một trang hoặc tệp khỏi các công cụ tìm kiếm, hãy sử dụng thẻ robot meta hoặc x-robots headerinstead.

Không theo

Đây là một chỉ thị khác mà Google không bao giờ được hỗ trợ chính thức, và được sử dụng để hướng dẫn các công cụ tìm kiếm không tuân theo các liên kết trên các trang và tệp dưới một đường dẫn cụ thể. Ví dụ: nếu bạn muốn dừng Google theo dõi tất cả các liên kết trên blog của mình, bạn có thể sử dụng chỉ thị sau:

Người dùng đại lý: Googlebot Nofollow: / blog /

Google tuyên bố rằng chỉ thị này chính thức không được hỗ trợ vào ngày 1 tháng 9 năm 2019. Nếu bạn muốn nofollow tất cả các liên kết trên một trang bây giờ, bạn nên sử dụng thẻ robot meta hoặc tiêu đề x-robot. Nếu bạn muốn nói với Google không làm theo các liên kết cụ thể trên một trang, hãy sử dụng thuộc tính liên kết rel = "nofollow".

Bạn có cần một tập tin robot.txt?

Có tệp robot.txt không quan trọng đối với rất nhiều trang web, đặc biệt là Smallones.

Điều đó nói rằng, không có lý do chính đáng để không có một. Nó cung cấp cho bạn nhiều quyền kiểm soát hơn khi các công cụ tìm kiếm có thể và không thể truy cập trang web của bạn và điều đó có thể giúp đỡ những thứ như:

Ngăn chặn việc thu thập dữ liệu của nội dung trùng lặp;
Giữ các phần của một trang web tư nhân (ví dụ: trang web dàn dựng của bạn);
Ngăn chặn việc thu thập dữ liệu của các trang kết quả tìm kiếm nội bộ;
Ngăn chặn quá tải máy chủ;
Ngăn chặn Google từ việc lãng phí ngân sách thu thập dữ liệu.
Ngăn chặn hình ảnh, video và tài nguyên tệp xuất hiện trong kết quả tìm kiếm của Google.

Lưu ý rằng trong khi Google thường không lập chỉ mục các trang web bị chặn trong robot.txt, Không có cách nào để đảm bảo loại trừ kết quả tìm kiếm bằng tệp robot.txt . theres no way to guarantee exclusion from search results using the robots.txt file.

Giống như Google nói, nếu nội dung được liên kết từ các địa điểm khác trên web, nó vẫn có thể xuất hiện trong kết quả tìm kiếm của Google.

Cách tìm tệp robot.txt của bạn

Nếu bạn đã có tệp robot.txt trên trang web của mình, nó sẽ có thể truy cập tại domain.com/robots.txt . Điều hướng đến URL trong trình duyệt của bạn. Nếu bạn thấy một cái gì đó như thế này, thì bạn có một tệp robot.txt:

Cách tạo tệp robot.txt

Nếu bạn chưa có tệp robot.txt, hãy tạo một tệp dễ dàng. Chỉ cần mở một tài liệu .txt trống và bắt đầu các chỉ thị gõ. Ví dụ: nếu bạn muốn không cho phép tất cả các công cụ tìm kiếm từ việc thu thập / admin / , nó sẽ trông giống như một cái gì đó như:

Đại lý người dùng: * Không cho phép: / Quản trị viên /

Tiếp tục xây dựng các chỉ thị cho đến khi bạn hài lòng với những gì bạn có. Lưu tệp của bạn dưới dạng "robot.txt."

Ngoài ra, bạn cũng có thể sử dụng trình tạo robot.txt như thế này.

Ưu điểm của việc sử dụng một công cụ như thế này là nó giảm thiểu các lỗi cú pháp. Điều đó thật tốt bởi vì một sai lầm có thể dẫn đến một thảm họa SEO cho trang web của bạn - vì vậy nó trả tiền để lỗi về phía thận trọng.

Nhược điểm là chúng có phần bị giới hạn về khả năng tùy biến.

Nơi để đặt tệp robot.txt của bạn

Đặt tệp robot.txt của bạn vào thư mục gốc của tên miền phụ mà nó áp dụng. Ví dụ: để kiểm soát hành vi thu thập dữ liệu trên domain.com, the robots.txt file should be accessible at domain.com/robots.txt.

Nếu bạn muốn kiểm soát thu thập dữ liệu trên một tên miền phụ như blog.domain.com , thì có thể truy cập tệp robot.txt tại < /a>blog.domain.com/robots.txt . blog.domain.com, then the robots.txt file should be accessible at blog.domain.com/robots.txt.

Tập tin robot.txt thực hành tốt nhất

Giữ những điều này trong tâm trí để tránh những sai lầm phổ biến.

Sử dụng một dòng mới cho mỗi chỉ thị

Mỗi chỉ thị nên ngồi trên một dòng mới. Nếu không, nó sẽ gây nhầm lẫn các công cụ tìm kiếm.

Tồi tệ:

Tác nhân người dùng: * Không cho phép: / Thư mục / Không cho phép: / Thư mục khác /

Tốt:

Đại lý người dùng: * Không cho phép: / thư mục / Không cho phép: / Thư mục khác /

Sử dụng ký tự đại diện để đơn giản hóa hướng dẫn

Bạn không chỉ có thể sử dụng ký tự đại diện (*) để áp dụng các chỉ thị cho tất cả các đại lý người dùng, mà còn để khớp với các mẫu URL khi khai báo các chỉ thị. Ví dụ: nếu bạn muốn ngăn các công cụ tìm kiếm truy cập URL danh mục sản phẩm tham số trên trang web của bạn, bạn có thể liệt kê chúng Likeethis:

Đại lý người dùng: * Không cho phép: / Sản phẩm / Áo phông? Không cho phép: / Sản phẩm / Hoodies? Không cho phép: / Sản phẩm / Áo khoác? ...

Nhưng điều đó không hiệu quả lắm. Sẽ tốt hơn để đơn giản hóa mọi thứ với một likeethis ký tự đại diện:

Đại lý người dùng: * Không cho phép: / Sản phẩm / *?

Ví dụ này chặn các công cụ tìm kiếm từ thu thập tất cả các URL trong / sản phẩm / thư mục con có chứa dấu hỏi. Nói cách khác, bất kỳ URL danh mục sản phẩm tham số.

Sử dụng "$" để chỉ định kết thúc Aurl

Bao gồm biểu tượng "$" để đánh dấu phần cuối của URL. Ví dụ: nếu bạn muốn ngăn chặn các công cụ tìm kiếm truy cập tất cả các tệp .pdf trên trang web của bạn, tệp robot.txt của bạn có thể trông giống như:

Đại lý người dùng: * Không cho phép: /*.pdf$.

Trong ví dụ này, các công cụ tìm kiếm không thể truy cập bất kỳ URL nào kết thúc bằng .pdf. Điều đó có nghĩa là họ không thể truy cập /file.pdf, nhưng chúng có thể truy cập /file.pdf?id=68937586 vì điều đó không kết thúc bằng ".pdf".

Sử dụng chỉ người dùng-người dùng chỉ

Nếu bạn chỉ định cùng một đại lý người dùng nhiều lần, Google không phiền. Nó sẽ chỉ kết hợp tất cả các quy tắc từ các tờ khai khác nhau thành một và theo dõi tất cả. Ví dụ: nếu bạn có các đại lý và chỉ thị người dùng sau đây trong tệp robot.txt của mình ...

Người dùng đại lý: Googlebot Không cho phép: / a / Người dùng đại lý: Googlebot Không cho phép: / b /

... googlebot sẽ không CRAWL hoặc một trong hai thư mục con đó.

Điều đó nói rằng, nó chỉ có ý nghĩa khi tuyên bố từng tác nhân người dùng một lần vì nó ít gây nhầm lẫn. Nói cách khác, bạn sẽ ít có khả năng mắc lỗi nghiêm trọng bằng cách giữ mọi thứ gọn gàng và đơn giản.

Sử dụng tính đặc hiệu để tránh các lỗi không chủ ý

Việc không cung cấp các hướng dẫn cụ thể khi cài đặt chỉ thị có thể dẫn đến những sai lầm dễ bị bỏ lỡ có thể có tác động thảm khốc đối với SEO của bạn. Ví dụ: hãy giả sử rằng bạn có một trang web đa ngôn ngữ và bạn đang làm việc trên một phiên bản tiếng Đức sẽ có sẵn theo / DE / SubDirectory.

Bởi vì nó không hoàn toàn sẵn sàng để đi, bạn muốn ngăn chặn các công cụ tìm kiếm truy cập vào nó.

Tệp robot.txt bên dưới các công cụ tìm kiếm WillPrevent từ việc truy cập thư mục con đó và mọi thứ init:

Đại lý người dùng: * Không cho phép: / de

Nhưng nó cũng sẽ ngăn chặn các công cụ tìm kiếm từ việc thu thập dữ liệu của bất kỳ trang hoặc tệp nào bắt đầu bằng / de .

Ví dụ:

/ Designer-Dress / /delivery-Information.html / depeche-Mode / T-shirt / /definit-not-for-public-viewing.pdf
/delivery-information.html
/depeche-mode/t-shirts/
/definitely-not-for-public-viewing.pdf

Trong trường hợp này, giải pháp rất đơn giản: thêm dấu gạch chéo.

Đại lý người dùng: * Không cho phép: / de /

Sử dụng Nhận xét để giải thích tệp robot.txt của bạn cho con người

Nhận xét giúp giải thích tệp robot.txt của bạn cho các nhà phát triển, và có khả năng ngay cả bản thân tương lai của bạn. Để bao gồm một bình luận, hãy bắt đầu dòng với ahash (#).

# Điều này hướng dẫn Bing không thu thập thông tin trang web của chúng tôi. Người dùng đại lý: Bingbot Không cho phép: /

Crawlers sẽ bỏ qua mọi thứ trên các dòng bắt đầu bằng ahash.

Sử dụng tệp robot.txt riêng cho mỗi tên miền phụ

Robot.txt chỉ kiểm soát hành vi thu thập dữ liệu trên tên miền phụ nơi nó được lưu trữ. Nếu bạn muốn kiểm soát việc thu thập dữ liệu trên một tên miền phụ khác, bạn sẽ cần một tệp robot.txt riêng biệt.

Ví dụ: nếu trang web chính của bạn nằm trên domain và blog của bạn nằm trên Blog .domain.com , sau đó bạn sẽ cần hai tệp robot.txt. Người ta nên đi vào thư mục gốc của miền chính và cái còn lại trong thư mục gốc của theblog. domain.comand your blog sits on blog.domain.com, then you would need two robots.txt files. One should go in the root directory of the main domain, and the other in the root directory of theblog.

Ví dụ các tập tin robot.txt.

Dưới đây là một vài ví dụ về các tệp robot.txt. Đây chủ yếu dành cho cảm hứng nhưng nếu một người xảy ra để phù hợp với yêu cầu của bạn, hãy sao chép nó vào tài liệu văn bản, lưu nó dưới dạng "robot.txt" và tải nó lên thư mục thích hợp.

Toàn quyền truy cập Allbots

Đại lý người dùng: * Không cho phép:

Sidenote.

Không khai báo URL sau khi chỉ thị cho việc chỉ thị dư thừa. Nói cách khác, các công cụ tìm kiếm bỏ qua nó. Đó là lý do tại sao chỉ thị không cho phép này không có hiệu lực trên trang web. Công cụ tìm kiếm vẫn có thể thu thập tất cả các trang vàfiles.

Không có quyền truy cập cho Allbots

Đại lý người dùng: * Không cho phép: /

Chặn một thư mục con cho Allbots

Đại lý người dùng: * Không cho phép: / Thư mục /

Chặn một thư mục con cho tất cả các bot (với một tệp trong phép)

Đại lý người dùng: * Không cho phép: / Thư mục / Cho phép: /folder/page.html.

Chặn một tập tin cho allbots

Đại lý người dùng: * Không cho phép: /this-is-a-file.pdf.

Chặn một tệp filetype (PDF) cho Allbots

Đại lý người dùng: * Không cho phép: /*.pdf$.

Chặn tất cả các URL tham số chỉ cho Googlebot

Người dùng đại lý: Googlebot Không cho phép: / *?

Cách kiểm tra tệp robot.txt của bạn để tìm lỗi

Những sai lầm robot.txt có thể trượt qua mạng khá dễ dàng, vì vậy nó trả tiền để theo dõi các vấn đề.

Để thực hiện việc này, thường xuyên kiểm tra các vấn đề liên quan đến robot.txt trong báo cáo "Bảo hiểm" trong bảng điều khiển tìm kiếm. Dưới đây là một số lỗi bạn có thể thấy, ý nghĩa của chúng, và cách bạn có thể sửa lỗi.

Cần kiểm tra các lỗi liên quan đến một trang nhất định?

Dán một URL vào công cụ kiểm tra URL của Google trong bảng điều khiển tìm kiếm. Nếu nó bị chặn bởi robot.txt, bạn sẽ thấy một cái gì đó limethis:

Gửi URL bị chặn bởi robot.txt

Điều này có nghĩa là ít nhất một trong số các URL trong (các) URL được gửi của bạn bị chặn bởi robot.txt.

Nếu bạn đã tạo sơ đồ trang web của mình chính xác và không bao gồm Canonicalized, không bao gồm và chuyển hướng, thì Không có trang đã gửi nào được chặn bởi robot.txt . Nếu có, hãy điều tra trang nào bị ảnh hưởng, sau đó điều chỉnh tệp robot.txt của bạn phù hợp để xóa khối cho trang đó.

Bạn có thể sử dụng Robots.txt Testerto của Google, hãy xem Chỉ thị nào đang chặn nội dung. Chỉ cần cẩn thận khi làm điều này. Thật dễ dàng để phạm sai lầm ảnh hưởng đến các trang khác và các trang khác.

Bị chặn bởi robot.txt.

Điều này có nghĩa là bạn có nội dung bị chặn bởi robot.txt hiện không được lập chỉ mục trong google.

Nếu nội dung này rất quan trọng và nên được lập chỉ mục, hãy tháo khối thu thập dữ liệu trong robot.txt. (Nó cũng đáng để đảm bảo rằng nội dung không không phải là không có gì). Nếu bạn đã chặn nội dung trong robot.txt với mục đích loại trừ nó khỏi chỉ mục của Google, hãy tháo khối thu thập dữ liệu và sử dụng thẻ meta robot hoặc tiêu đề x-robot. Đó là cách duy nhất để đảm bảo loại trừ nội dung khỏi chỉ mục của Google.

Sidenote.

Xóa khối thu thập dữ liệu khi cố gắng loại trừ một trang khỏi kết quả tìm kiếm là rất quan trọng. Không thể thực hiện việc này và Google sẽ không thấy thẻ noindex hoặc tiêu đề HTTP, vì vậy nó sẽ được lập chỉ mục.

Được lập chỉ mục, mặc dù bị chặn bởi robot.txt

Điều này có nghĩa là một số nội dung bị chặn bởi robot.txt vẫn được lập chỉ mục trong Google.

Một lần nữa, nếu bạn đang cố gắng loại trừ nội dung này khỏi kết quả tìm kiếm của Google, robot.txt không phải là giải pháp chính xác. Tháo khối thu thập dữ liệu và thay vào đó sử dụng thẻ robot meta hoặc x-robot-tag headerto ngăn chặn lập chỉ mục.

Nếu bạn bị chặn nội dung này một cách tình cờ và muốn giữ nó trong chỉ mục của Google, hãy xóa khối thu thập dữ liệu trong robot.txt. Điều này có thể giúp cải thiện khả năng hiển thị của nội dung trong tìm kiếm của Google.

Đề xuất Đọc: Cách khắc phục "được lập chỉ mục, mặc dù bị chặn bởi robot.txt" ingsc

Câu hỏi thường gặp

Dưới đây là một vài câu hỏi thường gặp không phù hợp với những nơi khác trong hướng dẫn của chúng tôi. Hãy cho chúng tôi biết trong các ý kiến nếu bất cứ điều gì bị thiếu, và chúng tôi sẽ cập nhật phần cho phù hợp.

Kích thước tối đa của tệp robots.txt là bao nhiêu?

500 kilobyte (khoảng).

Robots.txt ở đâu trong wordpress?

Tương tự: domain.com/robots.txt .

Làm cách nào để chỉnh sửa robot.txt trong WordPress?

Hoặc là thủ công hoặc sử dụng một trong nhiều plugin Wordpress SEO giống như Yoast cho phép bạn chỉnh sửa robot.txt khỏi phần phụ trợ WordPress.

Điều gì xảy ra nếu tôi không cho phép truy cập vào nội dung không nhiễu trong robot.txt?

Google sẽ không bao giờ nhìn thấy Chỉ thị noindex vì nó không thể thu thập dữ liệu trang.

DYK chặn một trang có cả robot.txt disallow & noindex trong trang không gây nhiều ý nghĩa cos googlebot không thể "xem" noindex? pic.twitter.com/n4639rccwt- Gary "鯨理" illyes (@methode) ngày 10 tháng 2 năm 2017

Suy nghĩ cuối cùng

Robot.txt là một tập tin đơn giản nhưng mạnh mẽ. Sử dụng nó một cách khôn ngoan, và nó có thể có tác động tích cực đến SEO. Sử dụng nó một cách ngớ ngẩn và, tốt, bạn sẽ sống để hối tiếc.

Có nhiều câu hỏi hơn? Để lại một bình luận hoặc ping tôi trên twitter.

Công Nghệ Robot

Robot.txt và seo: mọi thứ bạn cần & nbsp; biết

Tệp robot.txt là gì?

Tệp robot.txt trông như thế nào?

User-agents

Chỉ thị.

Chỉ thị được hỗ trợ

Không cho phép

Cho phép

Sơ đồ trang web

Chỉ thị không được hỗ trợ

Crawl-delay

NOINDEX.

Không theo

Bạn có cần một tập tin robot.txt?

Cách tìm tệp robot.txt của bạn

Cách tạo tệp robot.txt

Nơi để đặt tệp robot.txt của bạn

Tập tin robot.txt thực hành tốt nhất

Sử dụng một dòng mới cho mỗi chỉ thị

Sử dụng ký tự đại diện để đơn giản hóa hướng dẫn

Sử dụng "$" để chỉ định kết thúc Aurl

Sử dụng chỉ người dùng-người dùng chỉ

Sử dụng tính đặc hiệu để tránh các lỗi không chủ ý

Sử dụng Nhận xét để giải thích tệp robot.txt của bạn cho con người

Sử dụng tệp robot.txt riêng cho mỗi tên miền phụ

Ví dụ các tập tin robot.txt.

Toàn quyền truy cập Allbots

Không có quyền truy cập cho Allbots

Chặn một thư mục con cho Allbots

Chặn một thư mục con cho tất cả các bot (với một tệp trong phép)

Chặn một tập tin cho allbots

Chặn một tệp filetype (PDF) cho Allbots

Chặn tất cả các URL tham số chỉ cho Googlebot

Cách kiểm tra tệp robot.txt của bạn để tìm lỗi

Gửi URL bị chặn bởi robot.txt

Bị chặn bởi robot.txt.

Được lập chỉ mục, mặc dù bị chặn bởi robot.txt

Câu hỏi thường gặp

Kích thước tối đa của tệp robots.txt là bao nhiêu?

Robots.txt ở đâu trong wordpress?

Làm cách nào để chỉnh sửa robot.txt trong WordPress?

Điều gì xảy ra nếu tôi không cho phép truy cập vào nội dung không nhiễu trong robot.txt?

Suy nghĩ cuối cùng

Bài Viết Liên Quan

Quảng Cáo

Có thể bạn quan tâm

Toplist được quan tâm

Quảng cáo

Xem Nhiều

Quảng cáo

Chúng tôi

Điều khoản

Trợ giúp

Mạng xã hội