구글 서치 콘솔(구 웹마스터 도구)에서 “제외됨” 상태가 많은 이유와 각각의 해결 방안을 정리해 보았습니다. 우선 콘솔에서 인덱스 > 커버리지(또는 범위) > 제외됨 탭을 열어, 어떤 이유로 페이지가 빠져 있는지 아래 항목별로 확인해 보세요.
1. 중복된 페이지(중복된, 사용자 선택 비표시)
- 원인: 여러 URL이 같은 콘텐츠를 가리키거나,
<link rel="canonical">
이 다른 URL을 가리킬 때
- 해결:
- 하나의 대표 URL로 canonical 설정
- 필요 없는 중복 페이지는 noindex 처리하거나 삭제
2. 발견되었으나 인덱스되지 않음
- 원인: 크롤러가 페이지는 찾았지만 아직 인덱싱 우선순위가 낮아 보류 중
- 해결:
- XML 사이트맵에 포함하고 “인덱싱 요청”
- 내부 링크로 자연스럽게 연결해 크롤러가 다시 방문하도록 유도
3. robots.txt에 의해 차단됨
- 원인:
robots.txt
파일에서 크롤링을 막고 있거나, <meta name="robots" content="noindex">
- 해결:
robots.txt
에서 차단 규칙 해제
- 페이지별 메타 태그에 noindex가 붙었는지 확인
4. 리디렉션된 페이지
- 원인: 301/302 리디렉션이 설정되어 원본 URL은 인덱스되지 않음
- 해결:
- 리디렉션이 필요한 경우 적절히 유지하고, 원본 페이지는 직접 호출되지 않도록 링크 구조 조정
5. 소프트 404
- 원인: 실제로는 정상 페이지인데, 서버가 “페이지를 찾을 수 없음”으로 간주
- 해결:
- 실제 200 응답을 주고, 콘텐츠가 충분한지 확인
- 불필요한 페이지라면 404/410 응답 처리
6. 서버 오류(5xx) 또는 크롤링 오류
- 원인: 크롤러가 접근 시도 중 서버 에러 발생
- 해결:
점검 순서 제안
- 커버리지 보고서 열기
- 각 “제외됨” 세부 사유 클릭
- 해당 URL 몇 개를 직접 브라우저에서 열어 상태 코드와 메타 태그 확인
- robots.txt 테스트 도구 및 URL 검사 도구로 크롤링/인덱싱 여부 시뮬레이션
혹시 제외 사유별로 더 구체적인 예시나, 특정 URL에 대한 진단이 필요하시면 알려주세요!