티스토리 뷰

 구글 검색



- 구글 검색은 구글의 엄청난 검색 능력을 이용해 취약한 웹 서비스의 정보를 수집하는 단계로, 취약점을 쉽게 찾아내는 매우 중요한 단계 입니다.

모의 해킹 업무 도중에도 제대로 구글 검색을 하지 않는 경우가 많아 나중에 문제가 발생하곤 합니다. 검색한 취약점은 보통 스캐닝 작업(자동 도구)을 통해 발견되는 경우가 많지만, 현재 운영되지 않는 페이지(이벤트 페이지, 업데이트하기 전 페이지), 스캐닝 작접으로 발견되지 않은 페이지 등을 찾아내는 데 구글을 유용하게 사용합니다.



구글 검색은 모의 해킹을 점검하는 데 필수적인 부분 입니다. 구글에 노출되는 페이지 중에는 단디간 동안 서비스되어 신경쓰지 못하는 이벤트 페이지나 이력서 페이지나 이력서 페이지가 많습니다. hwp, pdf, ppt 등의 문서 안에 개인 정보가 포함된 경우가 많으므로 이런 페이지가 검색되는 것에 대응해야 합니다.




 구글 검색 대응 방안



- 'rotbots.txt'는 'robots.txt 프로토콜'이나 '로봇 제외 표준' 이라고 부르는데, 웹 스파이더나 웹 로봇 등으로부터 웹 사이트 전부나 특정

  부분 접근을 제한 합니다. 'robots.txt'가 효력을 가지려면 URL의 최상위 공간에 위치해야 합니다.

 (http://hackcracker.tistory.com/robot.txt

 만약 관리하는 웹 사이트에 모든 접근을 허용할 경우에는 간단히 'robots.txt'에 아무 것도 쓰지 않으면 됩니다. 



 robots.txt의 기능

티스토리 블로그와 같은 경우, robots.txt 파일의 업로드가 불가능하므로 메타 태그를 웹페이지에 삽입하면 됩니다. 단, 완벽하지 않을 수 있습니다.


    - User-agent: 수집하는 주체의 범위를 정합니다. *으로 설정한 경우 모든 로봇의 접근이 차단되고, User-agent : * 와 

      같은 형태로 사용합니다.

    - Allow : 허용할 디렉터리를 설정합니다.

    - Disallow : 검색을 허용하지 않을 홈페이지 디렉터리를 설정합니다. 


Disallow : 뒤에 아무 것도 표시하지 않을 경우에도 모든 접근을 허락하는 것입니다.


 User-agent  :  *

 Disallow  :  /imae/   ← 이미지 폴더 검색금지로 설정하는 경우


1. 홈페이지 전체가 모든 검색엔진에 노출되는 것을 원하지 않을 때  
 코드:
 User-agent: * 
 Disallow: /



2. 홈페이지 전체가 모든 검색엔진에 노출되기를 원할 때  
 코드:
 User-agent: * 
 Disallow: 
 

(1과 비교했을 때 “/”가 빠져 있습니다. robots.txt를 작성하지 않으면 모두 검색허용으로 간주됩니다.)  
 


3. 홈페이지 디렉토리의 일부만 검색엔진에 노출하고 싶을 때  
 코드:
 User-agent: * 
 Disallow: /photo/ 
 Disallow: /diary/ 
(이렇게 작성하면 로봇은 photo, diary라는 폴더에 속한 웹문서에 접근할 수 없습니다.)  
 


4. 홈페이지 전체가 검색되길 원하지만 특정 검색엔진을 거부하고 싶을 때  
 코드:
 User-agent: EvilRobot 
 Disallow: /

위의 예에서는 “EvilRobot”이라는 이름을 가진 로봇만을 배제하게 됩니다. 
('네이버'에 대해서 막고 싶다면 NaverBot을 User-agent로 설정해주시면 됩니다. Naverbot은 네이버 로봇의 이름입니다.)  
 


5. 홈페이지 전체가 검색되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때  
 코드:
 User-agent: NaverBot 
 Disallow: 
 User-agent: * 
 Disallow: / 
(이 경우 NaverBot만이 웹문서를 수집해갈 수 있습니다.) 






                ↑ 구글 고객센터



'Web' 카테고리의 다른 글

WEB 1.0 정의 및 통신구조  (0) 2017.05.11
URL과 URI의 차이점  (1) 2017.05.10
구글 정복을 위한 명령어 13가지  (0) 2017.04.18
OWASP Top 10 (2013)  (0) 2017.02.13
웹해킹 연습 사이트  (4) 2017.02.12