9.1 크롤러와 크롤링 웹 크롤러는, 먼저 웹페이지를 한 개 가져오고, 그 다음 그 페이지가 가리키는 모든 웹페이지를 가져오고, 다시 그 페이지들이 가리키는 모든 웹페이지들을 가져오는 이러한 일을 재귀적으로 반복하는 방식으로 웹을 순화하는 로봇이다 9.1.1 어디에서 시작하는가: '루트 집합' 크롤러가 방문을 시작하는 URL들의초기 집합은 루트 집합이라고 한다. 루트 집합을 고를 때, 모든 링크를 크롤링하면 결과적으로 관심있는 웹페이지들의 대부분을 가져 오게 될 수 있도록 해야한다 9.1.2 링크 추출과 상태 링크 정상화 크롤러는 검색한 각 페이지 안에 들어있는 URL 링크들을 파싱해서 크롤링할 페이지들의 목록에 추가해야한다 9.1.3 순환 피하기 로봇들은 순환을 피하기 위해 반드시 그들이 어디를 방문했..