심플한 개발서점

  • 홈
  • 태그
  • 방명록
  • 글쓰기

웹로봇 1

[HTTP 완벽 가이드] 9장 : 웹 로봇

9.1 크롤러와 크롤링 웹 크롤러는, 먼저 웹페이지를 한 개 가져오고, 그 다음 그 페이지가 가리키는 모든 웹페이지를 가져오고, 다시 그 페이지들이 가리키는 모든 웹페이지들을 가져오는 이러한 일을 재귀적으로 반복하는 방식으로 웹을 순화하는 로봇이다 9.1.1 어디에서 시작하는가: '루트 집합' 크롤러가 방문을 시작하는 URL들의초기 집합은 루트 집합이라고 한다. 루트 집합을 고를 때, 모든 링크를 크롤링하면 결과적으로 관심있는 웹페이지들의 대부분을 가져 오게 될 수 있도록 해야한다 9.1.2 링크 추출과 상태 링크 정상화 크롤러는 검색한 각 페이지 안에 들어있는 URL 링크들을 파싱해서 크롤링할 페이지들의 목록에 추가해야한다 9.1.3 순환 피하기 로봇들은 순환을 피하기 위해 반드시 그들이 어디를 방문했..

Study 2021.01.13
1
더보기
  • 분류 전체보기 (68)
    • Language (14)
      • Java (12)
      • Nodejs (1)
      • Javascript (1)
    • DB (2)
      • MySQL (2)
    • Cloud (1)
      • AWS (1)
    • VCS (4)
      • Git (4)
    • Tool (9)
      • Eclipse (4)
      • IntelliJ (3)
      • DBeaver (1)
      • SQL Developer (1)
    • Study (30)
    • Project (1)
    • Information (5)

Tag

프록시, 웹서버, 조건문, Java, Git, 파이썬, 혼공파, error, HTTP, stackoverflow, 웹, 혼자공부하는파이썬, 캐시, 반복문, IntelliJ, If, HTTP완벽가이드, 혼자 공부하는 파이썬, equals(), 인증,

최근글과 인기글

  • 최근글
  • 인기글

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바