크롤링을 할 때.

카테고리 없음 2021. 11. 4. 01:33

모든 데이터를 수집하겠다는 건 욕심이다.

그것은 거의 불가능하다고 결론을 내렸다.

일단 데이터가 너무 많다.

네이버 블로그라고 한다면,

직접 그 DB를 까보지 않는 이상은..

모든 것을 가지고 오는 건 어렵다.

이런 점을 감안하고 데이터를 수집하고 분석해야 한다.

 

속도도 포기해야 한다.

빠르게 수집하기 위해 웹 페이지 방문 주기가 짧아질수록 대상 서버에서 블락당해 더이상 수집이 불가능해질 수 있기 때문이다.

그러니 어느정도 시간 간격을 반드시 줘야지만 지속적인 수집이 가능하다.

admin