리캡차(recapcha) 대응
카테고리 없음
2022. 10. 17. 22:50
리캡차에 대응하는 방법은 현재까지는 딜레이 시간을 늘리는 것이 가장 효과적인 듯. 설령 리캡차를 완벽하게 회피하거나 돌파할 수 있는 방법이 있다고 하더라도 서비스 제공자의 관점에서 보았을 때 그것은 탐탁치 않다. 크롤링은 대상 서버에 짧은 시간에 큰 트래픽을 초래하는 부담스러운 작업이므로 서비스 제공자에게 큰 손해를 미칠 수 있다. 따라서 리캡차와 같은 방법을 통한 트래픽 차단 행위는 서비스 제공자에 입장에서는 너무나도 당연한 조치이므로 데이터를 취하고자 하는 사람은 트래픽 차단 조치를 존중해줘야 한다. 리캡차가 발생하였을 때 증상은 명확하다. 리캡차가 발생하였을 때는 데이터가 하나도 수집되지 않는다. 여러 종류의 데이터 수집 태스크가 수집기에 전달되었음에도 불구하고 수집된 데이터가 0으로 나타난다면 리..