robot: 1개의 글
[데이터과학] 데이터 수집하는 방법 (예제: 오라일리의 데이터 관련 책) - 페이지 스크랩, 정책
오라일리 출판사 페이지 웹페이지를 분석해서 데이텀의 잠재적 투자자가 데이터 분석은 의미없는 유행에 불과하다는 생각이 틀리다는 것을 증명해보도록 하자. http://shop.oreilly.com/category/browse-subjects/data.do?sortby=publicationDate%page=1 의 주소를 확인해보면 페이지당 30권씩 책이 표시되고 있는것을 확인 할 수 있다. 악의적으로 사이트에 접속하는 것이 아니거나, 웹 스크래퍼가 차단당하는 것을 원치 않는다면 가장 먼저 사이트의 접근 정책을 확인해야 한다. http://oreilly.com/terms/ 크롤러(스크래퍼)가 어떻게 작동해야 하는지 규제하고 있는 robots.txt를 확인해보면 된다. Crawl-delay: 30 Request-..
Python/Python 프로그래밍
2021. 4. 28. 01:45