[Python] scrapy 모듈 사용하여 크롤링하기
·
Development/Python
scrapy란? scrapy는 파이썬 기반의 오픈 소스 웹 크롤링 프레임워크이다. 크롤링 작업을 자동화하고, 웹 사이트에서 데이터를 추출하고, 웹페이지를 크롤링하는 데 사용된다. scrapy는 웹 크롤링에 필요한 다양한 기능과 도구를 제공하여 개발자가 효율적으로 크롤링 작업을 구현할 수 있도록 도와준다. scrpapy의 핵심 기능 스파이더 (Spider): Scrapy의 핵심 개념으로, 크롤링 작업을 수행하는 데 사용된다. 스파이더는 웹페이지를 탐색하고 데이터를 추출하는 룰 기반의 크롤링 로직을 포함한다. 사용자는 스파이더를 작성하여 필요한 데이터를 웹페이지에서 추출할 수 있다. 요청 및 응답 처리: Scrapy는 HTTP 요청을 보내고 웹 서버로부터 받은 응답을 처리하는 기능을 제공한다. 이를 통해 스..
[Crawler] 특정 값 파싱 안될 때(ex. 작성자)
·
Development
특정 값 안나올 때 (ex. 작성자, 날짜 등)사이트내의 `network`에 검색했을 때도 안나오는 값일 경우,정상적으로 웹 파싱이 안되어서 값을 못불러오는 경우 일 수 있음. 그럴 경우 파싱넘겨주는 값을 수정한다1. `path` 추가2. `user-agent` 변경 (4.0 => 5.0)3. `cookie`값 추가 해주었더니 정상적으로 모든 값이 파싱됨.$strParseContent = "";$strParseContent .= "GET"; // POST, GET 선택$strParseContent .= " {$strParseSubURL} HTTP/1.0\r\n"; // 도메인이외의 파라미터값.$strParseContent .= "Host:{$strParseHost}\r\n"; // "http://" 제거..