패스트 캠퍼스 강의에서 제공하는 실습파일을 보면서 강사님의 지시에 따라 실습을 따라하시면 됩니다.
" id, class 속성을 이용해서 원하는 값 추출하기 "
1) CSS를 이용해 tag 찾기
select, select_one 함수를 사용해서 tag를 찾습니다.
see selector 사용할 때는 아래와 같은 방법을 이용합니다.
- 태그명 찾기 tag
- 자손 태그 찾기 - 자손 관계 (tag tag)
- 자식 태그 찾기 - 다이렉트 자식 관계 (tag > tag)
- 아이디 찾기 #id
- 클래스 찾기 .class
- 속성값 찾기 [name='test']
- 속성값 prefix 찾기 [name ^='test']
- 속성값 suffix 찾기 [name $='test']
- 속성값 substring 찾기 [name *='test]
- n번째 자식 tag 찾기 :nth-child(n)
2) 댓글 개수 추출
댓글의 경우, 최초 로딩시에 전달되지 않습니다.
이 경우는 추가적으로 AJAX로 비동기적 호출을 해서 따로 데이터로 전송합니다.
개발자도구의 network 탭에서 확인할 수 있습니다.
비동기적 호출은 사이트 전체가 아닌 일부분만 업데이트가 가능하도록 합니다.
" selenium 모듈 "
1) 모듈 import 하기
import requests
2) HTTP 상태 코드
HTTP코드는 아래와 같습니다.
1xx (정보): 요청을 받았으며 프로세스를 계속한다
2xx (성공): 요청을 성공적으로 받았으며 인식했고 수용하였다
3xx (리다이렉션): 요청 완료를 위해 추가 작업 조치가 필요하다
4xx (클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수 없다
5xx (서버 오류): 서버가 명백히 유효한 요청에 대해 충족을 실패했다
더 자세한 설명은 위키피디아를 참고하세요!
https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C
3) 로그인하여 데이터 크롤링하기
로그인을 해서 크롤링을 해야하는 경우가 있습니다.
예를 들어 쇼핑몰에서 주문한 아이템 목록이나 마일리지 조회 등의 경우입니다.
이 때, 로그인을 자동화해서 로그인에 사용한 세션을 유지하여 크롤링을 진행합니다.
4) 로그인 후 데이터 크롤링하기
4 단계로 데이터 크롤링이 진행됩니다.
1 단계. endpoint 찾기 (개발자 도구의 network를 활용)
2 단계. id와 password가 전달되는 form data찾기
3 단계. session 객체 생성하여 login 진행
4 단계. 이후 session 객체로 원하는 페이지로 이동하여 크롤링
머신러닝 인강 최강자를 만나고 싶으면!? https://bit.ly/3lZfGmn
'환급 챌린지!' 카테고리의 다른 글
[패스트캠퍼스 수강 후기] 머신러닝 인강 100% 환급 챌린지 18회차 미션 (0) | 2020.11.05 |
---|---|
[패스트캠퍼스 수강 후기] 머신러닝 인강 100% 환급 챌린지 17회차 미션 (0) | 2020.11.04 |
[패스트캠퍼스 수강 후기] 머신러닝 인강 100% 환급 챌린지 15회차 미션 (0) | 2020.11.02 |
[패스트캠퍼스 수강 후기] 머신러닝 인강 100% 환급 챌린지 14회차 미션 (0) | 2020.11.01 |
[패스트캠퍼스 수강 후기] 머신러닝 인강 100% 환급 챌린지 13회차 미션 (0) | 2020.10.31 |