본문 바로가기
환급 챌린지!

[패스트캠퍼스 수강 후기] 머신러닝 인강 100% 환급 챌린지 16회차 미션

by 빅데이터1020 2020. 11. 3.
SMALL

 

패스트 캠퍼스 강의에서 제공하는 실습파일을 보면서 강사님의 지시에 따라 실습을 따라하시면 됩니다.

 

" id, class 속성을 이용해서 원하는 값 추출하기 "

1) CSS를 이용해 tag 찾기

select, select_one 함수를 사용해서 tag를 찾습니다.

see selector 사용할 때는 아래와 같은 방법을 이용합니다.

- 태그명 찾기 tag

- 자손 태그 찾기 - 자손 관계 (tag tag)

- 자식 태그 찾기 - 다이렉트 자식 관계 (tag > tag)

- 아이디 찾기 #id

- 클래스 찾기 .class

- 속성값 찾기 [name='test']

- 속성값 prefix 찾기 [name ^='test']

- 속성값 suffix 찾기 [name $='test']

- 속성값 substring 찾기 [name *='test]

- n번째 자식 tag 찾기 :nth-child(n)

 

2) 댓글 개수 추출

댓글의 경우, 최초 로딩시에 전달되지 않습니다.

이 경우는 추가적으로 AJAX로 비동기적 호출을 해서 따로 데이터로 전송합니다.

개발자도구의 network 탭에서 확인할 수 있습니다.

비동기적 호출은 사이트 전체가 아닌 일부분만 업데이트가 가능하도록 합니다.

" selenium 모듈 "

 

1) 모듈 import 하기

import requests

 

2) HTTP 상태 코드

HTTP코드는 아래와 같습니다.

1xx (정보): 요청을 받았으며 프로세스를 계속한다

2xx (성공): 요청을 성공적으로 받았으며 인식했고 수용하였다

3xx (리다이렉션): 요청 완료를 위해 추가 작업 조치가 필요하다

4xx (클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수 없다

5xx (서버 오류): 서버가 명백히 유효한 요청에 대해 충족을 실패했다

 

더 자세한 설명은 위키피디아를 참고하세요!

https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C

 

3) 로그인하여 데이터 크롤링하기

로그인을 해서 크롤링을 해야하는 경우가 있습니다.

예를 들어 쇼핑몰에서 주문한 아이템 목록이나 마일리지 조회 등의 경우입니다.

이 때, 로그인을 자동화해서 로그인에 사용한 세션을 유지하여 크롤링을 진행합니다.

 

4) 로그인 후 데이터 크롤링하기

4 단계로 데이터 크롤링이 진행됩니다.

 

1 단계. endpoint 찾기 (개발자 도구의 network를 활용)

2 단계. idpassword가 전달되는 form data찾기

3 단계. session 객체 생성하여 login 진행

4 단계. 이후 session 객체로 원하는 페이지로 이동하여 크롤링

 

 

 

머신러닝 인강 최강자를 만나고 싶으면!? https://bit.ly/3lZfGmn

LIST