본문 바로가기
SMALL

데이터 분석13

[HandsOn/회귀분석] 캘리포니아 주택가격 예측하기 캘리포니아 주택가격 예측하기 문제는 레이블된 훈련 샘플이 있으므로 전형적인 지도학습 작업입니다. 예측에 사용할 특성이 여러 개 이므로 다중회귀 모델로 해결할 수 있습니다. 여러 회귀 모델을 사용해 주택가격을 예측하고 성능을 비교하는 주피터 노트북을 공유합니다! [1] 주택가격 예측하기¶ ◆ 작성일: 2021.10.17. ◆ 작성자: 오민지 CONTENTS¶ 1. 도입¶ 1.1. 데이터 불러오기·split 하기 1.2. 데이터 기본 정보 파악하기1 - 기술통계 1.3. 데이터 특성 파악하기2 - 시각화 1.4. 파생변수 만들고 상관계수 확인하기 1.5. 결측치는 열 평균으로 맞춰줌 1.6. 범주평 데이터를 One Hot Encoding 하기 2. 머신러닝¶ 2.1. 선형회귀모델 2.2 의사결정나무 2.3... 2021. 10. 17.
[SAS OnDemand for Academic] 클라우드 기반 SAS 체험하기 SAS는 공공기관과 교육기관에서 많이 사용하는 데이터분석 플랫폼입니다. 다만 유료인데다 가격이 좀 비싸기 때문에 혼자 공부하는 분들이나 학생들이 쉽게 사용할 수 없기도 합니다. 예전부터 SAS에서는 SAS University Edition을 제공해서 무료로 SAS를 체험할 수 있도록 해주었는데요, 가상머신에 SAS University Edition을 설치해서 사용하는 방식이었습니다. 저도 예전에 이 방식을 썼다가 가상머신이 용량을 꽤 차지해서 지웠어요. 최근에 SAS를 써야하는 일이 생겨서 찾아보던 중에 SAS University Edition은 2021년 4월 30일에 서비스를 종료다는 걸 알게 되었습니다. 다행히도 SAS OnDemand for Academics라는 서비스로 SAS를 무료로 체험할 수.. 2021. 7. 7.
[Pandas/skiprows] 데이터 중간부터 읽어오기 chunksize 로 나눠서 데이터를 읽어오다가 중간에 data truncated 오류가 났습니다. MySQL에 오류 수정을 하고 다시 데이터를 읽어들이려니, 중간부터 시작해야 했습니다. 데이터 중간부터 읽어오는 법 포스트입니다. 방법 판다스에서 pandas.read_csv() 함수의 옵션을 활용하면 됩니다. pandas.read_csv — pandas 1.3.0 documentation Delimiter to use. If sep is None, the C engine cannot automatically detect the separator, but the Python parsing engine can, meaning the latter will be used and automatically dete.. 2021. 7. 4.
[Pandas/Chunksize] 큰 용량 데이터 읽어오기 2021년 문화관광 빅데이터 분석대회에 도전하게 되었습니다. 분석용 데이터를 열어보려는데, 용량이 무려 4GB가 넘었습니다. 컬럼이 12개인데 용량이 4GB면 row 수가 어마어마할 거라는 생각이 들었어요. pd.read_csv() 로 읽어들이려 하니 메모리 부족 에러가 나더군요ㅠ_ㅠ datatable.fread() 로 읽으려 해도 메모리 부족 때문에 에러가 났습니다. 이럴 땐 파일을 쪼개서 읽어오면 됩니다. 아래 블로그에서 유용한 정보를 얻어 파일을 쪼개서 읽어오는 법을 배웠습니다~! 파이썬 대용량 csv 파일 읽는 방법 정리 - Python read large size csv file 포스팅 개요 이번 포스팅은 파이썬(Python)에서 용량이 큰 csv 파일을 읽고 처리할 수 있는 방법을 정리합니다... 2021. 7. 4.
LIST