본문 바로가기

전체 글107

앙상블 기법 - HAR 데이터 Random Forest 이번에는 random forest 모델을 통해 머신러닝을 시켜보겠습니다. random forest는 sklearn의 ensenble(앙상블)에서 가져올 수 있습니다. 이 random forest에도 여러 옵션이 있는데 바로 GridSearchCV로 나누어보겠습니다. random forest는 decision tree가 많이 결합된 것이기 때문에 max_depth가 필요합니다. n_estimators는 decision tree를 몇그루 쓸 것인가에 해당합니다. min sample leaf는 tree의 맨 끝에 들어오는걸 leaf라고 하는데 이 leaf에 데이터가 몇개 모이게 할 것인가입니다. decision tree의 맨 하단을 leaf라고합니다. min sample split은 leaf 바로 윗단에서 분.. 2024. 5. 18.
앙상블 기법 - HAR 데이터 Decision Tree 적용 이제 HAR 데이터를 결정나무 모델을 통해 머신러닝 시켜보겠습니다.1. 데이터 가져오기import pandas as pdimport matplotlib.pyplot as plturl = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/HAR_dataset/features.txt'feature_name_df = pd.read_csv(url, sep='\s+', header=None, names=['column_index', 'column_name'])#txt도 read_csv로 읽을 수 있습니다.#\s는 공백 한칸, \s+는 공백 여러칸입니다.feature_name_dft로 시작하는 데이터는 시간 영역의 데이터라는 뜻이고, f로.. 2024. 5. 10.
데이터 직무 포트폴리오 작성법 1. 데이터 직무 커리어 소개- 데이터 분석가 : 데이터 추출 및 가공, EDA/인사이트 도출 및 대시보드(시각화) 개발ex) 쿠팡 - BA(Business Analyst), MI(Marketing Intelligence), 당근마켓, 요기요 - PA(Product Analyst), Citizen Analyst(도메인 분석 전문가)- 데이터 사이언티스트 : 데이터 분석 + ML/DL 모델링 및 알고리즘 최적화, 석사학위를 선호- 데이터 PM : 데이터 과제 기획, 운영, 분석, 데이터 과제를 리딩 2. 기업에서는 왜 데이터 직무 인원을 채용할까?1) 의사결정 지원 : 전사의 중요 의사결정을 직관이 아닌 데이터 기반의 합리적 판단을 하기 위해2) 이슈 해걸 : 전사의 발생하는 이슈를 감지하고, 이슈 분석과.. 2024. 5. 9.
앙상블 기법 - HAR 데이터 HAR은 Human Activity Recognition이라고 사람의 행동을 예측하는 기법입니다. 이미지는 아니고, 사람의 몸에 어떤 디바이스를 붙여놓았다고 생각하면 됩니다.오래된 디바이스지만, 이 휴대폰에는 IMU센서가 붙어있습니다. 즉 자이로센서, 가속도센서, 등등이 붙어있다고 합니다. 위 데이터는 사람 몸에 IMU센서를 부착해서 사람의 행동을 인식하는 실험입니다. IMU 센서를 부착하기 힘들어서 핸드폰을 직접 부착한 상태입니다. 자이로 센서(Gyroscope)는 회전하는 각속도를 측정하는 센서고 가속도 센서는(Accelerometer)는 가속도 성분을 측정하는 센서입니다. 내가 책상에 가만히 있다면 지구 중력을 측정합니다. -9.8m/s^2... 무튼 자이로센서는 가만히 놔두면 지구 자전을 검출해 .. 2024. 5. 8.
728x90