본문 바로가기

제로베이스59

자연어 처리 - 워드클라우드 1. 이상한 나라의 앨리스 txt의 워드클라우드from wordcloud import WordCloud, STOPWORDSimport numpy as npfrom PIL import Imagetext = open('./NLP/06_alice.txt').read()print(text) pinkwink github에서 txt파일을 받아서 open, read시켜줍니다. alice_mask = np.array(Image.open('./NLP/06_alice_mask.png'))alice_mask 워드클라우드의 마스크로 쓸 이미지를 가져옵니다.이렇게 이미지를 open한 뒤 np.array()로 감싸는 것은 원래 이미지가 pixel인데 숫자로 나타내는 겁니다. 이제 stopwords를 가져와보겠습니다. stopwo.. 2024. 5. 28.
앙상블 기법 - Boosting Algorithm - 앙상블은 전통적으로 Voting, Bagging, Boosting, 스태깅 등으로 나눔- 보팅과 배깅은 여러개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식- 보팅과 배깅의 차이점은 보팅은 각각 다른 분류기, 배깅은 같은 분류기를 사용- 대표적인 배깅 방식이 랜덤 포레스트 *Voting과 Bagging 의 차이즉 Voting 방법은 전체 데이터를 각각 다른 알고리즘으로 돌리는것,Baaging 방법은 하나의 알고리즘을 쓰는데 전체 데이터를 나눠서 쓴다는 것. 나누는 방법이 중복을 허락해서(bootstraping) 수집한다. * Boosting기법Boosting 방법은 여러개의 약한 분류기(성능이 떨어지고 빠른 방법)를 학습하면서, 앞에서 학습한 분류기가 예측이 틀린 데이터에 의해 다음 분류기가.. 2024. 5. 20.
앙상블 기법 - HAR 데이터 Decision Tree 적용 이제 HAR 데이터를 결정나무 모델을 통해 머신러닝 시켜보겠습니다.1. 데이터 가져오기import pandas as pdimport matplotlib.pyplot as plturl = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/HAR_dataset/features.txt'feature_name_df = pd.read_csv(url, sep='\s+', header=None, names=['column_index', 'column_name'])#txt도 read_csv로 읽을 수 있습니다.#\s는 공백 한칸, \s+는 공백 여러칸입니다.feature_name_dft로 시작하는 데이터는 시간 영역의 데이터라는 뜻이고, f로.. 2024. 5. 10.
데이터 직무 포트폴리오 작성법 1. 데이터 직무 커리어 소개- 데이터 분석가 : 데이터 추출 및 가공, EDA/인사이트 도출 및 대시보드(시각화) 개발ex) 쿠팡 - BA(Business Analyst), MI(Marketing Intelligence), 당근마켓, 요기요 - PA(Product Analyst), Citizen Analyst(도메인 분석 전문가)- 데이터 사이언티스트 : 데이터 분석 + ML/DL 모델링 및 알고리즘 최적화, 석사학위를 선호- 데이터 PM : 데이터 과제 기획, 운영, 분석, 데이터 과제를 리딩 2. 기업에서는 왜 데이터 직무 인원을 채용할까?1) 의사결정 지원 : 전사의 중요 의사결정을 직관이 아닌 데이터 기반의 합리적 판단을 하기 위해2) 이슈 해걸 : 전사의 발생하는 이슈를 감지하고, 이슈 분석과.. 2024. 5. 9.
728x90