본문 바로가기

분류 전체보기107

자연어 처리 - 워드클라우드 1. 이상한 나라의 앨리스 txt의 워드클라우드from wordcloud import WordCloud, STOPWORDSimport numpy as npfrom PIL import Imagetext = open('./NLP/06_alice.txt').read()print(text) pinkwink github에서 txt파일을 받아서 open, read시켜줍니다. alice_mask = np.array(Image.open('./NLP/06_alice_mask.png'))alice_mask 워드클라우드의 마스크로 쓸 이미지를 가져옵니다.이렇게 이미지를 open한 뒤 np.array()로 감싸는 것은 원래 이미지가 pixel인데 숫자로 나타내는 겁니다. 이제 stopwords를 가져와보겠습니다. stopwo.. 2024. 5. 28.
자연어 처리 - 형태소 분석 형태소 분석이 어떤건지 살펴보겠습니다. 버전에 따라서 형태소 분석을 하는 엔진이 조금씩 바뀌기 때문에 자료의 데이터가 현재 동작하지 않을 수 있습니다. 꼬꼬마 엔진을 불러오겠습니다.from konlpy.tag import Kkma #(꼬꼬마 엔진입니다.)kkma = Kkma() kkma.sentences('한국어 분석을 시작합니다 재미있어요~~')['한국어 분석을 시작합니다', '재미있어요~~'] 분명 시작합니다 뒤에 마침표를 넣지 않았는데도 자동으로 나눠줍니다. kkma.nouns('한국어 분석을 시작합니다 재미있어요~~')['한국어', '분석'] 명사도 프린트해주고요, kkma.pos('한국어 분석을 시작합니다 재미있어요~~')[('한국어', 'NNG'),  ('분석', 'NNG'),  ('을', '.. 2024. 5. 27.
Credit Card Fraud Detection 이번 시간에는 금융권 데이터를 가져오는 프로젝트를 진행하겠습니다. credit card Fraud Detection이라고 신용카드 부정 사용자를 검출하는 프로젝트입니다.- 신용카드와 같은 금융 데이터들은 구하기가 어렵습니다. - 그러나 지능화 되어가는 현대 범죄에 맞춰 사전 이상 징후 검출 등 금융 기관이 많은 노력을 기울이고 있습니다. - 이 데이터 역시 센서를 이용한 사람의 행동 과정 유추처럼 머신러닝의 이용 분야 중에 하나입니다. - https://www.kaggle.com/MLG-ULB/CREDITCARDFRAUD- 데이터 받은 후 압축 풀고 소스코드 폴더에 옮깁니다. 데이터 개요 - 신용카드 사기 검출 분류 실습용 데이터 - 데이터에 class라는 이름의 컬럼이 사기 유무를 뜻함 - class .. 2024. 5. 27.
앙상블 기법 - Boosting algorithm - GBM, XGBoost, LGBM 우리가 원하는 결과를 얻는 과정이 길 수 있습니다. Gradient가 붙으면 보통 계산하는 과정이 깁니다. Boosting algorithm은 여러개의 약한 학습기 (week learner)를 순차적으로 학습-예측 하면서 잘못 예측한 데이터에 가중치를 부여해서 오류를 개선해나가는 방식이었습니다.* 부스팅 알고리즘은 앙상블 기법의 한 종류입니다. 앙상블 기법은 여러 개의 모델을 결합하여 더 나은 성능을 내는 방법론을 말합니다. 앙상블 기법에는 대표적으로 배깅(Bagging)과 부스팅(Boosting)이 있습니다.*부스팅 알고리즘의 대표적인 예는 다음과 같습니다:GBM (Gradient Boosting Machine): 경사 하강법을 사용하여 모델을 순차적으로 학습시키고 각 단계에서 오류를 최소화하는 방향으.. 2024. 5. 23.
728x90