본문 바로가기

머신러닝/NLP(자연어처리, Natural language processing)6

자연어 처리 - 워드클라우드 1. 이상한 나라의 앨리스 txt의 워드클라우드from wordcloud import WordCloud, STOPWORDSimport numpy as npfrom PIL import Imagetext = open('./NLP/06_alice.txt').read()print(text) pinkwink github에서 txt파일을 받아서 open, read시켜줍니다. alice_mask = np.array(Image.open('./NLP/06_alice_mask.png'))alice_mask 워드클라우드의 마스크로 쓸 이미지를 가져옵니다.이렇게 이미지를 open한 뒤 np.array()로 감싸는 것은 원래 이미지가 pixel인데 숫자로 나타내는 겁니다. 이제 stopwords를 가져와보겠습니다. stopwo.. 2024. 5. 28.
자연어 처리 - 형태소 분석 형태소 분석이 어떤건지 살펴보겠습니다. 버전에 따라서 형태소 분석을 하는 엔진이 조금씩 바뀌기 때문에 자료의 데이터가 현재 동작하지 않을 수 있습니다. 꼬꼬마 엔진을 불러오겠습니다.from konlpy.tag import Kkma #(꼬꼬마 엔진입니다.)kkma = Kkma() kkma.sentences('한국어 분석을 시작합니다 재미있어요~~')['한국어 분석을 시작합니다', '재미있어요~~'] 분명 시작합니다 뒤에 마침표를 넣지 않았는데도 자동으로 나눠줍니다. kkma.nouns('한국어 분석을 시작합니다 재미있어요~~')['한국어', '분석'] 명사도 프린트해주고요, kkma.pos('한국어 분석을 시작합니다 재미있어요~~')[('한국어', 'NNG'),  ('분석', 'NNG'),  ('을', '.. 2024. 5. 27.
728x90