[딥러닝] 12장 자연어 처리
·
etc
자연어 처리는 주로 순환 신경망 (RNN) 이용keras의 자연어 처리 라이브러리 nltk를 사용한다. 자연어 처리 단계자연어 처리 전 필요없는 토큰(불용어) 제거하는 과정 필요 1) 텍스트 전처리- 토큰으로 분리(토큰화)import nltkfrom nltk.tokenize import word_tokenize from nltk.tokenize import sent_tokenize - 각종 구두점 삭제- 소문자 변환 신경망이 소화할 수 있는 방식으로 단어를 제공해야함!! 1) 정수 인코딩- 일반적으로 단어를 빈도 순으로 정렬 한 뒤 번호를 차례대로 부여한다. 2) 원핫 인코딩- 이진벡터 중 하나만 1이고 나머지 0으로 변환 keras의 to_categorical() 함수 사용 import numpy..