Text Representation: 텍스트 자료 표현
·
공부/자연어처리
이번에 대학원에 입학해 자연어 처리 관련 연구를 하고 있어 블로그에 공부한 내용을 하나씩 정리해보고자 합니다.이번 글에 나온 기법들은 다 나온지 꽤 오래된 내용들이지만, 자연어처리에서 한 획을 그은 방법인 만큼 간략하게 정리해보았습니다. 들어가기에 앞서, 이 내용은 제 지도교수님이신 건국대학교 김학수 교수님의 자연어처리개론 강의를 참고했음을 밝힙니다. 자연어처리(NLP)에서 단어를 수치화하여 컴퓨터가 이해할 수 있도록 변환하는 과정은 매우 중요합니다.이 글은 원-핫 인코딩부터 분산 표현, Word2Vec, GloVe, BPE 등의 내용을 담고 있고 뒤로 갈 수록 앞선 방식을 개선했다고 보면 됩니다.1. 원-핫 인코딩 (One-Hot Encoding)가장 간단한 단어 표현 방식단어 사전을 구성하고 해당 단..