LLM과 transformer가 주류가 되었지만, 검색·분류·분석 파이프라인에서는 여전히 텍스트 전처리 품질이 중요하다. NLTK는 구조를 눈으로 확인하며 조정할 수 있어 도메인 용어 처리, 통계적 언어 분석, 전통적 feature engineering에 쓸 만하다.
1. Multi-word expression 보존
MWETokenizer는 machine learning, decision tree, San Francisco처럼 여러 단어가 하나의 의미 단위인 표현을 토큰 경계에서 병합한다. 원문 문자열에 정규식을 반복 적용하는 방식보다 안전하고, downstream TF-IDF나 bag-of-words에서 신호가 흩어지는 문제를 줄인다.
2. 품사 기반 lemmatization
표제어 추출(lemmatization)은 품사 정보를 함께 써야 정확해진다. 같은 단어라도 동사·명사·형용사에 따라 기본형이 달라질 수 있기 때문이다. pos_tag 결과를 WordNet lemmatizer가 이해하는 POS로 매핑하면 context-blind stemming보다 덜 거칠다.
3. 통계적 collocation 추출
단순 빈도는 흔한 단어 조합을 과대평가한다. PMI, likelihood ratio 같은 association measure를 쓰면 corpus 안에서 실제로 의미 있는 결합을 찾기 쉽다. 이는 키워드 사전 만들기, 도메인 용어 발굴, 검색 synonym 후보 생성에 유용하다.
관련 문서
- zero-shot-classification — 라벨 예시 없이 텍스트를 분류하는 방법
- transformersjs-tutorial-browser-nlp — 브라우저에서 텍스트 분류·제로샷·질의응답 구현하기
참고 자료
- 3 NLTK Tricks for Advanced Text Preprocessing & Linguistic Analysis — KDnuggets (2026-06-22)