- 연속에서 비슷한 값 = 유사하다
- 다만 카테고리 값은 유사해도 다른 카테고리면 전혀 상관없음
1. 원 핫 인코딩이란?
- 1과 0으로 표현
- 예를 들어, 커피/빵/물이라는 카테고리가 있으면 1 0 0, 0 1 0 이런식으로 표현 가능
- 다만, 다중공선성이 생길 수 있다
- 예를 들어, 물과 커피는 전혀 상관없음에도 물 = 커피-음료수 이런 식이 생길 수 있음
- 이를 해결해주기 위해 1 0 , 0 1, 0 0 이렇게 바꿔주기도 함
2. 단어 임베딩
- 원핫인코딩을 하면 유사한 값을 유사하다고 표현할 수 없음
- 예를 들어, 커피와 빵이나 커피와 물은 원핫인코딩으로 표현하면 똑같은 유사도를 가지게 됨 커피와 물은 액체라는 공통점을 가지고 있는데도 불구하고
- 빨강, 분홍 << 이런 것도 원 핫 인코딩을 하면 빨강 검정과 똑같은 유사도를 가짐
- 이를 해결하기 위한 것이 단어 임베딩 기법임
- 고밀도 벡터로 단어를 표현 → 이렇게 표기된건 유사하다고 생각할 수 있음
