Q. 왜 사용하는가?
A.
앞서 설명한대로 로지스틱 회귀는 분류문제에 가깝다. 예측하고자 하는 범위도 yes나 no인 이진(두개)카테고리다.
그러면 어떤 값을 기준으로 이 값을 넘거나, 넘지 못하면 yes나 no라고 분류할 수 있게 된다.
이때, 시그모이드의 출력값을 활용할 수 있는 이유는 분류문제를 확률 문제로 접근할 수 있기 때문이다
그러니까, 샘플 x가 주어졌을 때 출력은 x가 참 클래스에 속할 것인가?에 대한 확률값을 표현한 것으로 볼 수 있다.
수식은 다음과 같다,

이렇듯 이진분류에 적합한 함수(출력이 0이나 1 아님 -1이나 1사이, 즉, 어떤 기준을 두고 두개의 범주로 구분할 수 있는 출력값을 갖는 함수)가 로지스틱 회귀에 필요하다
그렇기에 선형회귀에서 썼던 MSE는 더이상 못쓰게 됨!
이진 = binary
N개의 정답과 모델 출력 벡터에 대한 BCE 손실 함수 정의

정답 벡터(y)는 0이나 1(예를 들어서)의 값을 가지고 있을 것!
정답 벡터에는 비어있는 부분이 없다 다 0이나 1로 채워져 있음
빨간부분은 원래 정답이 참이었을 때, 파란부분은 원래 정답이 거짓이었을 때를 나타냄
0일때의 손실과 1일때의 손실을 합산 왜?임의의 순번 j번째에서 정답은 0아니면 1이니까
y =1 이고 1-y가 0아면, logY가 커지면 손실값은 작아짐
y =0이면 그 반대. 1-log Y가 커지면 손실값은 작아짐