본문 바로가기
개발/IR_ML_NLP

f1 score

by 로그인시러 2017. 1. 13.





출처 : http://hanggoo.tistory.com/m/post/17


자연어처리를 공부하다보면 논문에 Precision, Recall등으로 실험결과를 표현하는것이 많다.

자주쓰이지만 해깔려서 적어본다.


 

 실험 결과

 True

False 

 실제 정답

 True

 a

 b

 False

 c

 d



Precision(정확률) = a / (a + c)

- 컴퓨터가 True라 한것 중에 실제 True의 비율

- 검색된 것중 몇개 맞추었는지


Recall(재현률) = a / (a + b)

- 실제 True중 컴퓨터가 True라 한것의 비율

- 실제 정답중 몇개 맞추었는지


Accuracy(정확도) = (a + d) / (a + b + c + d)

- 전체 결과중 실제 정답과 같은 판단이 나온 비율


F1 score =  2 * (Precision * Recall) / (Precision + Recall)

- 위의 Precision과 Recall을 기반으로 표현한 것




The traditional F-measure or balanced F-score (F1 score) is the harmonic mean of precision and recall



조화 평균 - 출처 : http://www.mathlove.kr/shop/board/view.php?id=mathdic&page=60&no=495


이를테면 0보다 큰 두 수 a, b 에 대하여


가 a와 b의 조화평균이다. 조화평균은 harmonic mean을 번역한 것으로 한자로는 調和平均이라고 쓴다.

harmonic mean → 調和平均 → 조화평균

harmonic에는 '調和的인'이라는 뜻이 있고, mean은 '平均'을 의미하므로 harmonic mean은 '調和的인 平均'이다.

이것을 간단히 한 것이 '調和平均'이다. 조화평균은 본래 피타고라스에 의해 정의된 것으로 알려져 있다.

피타고라스는 두 수 a와 b의 조화평균 h를



로 정의하였다. 이 값이 음악에서 현의 길이와 음정 사이의 관계를 수로 표현할 때, 가장 조화로운 음의 탄생을 가져오기에 '조화평균'이라고 한 것이다(박영희, 2001). 어떤 일정한 값에 관련해서 자료의 값이 계속해서 변할 때, 조화평균을 택하는 것이 적당하다.

이를테면 거리 d를 속도 x로 움직이고, 다시 거리 d를 속도 y로 움직이면 거리 2d를 움직인 평균 속도는

다음과 같이


로 구하는 것이 자연스럽다. 

(위 분모에 전체속도가 아니라, 전체시간 ..)


또다른,  참조문서

 precision-recall.ppt





근데, 왜 ACCRUACY 는 IR 에서 사용하지 않을까? 

의미가 없기 때문에 ...



근데, 왜 산술평균이 아니고, 조화 평균인가?




'개발 > IR_ML_NLP' 카테고리의 다른 글

TFiDF 의 다양한 변이  (0) 2017.01.19
KMP 알고리즘 [펌-요약]  (0) 2017.01.13
RDBMS vs 검색엔진의 차이  (0) 2017.01.13
spyder 사용법  (0) 2017.01.08
검색개론  (0) 2016.12.13

댓글