일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- CSS Fraud Score
- ORACLE NULL값 처리
- 파이썬 이미지 불러오기
- 파이썬 이미지 리스트 변환
- 회수모형
- 딥러닝 제대로 시작하기
- 리눅스 저장 용량 확인
- jupyter notebook 테마 변경
- SQL NULL값 처리
- Python Numpy
- python pandas
- python image load
- 주식 데이터 수집
- ORACLE SQL NVL
- linux 폴더 용량 확인
- python image list
- 파이썬 테마
- 신용평가 Fraud
- 신용평가 부정사용 평점
- 딥러닝
- SQL NVL
- jupyter notebook PDF
- Cudnn 버전 확인
- 주피터노트북 테마 변경
- ORACLE 상위 행 추출
- 행동평점
- linux 폴더 크기 확인
- 신청평점
- 파이썬 이미지 라벨 저장
- ORACLE 상위 N개 추출
- Today
- Total
목록Statistics (8)
koos808
분류기 (Classifier) 의 성능을 평가하는 Metric에는 Precision과 Recall이 있습니다. Precision Precision = TP/(TP+FP) or TP/(분류기가 P 로 예측한 것) Precision 은 분류기가 P로 예측한 sample 중에서 맞게 예측한 것의 비율 을 의미한다. == 인식기 (object-detector) 가 검출한 정보들 중에서 Ground-Truth 와 일치하는 비율을 의미한다. 검출된 정보(TP+FP) 중에서 적절한 것들(TP) 의 비율을 Precision 이라고 한다. 영어 위키 : Precision is the probability that a retrieved(검출된) one is relevant(적절한) Recall Recall = TP/(TP..
성능 평가 지표 Python code(파이썬 코드) * 함수를 정의해서 직접 구하는 방식 # MAE def MAE(y_true, y_pred): return np.mean(np.abs((y_true - y_pred))) print("MAE == ", MAE(y_true, y_pred)) # MAPE def MAPE(y_true, y_pred): return np.mean(np.abs((y_true - y_pred) / y_true)) print("MAPE == ", MAPE(y_true, y_pred)) # MSE def MSE(y_true, y_pred): return np.mean(np.square((y_true - y_pred))) print("MSE == ", MSE(y_true, y_pred))..
* 벡터간의 유사도를 측정할 수 있는 대표적인 방법은 유클리디안 거리와 같은 거리 계산 방법말고도 코사인 유사도가 있습니다. 추천시스템에서 많이 쓰이는 코사인 유사도의 수식과 구현 코드에 대해서 알아보겠습니다. * 코사인 유사도 : 코사인 유사도(― 類似度, 영어: cosine similarity)는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미합니다. * 두 벡터의 코사인값은 유클리디안 스칼라곱 공식에서 유도할 수 있습니다. 속성 A, B의 벡터값이 각각 주어졌을 때, 코사인 유사도 cos(θ)는 벡터의 스칼라곱과 크기로 다음과 같이 표현할 수 있습니다. * cosθ의 θ가 1에 가까울 수록 "방향"(거리는 고려 X)을 기준으로 두 개의 벡터가 유사하다고 볼 수 있..
배깅과 부스팅 Boosting은 Bagging과 유사하게 초기 샘플 데이터를 조작하여 다수의 분류기를 생성하는 기법 중 하나지만 가장 큰 차이는 순차적(Sequential)방법이라는 것입니다. 앞서 살펴본 bagging의 경우 각각의 분류기들이 학습시에 상호 영향을 주지않고 학습이 끝난 다음 그 결과를 종합하는 기법이었다면, Boosting은 이전 분류기의 학습 결과를 토대로 다음 분류기의 학습 데이터의 샘플가중치를 조정해 학습을 진행하는 방법입니다. 장단점 이러한 이유로 이전 학습의 결과가 다음학습에 영향을 주게 되고 부스팅 라운드를 진행할수록 m차원 공간의 분류경계선(Borderline)상의 데이터의 가중치가 증가하게 되는 결과를 가져오게 됩니다. 일반적으로 부스팅 알고리즘은 의사결정나무(Decisi..
1종 오류 & 2종 오류 1종 오류(Type 1 Error) : 귀무가설(H0)이 참(True)일 때, 귀무가설(H0)을 기각(Reject)하는 경우 2종 오류(Type 2 Error) : 귀무가설(H0)이 거짓(False)일 때, 귀무가설(H0)을 기각하지 못하는 경우 유의수준(alpha)을 높인다는 것은 2종 오류가 발생할 가능성을 낮춘다는 의미이다. 유의수준(alpha)을 낮춘다는 것은 2종 오류가 발생할 가능성을 높인다는 의미이다. 귀무가설(H0)을 기각함으로써 상당한 비용이 발생하는 경우, 연구자는 1종 오류가 발생할 가능성을 최대한 줄이고자 노력할 것이다. Example : 신약개발 1종 오류 : 귀무가설(H0-효과x) 참(true)인데 기각함(효과가 없는데 효과가 있다고(H1 채택) 검정함)..
P-value 정의 : p-value는, 귀무가설(null hypothesis, H0)이 맞다는 전제 하에, 관측된 통계값 혹은 그 값보다 큰 값이 나올 확률이다. 일반적으로 p-value는 어떤 가설을 전제로, 그 가설이 맞는다는 가정 하에, 내가 현재 구한 통계값이 얼마나 자주 나올 것인가를 의미한다고 할 수 있다. p-value의 필요 이유 : p-value는 가설검정이라는 것이 전체 데이터를 갖고 하는 것이 아닌 sampling 된 데이터를 갖고 하는 것이기 때문에 필요하게 된다. 정리를 하면, 가설검증이라는 것은 전체 데이터의 일부만을 추출하여 평균을 내고, 그 평균이 전체 데이터의 평균을 잘 반영한다는 가정 하에 전체 데이터의 평균을 구하는 작업인데, 아무리 무작위 추출을 잘 한다 하더라도 추..
신뢰구간(Confidence Interval) 신뢰구간을 구하는 이유는 모평균의 신뢰성을 가늠하기 위해서이다. 모평균은 왜 구하는 것일까? 우리가 어떤 자료를 파악하고자 할 때는 그 자료의 평균이나 분산 등의 값들을 먼저 구한다. 평균을 알면 자료의 대표적인 값을 알 수 있고 분산을 알면 자료가 평균으로부터 얼마나 떨어져 있는지를 파악할 수 있기 때문이다. but 모평균과 모분산을 직접 계산한다는 것은 일반적으로 거의 불가능하다. -> 모집단의 원소는 일반적으로 매우 크기 때문!! 따라서 조사하고자 하는 어떤 거대한 모집단이 존재한다면, 표본을 추출하여 모평균 혹은 모분산을 추정하는 것이 통계학의 가장 기본적인 방법이다. 이렇게 추출된 표본으로부터 구한 표본평균 및 표본분산을 모평균과 모분산의 추정치로 ..
확률(Probability) 1.확률이란? 어떤 시행에서 사건 A가 일어날 가능성을 수로 나타낸 것을 사건 A가 일어날 확률이라 하고, 이것을 기호로 P(A)로 나타낸다. 이때, P는 probability(확률)의 첫글자이다. 2.확률의 종류 수학적 확률 수학적 확률은 확률의 고전적 정의이다. 어떤 시행에서 각각의 경우가 일어날 가능성이 같다고 할 때, 일어날 수 있는 모든 경우의 수를 s, 어떤 사건 A가 일어날 경우의 수를 a라고 하면 사건 A가 일어날 확률 P(A)는 a/s이다. 이와 같이 정의된 확률을 수학적 확률이라 한다. 통계적 확률(경험적 확률) 같은 시행을 n번 반복했을 때의 사건 A가 일어난 횟수를 r이라고 할 때, n을 한없이 크게 함에 따라 상대도수 r/n이 일정한 값 p에 가까워지면..