2011년 8월 22일 월요일

stat[ 펌펌펌


www.statedu.com 발췌

이상값 제거 기준에는 통계적으로 여러가지 방법이 있습니다.
먼저 어떤 분석기법(GLM, 회귀분석 등)을 사용한다면 그 분석기법에서 제공하는 Hi, COOK, DFITS, 표준화된 잔차 등과 통계량을 이용하는 방법이 있습니다.
또 단순한 data 에서는 첨도, 왜도 등과 같은 통계량을 이용하는 방법과 평균, 표준편차, 중위수를 고려해서 이상값으로 의심되는 경우 제거하는 방법 등도 있습니다.
통계량을 이용하는 경우에는 정확한 기준이 있기 때문에 비교적 편하게 제거할 수 있지만, 후자등의 경우에는 정확한 기준이 아니라 경험적인 방법에 의해 좌우되는 경우가 많습니다.

글의 내용으로 봤을 때 회귀분석시에 이상치를 제거하는 방법에 대해 설명을 한 것이네요.

1. 더미변수(Dummy Variable) 처리
이건 새로운 변수를 하나 더 만들라는 말입니다. data 를 봤을 때 그 값이 극단치에 해당되면 1, 그렇지 않고 정상적인 data 라면 0 으로 입력해서 사용하라는 것이죠.

2. 추정치 구하는 방법
회귀분석을 하게 되면 회귀식에 의한 추정값을 구할 수 있는 옵션이 대부분의 프로그램에서 제공하고 있습니다. 그러므로, 사용하시는 프로그램의 회귀분석 옵션에서 저장과 같은 옵션을 보면 추정값, 예측값 등과 같은 이름으로 되어 있는 것을 선택하면 추정값이 출력이 됩니다.

3. 표준편차의 3배
이상값을 판별하는 기준중에 잔차(residual) 이라는 것이 있습니다. 이 값은

잔차 = 추정값(or 예측값) - data

입니다. 이 값이 표준편차X3 한 값보다 크다면 그 data 는 이상값일 가능성이 높다는 의미에서 나온 말입니다.

좀더 자세한 내용은 회귀분석을 공부해 보시면 이해하는데 상당한 도움이 될 것입니다.

... 언제나 최선을 다하는 StatEdu가 되길 빌며 ...

댓글 없음:

댓글 쓰기

국정원의 댓글 공작을 지탄합니다.

UPBIT is a South Korean company, and people died of suicide cause of coin investment.

 UPBIT is a South Korean company, and people died of suicide cause of coin. The company helps the people who control the market price manipu...