본문 바로가기
eBiz전략마케팅

Experimental Designs

by 누피짱 2008. 12. 17.

Experimental Designs

Overview

이 장은 12장에서 소개했던 세 가지 유형의 실험설계 즉 준실험설계(quasi-experimental), 요인설계(factorial), 단일사례 설계(single-case design)의 실험연구 설계 원리를 적용한다. 준실험설계는 실험 및 통제집단에서 피험자의 무선배치가 불가능할 때 이용된다. 요인설계는 12장에서 기술한 one-treatment-variable designs와는 대조적으로 둘 이상의 처치 변인을 동시에 다룰 때 사용된다. 단일사례설계는 한 개인 또는 집단의 처치효과를 연구할 때 이용한다. 교육실험은 종종 성취점수나 다른 변화 유형의 측정을 포함하기 때문에 측정의 유형을 논의한다.

Objectives

1. 실험 및 통제처치에서 피험자를 무선배치하지 않아서 생기는 초기(initial) 집단의 차이를 줄이기 위한 절차를 기술한다.

2. static-group 비교와 이질 통제집단 설계(nonequivalent control-group design)에서 이용되는 방법적, 통계적 절차를 기술다.

3. 준실험설계의 내적타당도를 위협하는 주요 가능성을 기술한다.

4. 요인설계에서 나타나는 독립변인을 다섯 가지 유형으로 분류한다.

5. 기본적인 요인 실험의 목적, 설계, 통계분석을 설명한다.

6. 단일사례 실험설계의 방법, 목적, 특징을 기술한다.

7. 단일사례 연구에서 A-B-A 설계와 multiple-baseline designs의 여러 변량을 기술하고, 이러한 설계에 의해 산출된 자료분석을 위한 가장 적절한 통계적 기법을 지적한다.

8. 단일사례 실험에서 내적타당도 및 외적타당도를 위협하는 것들을 진술한다.

9. 변화의 측정에서 gain scores 사용의 문제점을 기술하고, 이들 문제 해결을 위한 두 가지 통계 기법을 진술한다.

I. Quasi-Experimental Designs

실험집단과 통제집단에 대한 피험자의 무선배치는 실험의 내적타당도를 높여준다. 그러나 무선배치는 특히 현장연구에서 불가능할 때가 종종 있다. Campbell과 Stanley는 준실험설계로서 무선배치가 결여된 실험에 대해 언급한다. 준실험설계는 신중히 설계하면 유용한 지식을 얻을 수 있으나, 무선배치가 되지 않았을 때 특별한 문제점들이 생길 수 있다는 것을 알아야 한다.(표 13.1)

1. Static-Group Comparison Design

이 설계의 특징은 첫째, 피험자가 두 처치집단에 무선적으로 배치되지 않는다. 둘째, 사후검사(사전검사는 없음)는 두 집단 모두 실시한다. static-group comparison design에서 내적타당도를 저해하는 주 요인은 집단간 사후검사의 차이가 실험처치 뿐 아니라 집단의 특성 때문일 수도 있다는 것이다. 예를 들어 대학교에서 실험처치와 사후검사를 받은 학부생들과 같은 대학교 다른 과 학부생에게 사후검사만 실시하여 사후검사에서 그 차이가 발견되었을 때, 이는 실험처치의 효과라기보다는 두 과 학부생 간에 이미 차이가 있었기 때문이라고(pre-existing differences) 주장할 수 있다.

이 기법을 이용하려면 피험자에 대한 사전검사 실시의 가능성을 고려해야 한다. 이 추가 요인으로써 실험은 이질 통제집단 설계가 되고, 사후검사에서 실험처치의 관련 효과를 보다 강력하게 추론할 수 있게 해준다.

통계분석: static-group comparison design에 의해 산출된 데이터는 실험집단과 통제집단의 사후검사 평균점수 간 차이의 t검증으로 분석할 수 있다. 만일 점수가 정상분포에서 크게 벗어나면 대신에 비모수 검증nonparametric test(대부분 Mann-Whitney U검증)을 해야 한다.

2. Nonequivalent Control-Group Design

교육연구에서 가장 널리 이용되는 준실험설계는 이질 통제집단 설계이다. 이 설계는 피험자들이 실험집단 및 통제집단에 무선배치되지 않고, 두 집단 모두 사전검사와 사후검사를 받는다는 점이 큰 특징이다. 무선배치를 제외하면 이 설계의 단계는 12장에서 기술한 통제집단 사전사후검사 실험설계와 동일하다.

이질 통제집단 설계는 두 집단 이상에도 적용 가능하고, 모든 집단이 하나의 처치를 받을 수 있으며, 무처치 통제조건의 한 집단에도 이용할 수 있다.

통계분석: 이 설계의 내적타당도 저해 주 요인은 사후검사에서의 집단의 차이가 처치 효과보다는 사전에 존재하는 집단 간 차이 때문일 가능성이다. 이 문제를 처리하는 데는 공변량분석(Analysis of Covariance)이 자주 이용된다. ANCOVA는 두 집단의 사후검사 평균을 補整(compensating adjustments)함으로써 사전에 존재했던 집단 간 차이의 효과를 통계적으로 줄일 수 있다.

II. Factorial Designs

단일처치 변인실험(single-treatment-variable experiment)은 처치 변인을 제외하고는 모든 실험상황의 요소를 일정하게 유지하는 것을 목표로 한다. 그러나 대부분의 교육상황에서는 현실적으로 실험처치가 다른 요인들과 별개로 고려될 수 없다. 예를 들어 관리자를 위한 직업개발 프로그램의 효과성이 모든 사람들에게 효과적일 수는 없으나, 요인실험은 이러한 가능성의 검토를 가능하게 해 준다.

요인실험은 연구자가 종속변인에 대한 둘 이상의 독립처치 변인(요인)- 단독 또는 서로의 상호작용- 의 효과를 결정하는 실험이다. 종속변인에 대한 각각의 독립변인 효과를 주효과(main effect)라 하며, 종속변인에 대한 둘 이상의 독립변인 효과의 상호작용을 상호작용 효과(interaction effect)라 한다.

1. Two-Factor Experiments

요인실험의 가장 간단한 유형은 2×2 설계이다. '2×2'란 한 요인(A1과 A2)의 두 변량(variations)과 다른 요인(B1과 B2)의 두 변량이 동시에 다루어진다는 것을 의미한다. 이 요인설계는 A1B1, A1B2, A2B1, A2B2의 4개 처치집단을 형성하며, 피험자는 네 처치집단에 무선배치되어야 한다. 만일 무선배치가 사용되지 않으면 이는 준실험설계가 되며, 다른 처치집단 피험자 사이의 initial differences로 생길 수 있는 효과와 주효과 및 상호작용 효과를 구분하기 어렵게 된다.

Walter Saunders와 Joseph Jesunathdas는 명제적 추론(reasoning)에 사용하는 학생의 능력에 영향을 미치는 요인을 확인하기 위해 요인실험을 하였다. 실험의 첫 번째 요인은 교육과정 내용에 대한 친숙도였다. 연구자들은 학생들이 내용이 친숙하지 못할 때보다도 친숙할 때 명제적 추론을 더 잘 할 수 있는가에 관심이 있었다. 두 번째 요인은 문제해결에 포함된 명제의 난이도 수준이었으며, easy proportions(예, 2:3), moderately difficult proportions(예, 4:15), difficult proportions(예, 4:8.9)의 3수준으로 다루었다. 76명의 9학년 학생이 이 두 요인에 배치되었으며, 난이도에 따라 4문제씩 12 명제추론 문제를 검사하였다.

실험설계가 6개의 요인이 조합되어 있기 때문에 보통 6집단이 필요하다. 그러나 연구자들은 76명 모두에게 각 요인의 효과를 검토했다. 검사문항이 많으면 각 요인의 조합에 12명 정도씩 무선배치할 수 있다.

통계분석: 요인실험 결과를 분석하는 첫 단계는 요인의 각 combination에 나타난 집단의 기술통계를 산정하며, 평균점수는 표 13.2에 나타나 있다. 다음 단계는 평균점수 간에 통계적으로 유의미한 차이가 있는지 결정하기 위해 ANOVA, ANCOVA, 또는 중다회귀분석을 한다. Saunders와 Jesunathdas는 ANOVA를 실시하였으며, 결과는 표 13.3에 있다. 표 13.3은 내용 친숙도의 주효과에서 통계적으로 의의 있었으며(F(10.03)), 이는 학생들이 친숙하지 못한 내용의 검사문항(M=2.20)보다 친숙한 내용의 검사문항이 통계적으로 더 낫다는 것을 의미한다. 또한 명제의 난이도의 주효과도 통계적으로 의의 있었다(F(37.38)). 이 요인은 3수준(쉬움, 보통, 어려움)으로 나뉘어졌기 때문에 연구자들은 표 13.2의 각 평균점수(2.37, 1.31, 1.21)가 어디에서 의의 있는 차이가 있는지 결정하기 위해 사후검증(post hoc tests)이 필요했다. 이 분석에서 학생들이 중간 또는 어려운 문항에서보다 쉬운 문항에서 통계적으로 더 잘 했다는 것이 밝혀졌다. 그리고 두 요인(내용 친숙도와 명제의 난이도) 간의 상호작용 또한 통계적으로 의의 있었다(F(18.58)). 상호작용은 그림 13.1에 나타나 있다. 학생들의 각 요인 평균점수는 쉬운 명제일 때만 친숙한 내용의 검사문항에서 더 높다는 것을 가리킨다.

요인실험의 상호작용 효과 연구는 위에서 살펴보았듯이 조사하고 있는 현상에 대한 이해를 증진시킬 수 있다. 학생의 수행을 친숙한 내용과 친숙하지 못한 내용의 검사문항만 비교한다면 난이도를 무시하고 학생들은 친숙한 내용의 문항점수가 더 낫다는 결론을 내릴 것이다.

2. Three-Factor Experiments

3요인 이상의 실험은 모든 처치변인을 개발하기가 어렵고 보통 대표집(large sample)이 필요하기 때문에 흔하지 않다. 전술한 Saunders와 Jesunathdas의 명제추론 실험은 3요인 실험이며, 세 번째 요인이 학생의 성별이었다. 검사문항의 학생수행을 남학생(N=34)과 여학생(N=42)으로 분리하여 분석하였다. 학생의 성별 평균점수는 표 13.4에 나타나 있다.

실제 실험은 3수준의 문항난이도(쉬움, 보통, 어려움), 2수준의 내용친숙도 검사(친숙함, 친숙하지 못함), 성별(남, 여)의 3×2×2 요인설계이다. 변량분석 결과는 13.3에 있는데, 4개 이상의 F값이 산출되었다. F값 10.33이 성별의 주효과이며 통계적으로 의의 있었다. 이것은 남학생의 모든 문항을 합한 평균점수(6.14)가 여학생의 평균점수(3.60)와 의의 있는 차이가 있다는 것을 보여 준다.

나머지 세 개의 상호작용 효과의 F값은 아래와 같다.

(1) 성별과 내용친숙도 F=1.31(P=.27)

(2) 성별과 명제의 난이도 F=.01(P=.93)

(3) 성별과 친숙도와 난이도 F=2.81(P=.06)

처음의 두 F값은 통계적으로 의의가 없어서 내용친숙도와 명제의 난이도의 의의 있는 주효과가 학생의 성별에 영향을 받지 않는다는 것을 가리킨다. 그러나 3원 상호작용(three-way interaction)은 통계적으로 의의 있는 수준에 거의 접근하였다(P=.06). 3원 상호작용은 표 13.2와 13.4의 결과를 비교함으로써 찾아낼 수 있다. 표 13.2의 쉬운 문항에서 친숙한 내용의 점수가 더 높았으며, 표 13.4를 보면 남녀 모두 이것이 사실임을 알 수 있다. 다음으로 표 13.2에서 중간 난이도 문항은 친숙하지 못한 내용의 점수가 약간 더 높았는데, 표 13.4를 보면 이런 양상은 남학생에서 발견되지만 여학생에게는 그렇지 않다는 것을 알 수 있다. 다시 말해서 중간 수준의 난이도(요인 2)에서 친숙도에 따른 문항 수행의 차이는 학생의 성별(요인 3)에 의해 영향을 받는다.

비슷한 3원 상호작용이 어려운 검사 문항에서도 나타난다. 표 13.2에서 보는 바와 같이 어려운 문항에서 친숙한 내용의 점수가 약간 높았다. 표 13.4를 보면 이것이 남학생에게는 적용되지만 여학생은 그렇지 않다는 것을 알 수 있다. 즉 어려운 명제가 있는 문항에서 여학생은 친숙한 내용의 문항(M=.33)보다 친숙하지 못한 문항(M=.40)에서 다소 더 낫다는 것을 나타낸다.

3원 상호작용은 미미해서 해석하기 어렵기 때문에 통계적으로 의의가 있어도 연구자들은 종종 무시해버린다. 대부분의 ANOVA, ANCOVA 프로그램은 3원 상호작용의 F값을 보고하므로 통계 결과를 이해해야 한다. 대개 해석의 초점은 주효과와 2원 상호작용의 F값에 나타난다.

3. Types of Treatment Variables

Campbell과 Stanley는 독립변인의 유형에 관한 유용한 분류법을 개발했다.

(1) 교수방법 등 실험자의 의지로 선정할만하여 다루어지는 변인

(2) 학과에서 학습된 것과 같이 실험자가 개인에 대해 어떤 무선적인 방법으로 배치해야 할 잠재적으로 다룰만한 측면들, 그러나 드물다.

(3) 학교 출석이나 부모의 사회경제적 수준 등과 같이 실험자의 직접통제하에 있지 않고 실험에서의 분류(stratification)를 위해 명시적 근거로서 기여하는 비교적 고정된 환경측면

(4) 나이, 신장, 체중, 성별 등 개인의 유기체적 특성

(5) 다양한 검사점수 등의 개인의 반응 특성

Campbell과 Stanley는 실험자의 가장 큰 관심사는 class 1의 변인을 다룬다는 것을 알게 되었다. 3, 4, 5의 변인들은 다루어지는 변인의 효과를 일반화할 수 있는지 결정하기 위하여 피험자 집단연구에 사용된다.

4. Aptitude-Treatment Interaction Research

학습자들은 학습스타일, 적성, 능력의 정도에 많은 차이가 있다. 따라서 하나의 교수방법이나 프로그램만으로 모든 학생들에게 적합하지는 않다. ATI연구라고도 불리는 적성-처치 상호작용 연구는 상이한 교수방법 효과가 학습자의 인지나 개인 특성에 의해 영향을 받는지를 결정하기 위해 설계되는 연구이다. ATI연구는 하나의 교수방법이 다른 것보다 더 낫다고 하거나 어떤 특성을 지닌 학생이 다른 학생보다 더 나은 학습자라는 것을 가정하지 않는다. 대신에 이들 두 요인(교수방법과 학습자 특성)은 학습성과에 영향을 미치는 방법과 상호작용을 할 것이라는 가정에 근거하며, 이 연구의 상호작용은 요인 실험설계에 의해 밝혀진다.

ATI실험은 보통 두 개의 독립변인이 있다. 첫 번째 독립변인은 교수방법, 교육과정 자료의 유형, 학습환경 또는 유사한 교수변인일 것이다. 나머지 독립변인은 적성, 성격차원(personality dimension), 교과 성취수준 또는 학습양식 등 학생특성이다. 처음에는 ATI연구 초점이 적성이었으나 나중에는 학습자 특성의 포괄적인 영역(학습자 특성만이 아닌)이 교수방법과 상호작용할 수 있다는 것을 가리켰다.(class 4와 5)

ATI연구의 한 예는 Kim Chan과 Peter Cole에 의한 완전학습 실험이다. Chan과 Cole에 의해 검증된 구체적인 가설은 완전학습이 높은 적성의 학생들보다 낮은 적성의 학생들에게 보다 이득이 될 거라는 것이었다. 이는 전형적인 ATI 가설인데, 예상대로 Chan과 Cole은 낮은 인지능력의 학생들이 다른 교수조건보다는 고도로 규정된 준거수준이 있는 완전학습으로부터 보다 잘 학습한다는 것을 발견했다. 이 연구결과는 완전학습의 단일한 실험 비교나 학생 능력요인이 무시된 다른 교수조건에서 얻어진 결과에서보다 더 많은 정보를 얻을 수 있다.

5. Solomon Four-Group Design

솔로몬 4집단 설계는 요인설계의 특별한 경우로, 다음과 같은 세 가지 목적을 이루기 위해 사용된다. 첫째, 통제처치와 비교하여 실험처치의 효과 평가, 둘째, pretest sensitization의 존재 결정, 셋째, 사전검사와 처치조건 간의 상호작용 평가이다.

솔로몬 4집단 설계는 Rosaland Edwards의 실험에 사용되었다. 실험의 주목적은 초등학교 어린이의 운동기능 개발에 있어서 수행기준의 효과를 결정하는 것이었다. 가설은 '어려우면서 구체적인 기준이나 목표를 가진 개인이 그러나 성취할 수 있는 것은, 기준이 없거나 쉽고 구체적이지 못한 목표를 가진 개인보다 더 높은 수행수준을 가질 것이다'였다. 실험은 4학년과 5학년 전체 8개 반이 솔로몬 설계의 4집단(집단에 2학급씩)에 배치되었다. 모든 집단의 학생들에게 하키 flip shot의 운동기능을 가르쳤다. 교사는 두 실험처치 집단(집단 1, 3)의 학생들에게 성취하기 위한 수행수준을 주었다. 이 기준은 회기(session)마다의 성공적인 shot이 학생들의 전날 average보다 둘 더 많았다. 두 통제집단(집단 2, 4)은 유사한 연습회기에 참여했으나 명시적인 수행기준은 없었다.

Edwards는 사전검사가 처치로서의 기능을 하는지에 관심이 있었다. 그래서 두 실험집단에서 집단 1은 사전검사를 받게 하고, 집단 3은 사전검사를 하지 않았다. 두 통제집단에서는 집단 2는 사전검사를 받게 하고, 집단 4는 사전검사를 하지 않았다. 두 종속변인이 측정되었다. 첫째, 실험의 교수국면에서의 연습회기 동안 학생들의 행동이 평가되었다. 둘째, flip-shot 기능은 사전검사의 형태, 채점이 동일한 사후검사에 의해 측정되었다.

통계분석: 솔로몬 4집단 실험은 2×2 요인설계로 살펴볼 수 있다. 2요인은 사전검사(유무)와 처치(수행기준 제시 유무)이다. 연구자는 먼저 두 종속변인(연습시도와 사후검사 점수)에 다변량분석(MANOVA)을 한 다음 각 종속변인을 분리하여 ANOVA 또는 동변량분석(univariate ANOVA)을 하였다. 두 ANOVA의 결과는 표 13.5에 있다. 학생 사후검사 점수에서 통계적으로 의의 있는 효과의 유일한 요인은 처치변인(기준제시 유무)이었다. 수행기준을 받은 학생(M=15.58)은 받지 않은 학생(M=12.58)보다 통계적으로 의의 있는 높은 평균점수를 얻었다.

두 조건은 학생들이 연습회기 동안의 하는 시도 shots의 수에 통계적으로 의의 있는 효과가 있었다. 첫째, 학생들은 수행기준을 받지 않은 학생(M=54)보다 받은 학생(M=70)이 유의미하게 더 많이 시도하였다. 둘째, 사전검사와 처치변인간에 의미 있는 상호작용이 발견되었다. 이 상호작용은 그림 13.2에 나타나 있으며, 사전검사는 통제집단에 가장 적절한 효과가 있다는 것을 알 수 있다.(사전검사를 받은 학생의 시도가 평균 10회 정도 더 많음)

그러나 사전검사는 처치집단에 극적인 효과가 있었다. 사전검사를 받은 학생이 받지 않은 학

생보다 30회 정도 시도횟수가 적었다. 솔로몬 4집단 설계는 강력한 실험설계이나 보다 많은 표본과 연구자의 노력이 필요하다. 분명히 사전검사 경험은 효과적이었다. 왜냐하면 사전검사를 받은 처치집단이 시도의 빈도가 다른 처치집단(사전검사를 받지 않은)보다는 사전검사를 받은 통제집단과 유사했기 때문이다.

6. Variations in Factorial Experiments

요인실험 설계의 선택은 다음과 같은 다양한 조건들에 따른다.

(1) 독립변인 수 (2) 독립변인의 성질(nature)

(3) 피험자가 동일한 변인으로 반복측정을 받아들이는가

(4) 각 처치집단의 피험자 수가 동일하지 않은가

(5) 종속변인 점수의 척도 및 분포 속성

(6) 처치집단 최초의 차이(initial differences)를 보정하기 위한 공변인의 필요

피험자를 여러 개의 처치에 배치하면 적은 표본으로 실험할 수 있다는 장점이 있다. 따라서 참여자의 모집(recruitment)이 쉬워지고 실험비용도 적어진다. 또 각 피험자가 처치에 교차하여 배합되기 때문에 데이터의 통계분석이 보다 민감하다는 잇점이 있다. 만약 개개인이 하나 이상의 처치에 참여하게 되면 처치효과가 다른 처치와 관련된 실시 순서에 오염(confounded)될 수 있다. 순서효과(order effect)란 처치의 배치가 종속변인으로 되는 영향을 말한다. 예를 들어 순서효과는 피험자가 여러 처치에 참여하여서 피로하게 되어 생길 수 있다. 어떤 처치의 효과가 적기 때문이 아니라 마지막에 실시되는 처치이기 때문에 피로해서 사후검사 점수가 낮을 수 있다는 것이다. counterbalanced designs는 순서효과 때문에 생기는 문제를 피하기 위하여 사용된다. counterbalanced experiment는 각 피험자가 여러 처치에 다양하게 교차되어 실시된다.

III. Single-Case Designs

단일사례설계는 단일 피험자 실험 또는 시계열 실험(time-series experiment)이라고도 하는데, 전적으로(intense) 한 개인을 연구하거나 단일집단으로 이루어지는 하나 이상의 개인을 대상으로 한다. 단일사례실험은 행동수정 연구에 적합하며, 사례연구 방법과는 차이가 있다. 둘 다 하나의 사례에 초점을 모으지만 설계와 목적이 크게 다르다. 단일사례설계는 양적 연구법의 개념으로 실험통제를 위해 여러 절차를 사용한다. 반면에 광범위한 처치(대규모 프로그램 등)로 탐색하는 사례연구는 현장의 배경 안에서 수행되고, 질적 데이터에 많이 의존한다.

일부 연구자들은 단일사례실험이 수월하여(watered-down) 집단설계 중 쉬운 버전(version)이라고 여기지만 그렇지 않다. 단일사례설계 연구자들은 집단실험을 하는 연구자로서 내적타당도와 외적타당도 문제를 염려한다.

Hans van der Mars의 연구의 예를 들면, 그의 실험 목적은 바람직한 학생 행위의 보상에 따른 교사의 언어적 칭찬 사용의 증진을 위한 독특한 방법을 검증하는 것이었다. 실험의 피험자는 물리교육학 교사들이었으며, 허리벨트에 카세트 녹음기를 달고 미니 이어폰을 꽂아 audiocueing을 받았다. 그리고 수업을 녹음하여 바람직한 학생 행위에 대한 교사의 언어적 칭찬 비율을 분석하고, 그 비율을 빈도로 나누어 계산하였다. 실험의 첫째 국면은 교사가 언어적 칭찬 훈련이나 audiocueing 장치의 사용 없이 5개의 단원을 가르쳤다. 그 결과는 그림 13.3의 가장 왼쪽 부분에 나타나 있다. 다음의 8개 단원에서는 audiocues가 평균 2분마다 제시되었으며, 그림 13.3은 이 처치를 하는 동안에 실질적으로 증가한 교사의 언어적 칭찬 비율을 보여주고 있다. 다음의 baseline period에서 교사에게 4개 단원에 audiocues를 주지 않았더니 소멸현상이 나타나, 그림 13.3에서 보는 바와 같이 교사의 언어적 칭찬 비율이 줄어들었다. 실험의 마지막 국면에서 6개의 단원에 다시 audiocues를 주었더니 첫 번째 처치에서와 같이 교사의 언어적 칭찬 비율이 증가하였다. 단일사례실험이 전형적으로 그림 13.3에 그래프 형태로 산출되어 있다.

1. General Design Considerations

단일사례실험은 고도의 내적타당도를 가지도록 설계해야 한다. 내적타당도는 실험처치와 통제조건에 피험자를 주로 무선배치함으로써 , 그리고 아래에 설명하는 설계기법에 의해 확보될 수 있다.

(1) Reliable Observation

단일사례설계는 많은 행동 관찰을 필요로 하는데, 관찰이 신뢰롭지 못하면 처치효과가 애매할 것이다. 그래서 관찰을 할 때는 용의주도한 관찰훈련, 관찰된 행동의 조작적 정의, 관찰자 신뢰도의 주기적 점검, 관찰자 편견의 통제 등의 절차가 따라야 한다. 가장 간단한 절차는 실험 전과정에서 반복되는 관찰을 위해 하나의 행동을 대상으로 하는 것이다. 예를 들어서 교사의 언어적 칭찬 비율은 audiocueing에 관한 실험에서 관찰되는 유일한 행동이다.

(2) Repeated Measurement

단일사례설계는 많은 측정을 필요로 한다. 왜냐하면 개인의 행동은 짧은 시간에도 커다란 변화가 있을 수 있기 때문이다. 여러 번 측정하면 명확하고 신뢰로운 설명을 할 수 있으며, 통계적 의의도 높게 된다. 단일사례설계에서는 반복측정이 필요하기 때문에 측정 절차의 표준화가 중요하며 동일한 관찰자, 교수, 환경조건이 아니면 처치효과는 측정효과에 오염되기 쉽다.

(3) Description of Experimental Conditions

연구자는 실험을 반복(replicate)하고자 할 때 중요한 각각의 실험조건을 분명히 기술해야 한다. 실험조건이 분명하게 구체화되지 않으면 replicate가 어렵게 되고 결국 실험의 내적타당도와 외적타당도가 저해된다.

(4) Baseline and Treatment Stability

대상의 행동이 관찰 기간에 다양하지 않다면 처치변인의 효과를 측정하기 쉬울 것이다. 그러나 행동들은 다양하며, 변량이 너무 많으면 피험자의 행동에 자연히 생기는 변화와 처치효과를 분리하기 어렵다. 자연적인 변동의 효과를 계산하기 위해 baseline이 변량의 5% 범위에서 안정될 때를 결정하기 위한 기준을 정할 수 있다. 그러나 이 기준의 유형이 부적절한 경우도 있다. 예를 들어서 행동이 체계적으로 악화되고 있거나 개선되고 있는 사람에 대한 실험사용 계획을 가정해 보자. 만일 행동이 baseline 주기 동안에 체계적으로 개선되고 있다면, 처치하는 동안 계속 개선되어 이 개선이 처치효과보다는 baseline 주기 동안에 있었던 조건 때문이라고 주장할 수 있다. 이런 상황에서는 baseline 개선이 정점이 되어 안정될 때까지 처치변인의 억제를 고려해야 한다.

(5) Length Baseline and Treatment Phases

일반적으로 단일사례설계의 각 국면에서 시간의 길이와 측정 수는 거의 같아야 한다. 그렇지 않으면 그 불균형이 통계분석과 처치효과의 해석을 복잡하게 한다. 그러나 어떤 경우에는 측정에서 안정된 양상이 나타날 때까지 baseline이나 처치조건을 지속할 필요가 있는데, 이 문제를 극복하는 한 방법은 baseline과 처치조건을 탐색하기 위해 여러 차례 pilot studies를 하는 것이다.

2. A-B-A Designs

A-B-A 설계는 하나의 처치를 하는 단일사례나 단일집단 실험에 사용된다. A는 baseline조건, B는 처치를 나타낸다.

(1) A-B Design

A-B설계는 단일사례 설계 중에서 가장 간단하다. 연구자는 피험자를 선발하여 대상 행동을 측정하고 실험처치를 하며, 대상 행동은 baseline 주기(A) 동안에 반복측정된다. 마지막으로 실험처치(B)는 연구자가 계속 대상행동을 측정하는 동안에 실시된다. A-B설계는 내적타당도가 낮기 때문에 적당한 대안이 없어서 유용할 때만 사용하거나 연구자가 보다 엄격한 설계를 하기 위해 pilot study를 의도할 때만 사용해야 한다.

(2) A-B-A and A-B-A-B Designs

A-B-A설계는 2차 baseline 조건이 추가되는 것 외에는 A-B설계와 단계가 동일하다. 2차 baseline은 전형적으로 처치의 철회(withdrawal)를 포함하며, 처치의 반전(reversal)을 가져올 수 있다. 예를 들어 audiocueing 실험에서 연구자는 학생의 선행에 대하여 교사에게 audiocues를 주도록 하지만 언어적 칭찬은 주지 않도록 할 수 있다.

A-B-A 설계는 고도의 내적타당도가 있다. 대상행동이 각각 실험국면에서 예상대로 변화하면, 그 변화를 처치변인의 효과 때문이라고 결론지을 수 있다. 그러나 이 설계의 한 가지 어려움은 실험이 부정적인 해석(note)으로 끝난다는 점이다. 왜냐하면 처치(원래 긍정적이라고 가정한)가 철회되거나 반전되기 때문이다. 이 조건은 윤리적으로 연구자와 실험에 관련된 다른 사람들에게 수용되지 않을지도 모른다.

A-B-A-B 설계는 A-B-A 실험에서 생길 수 있는 negative note의 윤리적 쟁점을 극복한다. 위에서 설명한 audiocueing 실험은 이 설계를 예증(exemplifies)해 주는데, 각각의 국면은 처음의 baseline 관찰주기, 처음의 처치변인 소개, 처치변인의 철회나 반전(2차 baseline), 처치변인의 재 소개(re-introduction)이다. 이 설계의 한계와 모든 baseline설계는 관찰된 처치효과가 설계에 포함된 독특한 baseline 조건에 달려 있다는 것이다. 따라서 baseline 조건은 명확히 기술되어야 한다. 이 제한점은 사전검사가 있는 집단설계에서의 사전검사 민감성 문제(pretest sensitization problem)와 유사하다.

3. Multiple-Baseline Designs

시계열설계(A-B-A)는 일반적으로 평가하고 있는 처치효과를 위한 통제조건으로서 대상행동의 자연적 발생을 사용한다. 반면에 multiple-baseline designs는 자연적으로 일어나는 대상행동과는 다른 조건에서의 실험이며, 이 조건은 집단실험의 내적타당도를 증진시키기 위하여 통제집단에 사용한다.

이 설계는 A-B-A 유형의 설계에서 baseline 조건의 회복이 불가능할 때 사용되며, 이 문제는 연구자가 윤리적 이유로 철회나 반전을 할 수 없을 때 발생할 수 있다. 일반적으로 사용되는 multiple-baseline designs 중 하나는 둘 이상의 개인이 측정하고 있는 처치효과에서 외적변인(extraneous variables 무관한 변인)을 통제하기 위해 사용된다.

이 실험이 George Stern, Susan Fowler와 Frank Kohler에 의해 행해졌는데, 그들 실험의 목적은 부적절한 행동을 하는 학생들을 돕기 위한 또래 매개 중재(peer-mediated intervention) 사용의 효과를 알아보는 것이었다. 연구자들이 특히 관심을 가진 문제는 monitor/point-giver의 역할이나 point-receiver의 역할이 많은 행동변화를 가져올 것인가였다. 5학년, 6학년으로 짝을 이룬 Robert와 Karen 두 학생(최하위 수학집단)이 피험자로 선정되고 다른 세 명(하위집단)의 또래가 그들의 파트너였다. 파트너 A와 B는 Karen과, 파트너 C는 Robert와 공부했다. 그림 13.4에서 세로축의 종속변인은 off-task behavior와 disruptive behavior를 포함한 부적절 행동의 총합이다. baseline 조건에서는 intervention이 없으며 실험의 intervention 국면을 6일째 Karen에게 시작했다.

그림 13.4는 Karen의 부적절 행동 백분율이 monitor와 point-giver의 역할 투입 이후 실질적으로 떨어졌음을 나타낸다. 첫 baseline에서 Robert는 session11까지 연장된 반면에 Karen이 session5에서 종결된 점을 주목하라. Robert에게 여섯 session이 추가된 것은 Karen에게 관찰된 처치효과에 오염(confound)될 수 있는 외적변인을 통제하기 위해서이다. 따라서 여섯 session 동안에 Karen의 부적절 행동 백분율이 낮아진 것은 처치효과 때문이라고 확신할 수 있다. 26수업회기 이후 Karen에게 다시 baseline 조건이 설정되었는데, 그녀의 부적절 행동이 이 두 번째 회기동안 낮은 비율로 남아있다는 것은 처치가 훌륭한 지속효과를 가져 왔다는 것을 가리킨다.

우리는 A-B-A 설계가 이 실험에서는 좋지 않은 선택임을 알 수 있다. 왜냐하면 처치가 분명히 지속효과를 가져 왔으며, A-B-A 설계로는 부적절 행동의 원래의 baseline 비율로 재설정(reinstitute)할 수 없기 때문이다. Robert의 두 번째 baseline은 Karen의 경우보다 지속효과가 낮다. 처치의 재설정에 따르면서 Robert의 부적절 행동 백분율은 다시 떨어졌다. 처치의 효과성이 monitor/point-giver 또는 point-earner의 역할 때문인 것 같지는 않다.

연구자들은 통계적인 의의를 검증하지 않고 그림 13.4에 나타난 기술적 그래프(descriptive graph)로 시각분석(visual analysis)에 의존하였다. 지금까지 설명한 실험은 단일사례실험에서 나타나는 상이한 상황에 유용하다.

4. Statistical Analysis of Single-Case Data

많은 연구자들은 단일사례실험의 결과를 해석하기 위해 배타적으로 원자료(raw data)와 약간의 기술통계에 의존하였다. 그림 13.3과 13.4는 단일사례 데이터의 전형적인 그래픽 데이터 plots이다. 세로좌표에는 시간단위, 가로좌표는 대상 행동의 단위를 나타낸다. 그래픽 데이터 plot을 사용하면 대상 행동의 평균 수준과 기울기의 방향을 분석할 수 있다. 일부 연구자들은 또한 비중복 데이터(nonoverlapping data)의 백분율을 계산하여 처치효과의 크기를 결정할 것을 권장한다. 예를 들어 그림 13.4에서 Robert에 대한 두 번째 처치국면의 11개 데이터 points를 빼고는 모두 앞의 baseline에서 가장 낮은 지점보다 더 낮다. 따라서 비중복 데이터의 백분율은 91%이다.

단일사례실험에서 처치효과 해석에 그래프의 시각분석 사용은 비판을 받아왔다. 하나의 비판은 그래프의 서열척도(ordinal scale)가 처치효과를 두드러지게 하거나 감추기 위하여 수정될 수 있다는 것이다. 예를 들어서 동일한 데이터가 그림 13.5의 plot a와 plot b에 그려져 있다. 그러나 두 그래프는 처치효과의 크기가 판이하게 다른 인상을 준다. 또 다른 비판은 시각분석의 사용에서 경험적 연구는 처치효과가 있는지, 얼마나인지 정하는데 있어서 낮은 내적 평가자 신뢰도(inter-rater reliability)를 나타낸다는 것이다.

visual analysis의 대안이 추리통계(inferential statistics)의 사용이다. 예를 들어 audiocueing 실험에서 연구자는 두 baseline 국면의 평균과 두 처치국면의 평균을 비교하기 위해 t 검증을 사용했다. 하나의 비판은 추리통계는 단일사례실험의 논리에 적절하지 못하며, 그것은 모집단의 표본이 아니라 철저한 개인의 연구라는 점이다. 또 다른 비판은 추리통계는 관찰들이 다른 것과는 독립적이라는 가정을 하고 있다는 것이다. 이 가정은 단일사례실험에서는 좀처럼 충족될 수 없다. 주어진 회기 내에서 관찰된 행동은 앞의 회기에 일어났던 행동에 종속된다. 이런 현상을 기술적 용어로 '계열 종속성'serial dependency라 한다. 시계열 통계는 단일사례 실험에 처치효과의 존재를 합한 데이터 내에서 계열 종속성의 범위를 결정하는데 사용될 수 있다.

요약하면 연구자들은 단일사례실험에서 얻은 데이터를 해석하는데 시각분석과 추리통계 둘다 잘못 사용할 수 있으므로 이들 기법을 사용하는데 있어서 바른 판단을 하는 연습이 필요하다. 바른 판단은 기법의 기술적 이해와 관련이론의 철저한 이해, 선행연구 결과, 실험의 주변환경에 대한 이해를 필요로 한다.

5. External Validity of Single-Case Designs

단일사례설계에 지적되는 주요 비판 중 하나는 외적타당도가 낮고, 연구결과가 실험에 참여하는 한 개인의 범위를 넘어서서 일반화될 수 없다는 것이다. 또 전통적 집단설계에 호의적이라는 비판이 있을법하다. 왜냐하면 연구결과를 모집단에 대한 표본으로부터 일반화할 수 있다고 믿기 때문이다. 단일사례실험과 집단실험 둘 다 제한된 외적타당도에 관하여 비슷한 근거로 비판받을 수 있다.

IV. Other Experimental Designs

이용 가능한 실험설계 중 하나를 선택할 때는 역사, 성숙 등의 변인들의 영향에 의해 오염되지 않고 실험처치에 가장 분명한 효과를 줄 수 있는 설계를 선택해야 한다. 또 하나의 중요한 목표는 관심을 가진 다른 상황에 일반화할 수 있는 결과를 산출할 수 있는 설계를 선택하는 것이다.

V. Measurement of Change

모든 실험은 하나 이상의 종속변인에 대한 하나 이상의 독립변인의 효과를 결정하기 위하여 시도한다. 독립변인이 효과가 있다면 그 효과는 사전검사와 사후검사에서 측정한 학생의 점수 사이의 변화로 반영되어야 한다. 사후검사 점수에서 사전검사 점수를 뺀 것을 얻은 점수gain score(변화점수 또는 차이점수)라고 한다. 그러나 시험처치의 효과를 결정하기 위하여 gain scores를 사용하는 것은 대단히 어렵다.

이러한 어려움들은 Paul Dressel과 Lewis Mayhew가 수행한 대학 신입생의 시작부터 끝까지의 성취gains 연구를 고찰함으로써 예로 들 수 있다. 표 13.6은 다양한 성취검사에 관해 아홉 대학 학생이 얻은 것을 기록한 것이다. 사회과학의 비판적 사고 검사에서 연초에 가장 낮은 점수였던 학생들이 가장 높은 점수였던 학생평균(2.26 얻음)보다 현저하게 많이 얻었다(6.89). 이런 데이터는 어떻게 해석할까? 처음에 성취가 낮은 학생들이 높은 학생들보다 더 많이 배웠다는 것을 의미할까? 다음은 원래의 gain scores가 간섭이나 자연적 성장과정의 결과 생기는 변화의 합계를 측정하기 위해 사용될 때의 해석의 다섯 가지 문제들이다.

둁 Ceiling effect: 천정효과는 평가문항의 난이도 범위가 제한될 때 생긴다. 따라서 가능한 점수들(continuum)에서 높은 쪽의 점수가 인위적으로 제한된다. 예를 들어서 사전검사와 사후검사에 각각 100문항이 있을 때 사전검사에서 90문항을 맞춘 학생은 사후검사에서 겨우 10점만 향상될 수 있다. 대조적으로 사전검사에 40점의 학생은 잠재적으로 60점을 얻을 수 있다. 표 13.6에서 중상집단과 상위집단 학생들은 사전검사에서 ceiling에 가까운 점수였을 것이다. 그래서 그들은 사후검사에서 최소한의 gain score만을 얻었을 것이다.

둁 Regression toward the mean: 통계적 회귀라고도 하는데 사전검사에서 높은 점수를 받은 학생이 사후검사에서 다소 낮은 점수를 얻으려 하고, 사전검사에서 점수가 낮은 학생은 사후검사에서 다소 높은 점수를 얻으려는 경향으로 설명되는 통계적 현상이다. 회귀효과는 사전검사와 사후검사의 측정의 오류 때문에, 그리고 검사가 서로 관련되어 있기 때문에 생긴다.

둁 Assumption of equal intervals: gain scores의 사용은 검사의 모든 points가 동등한 intervals를 가진다고 가정한다. 그러나 이 가정은 교육측정에 거의 타당하지 않다. 예를 들어 100문항의 평가에 90∼95점에서 얻은 점수가 40∼45점에서 얻은 점수와 동등하다고 가정하는 것이다. 사실 처음의 점수가 40점수보다 90점에서 5점 더 얻기가 보다 어려울 것이다.(ceiling effect와 regression effects 때문에)

둁 Different types of ability: 검사점수가 다른 학생 능력의 서로 다른 유형이나 수준을 반영할 수 있다. 예를 들어 수학 성취검사는 덧셈, 뺄셈, 수학적 추리, 대수 등의 다양한 하위검사를 포함할 수 있다. 두 학생이 검사에 같은 점수를 얻었더라도 한 학생은 뺄셈에 약하나 수학적 추리에 강할 수 있고, 반면에 다른 학생은 그 반대일 수 있다. 두 학생이 같은 gain score를 얻었을 때 첫 번째 학생은 뺄셈의 향상을, 두 번째 학생은 수학적 추리의 gain score를 반영한다. gain scores가 의미상 동등하지 않기 때문에 통계적 분석으로 비교하는 것은 문제가 있다.

둁 Low reliability: 사전검사 점수와 사후검사 점수의 상관이 높을수록 변화된 점수의 신뢰도는 낮아진다. 또한 점수변화의 신뢰도는 사전검사와 사후검사 자체의 신뢰롭지 못한 정도에 영향을 받는다.

1. Statistical Analysis of Change

gain scores는 앞에서 설명했듯이 문제가 있으나 변화 측정은 연구자가 상이한 실험처치의 효과의 비교를 위해서는 필수적이다. 먼저 연구자가 개별 학생의 gain scores에 관심 있는 상황을 고찰해 보자. 예를 들어서 표 13.6에서와 같이 왜 일부 대학생들이 사회과학에서의 비판적 사고(CTSS) 측정에서 다른 학생들보다 더 많은 점수를 얻는가에 관해 알아보고자 할 수 있다. gain scores가 학생들의 고등학교 GPA와 상관 있다고 가정해 보자. CTSS 점수가 회귀효과와 천정효과에 오염되기 때문에 보다 나은 절차는 준부분상관(part correlation)을 사용하는 것이다.(11장을 보라)

equivalent 절차는 다중회귀(multiple regression)인데, 학생들의 사후검사 CTSS 점수는 종속변인(dependent variable 기준변인, 반응변인)이고, 사전검사 CTSS 점수와 고등학교 GPA 점수는 예언변인이다. 두 집단에 성취된 사전검사를 실시한다고 가정하자. 피험자가 두 집단에 무선배치된다면 집단들은 사전검사 점수의 평균이 동등해야 한다. 경우에 따라서 사전검사 점수 평균은 피험자가 처치집단에 무선배치 되어도 우연히 의의 있는 차이가 있을 것이다. 사전검사 평균에 처음부터 차이가 있으면 공변량분석(ANCOVA)을 해야 한다. 이 통계 기법은 관찰하여 얻은 것이 처음의 점수 차이보다는 실험처치 효과에 기인한다는 것을 받아들이게 한다.

변화의 통계적 의의도를 결정하기 위한 또 다른 접근법은 반복측정 변량분석(analysis of variance for repeated measures)이다. 이 통계법은 실험집단의 사전 사후검사 차이가 통제집단의 사전 사후검사 차이와 신뢰로운 차이가 있는지 결정하기 위해 사용된다. 요인들(주효과)의 F값은 이 변량분석에 관심사가 아니다. 예를 들어 점수가 실험집단 학생들의 것인지 통제집단의 학생의 것인지 무시하면서 모든 사전검사의 평균과 사후검사의 평균을 비교하는 것은 의의가 없다.

대신 관심 있는 것은 측정과 처치 시기 간의 상호작용이다. 즉 실험집단의 사전 사후검사 평균의 차이가 통제집단의 차이보다 유의하게 덜한지의 차이에 관심 있다. 이런 유형의 통계분석은 Norbert Johnson, Jerome Johnson과 Coy Yates가 행한 연구를 예로 들 수 있다. 그 실험의 목적은 학생의 진로성숙 증진에 특수한 상담 프로그램(직업탐색 집단)의 효과성을 평가하는 것이었다. 표 13.7은 실험집단 및 통제집단의 CMI에서 사전검사, 사후검사(실험 프로그램 종료 후 즉시), 후속검사follow-up test(프로그램 투입 6개월 후)의 평균이 제시되어 있다. 각 척도에서 사전검사, 사후검사의 차이가 통제집단보다 실험집단이 더 크다는 것이 분명하다. 이러한 차이의 통계적 의의는 이원변량분석(처치집단×검사 시기)에 의해 결정된다. 표 13.7의 마지막 두 칼럼은 각 CMI 척도에 사전 사후검사의 차이와 사전검사, 후속검사의 차이를 위한 F값을 나타낸다.

VI. Mistakes Sometimes made in Conducting Experiments

1. 준실험설계를 사용할 때 사전 사후검사의 변화가 처치변인에 기인할 수 있는 역사, 연구 피험자의 차별적인 선택 또는 누락(loss), 회귀 등 오염변인을 고려하지 않는다.

2. 피험자의 특성이 처치변인의 효과성에 영향을 줄 것 같은데 요인설계를 하지 않는다.

3. 사전검사의 실시가 측정된 결과에 영향이 있을 것 같은데도 솔로몬 4집단설계나 사후검사만의 설계를 하지 않는다.

4. 단일사례연구에서 측정절차의 신뢰도를 점검하지 않는다.

5. 단일사례설계에서 안정된 baseline이나 처치효과를 산출하기에 충분한 데이터를 수집하지 않는다.

6. 실험 데이터 분석에서 준부분상관, 중다회귀, 공변량 분석, 반복측정 변량분석이 더 적절한데 단순히 변화 점수로 연구를 시도한다.

댓글