1. 서론
외국어 학습자들이 지각 훈련(perception training)을 통해 외국어 말소리 대조에 대한 지각 체계를 조정했다고 보고한 연구 결과들이 축적되어 있다(e.g., Jamieson & Morosan, 1986; Lee & Lyster, 2016; Logan et al., 1991; Wang et al., 1999). 이러한 연구들에 따르면, 성인 학습자들이 단기간의 지각 훈련 후에 제2언어(second language; L2) 말소리 대조에 대한 식별(identification) 정확도가 대체로 향상되었다. Jamieson & Morosan(1986)은 불어가 모국어인 영어 학습자들에게 영어 /θ/−/ð/ 대조를 식별하는 훈련을 이틀간 총 90분 시행했는데, 평균 식별 정답률이 사전 테스트(pretest) 68%에서 사후 테스트(posttest) 79%로 유의미하게 개선되었다고 보고하였다. Logan et al.(1991)에서는 일본어가 모국어인 영어 학습자들이 영어 /l/−/r/의 지각 훈련에 참가했는데, 식별 정답률이 사전 테스트 평균 78%에서 사후 테스트 86%로 유의미하게 증가했다. Wang et al.(1999)은 지각 훈련이 분절음뿐 아니라 외국어 초분절음의 학습에도 효과적이었다고 보고하였다. 영어가 모국어인 중국어 학습자들이 중국어 성조를 식별하는 지각 훈련(40분씩 8회)에 참가했는데 사전 테스트 69%에서 사후 테스트 90%로 성조 식별 정답률이 향상되었다. 비훈련 집단은 67%에서 70%의 정답률 변화를 나타냈다. 이러한 연구 결과들은 성인 학습자들도 지각 훈련을 통해 외국어 분절음이나 초분절음 대조를 지각하는 능력이 개선될 수 있음을 보여주고 있다.
이러한 연구들에서 학습자들이 L2 말소리 범주를 형성하는 데 도움이 될 것으로 가정한 지각 훈련 방법이 다양하게 도입되었다. 훈련에 사용된 지각 자극과 관련해, 모국어 화자가 발화한 자연 자극(natural stimuli)을 사용한 연구들과 다양한 방식으로 음향 신호를 조작한 자극(manipulated stimuli)을 사용한 연구들이 있다. 위에 기술한 Logan et al.(1991)은 영어 /l/−/r/이 포함된 낱말들을 모국어 화자들이 발화한 자연 자극을 사용해 지각 훈련을 시행했다. 해당 대조가 다양한 음성 환경에 위치한 낱말들을 사용하고 여러 화자들이 조음한 자극으로 훈련해, 음성 환경 및 화자 다양성(variability)이 L2 말소리 대조의 지각 체계를 형성하는 데 도움이 되었다고 보고하였다. Kondaurova & Francis(2010)는 영어 모음 /i/−/ɪ/의 음향 신호 값(포먼트 값과 모음 길이)을 조작한 자극으로 지각 훈련을 시행하였다. 모국어 화자들은 포먼트와 모음 길이 신호를 모두 사용해 두 모음을 구별하지만, 스페인어가 모국어인 영어 학습자들은 포먼트보다 모음 길이에 의존해 두 모음을 구분하였다(Escudero & Boersma, 2004도 참조). 해당 모음 대조의 포먼트 값 차이를 극대화한 조작 자극과 모음 길이 차이를 최소화한 조작 자극으로 지각 훈련을 받은 학습자들이 사전 대비 사후 테스트에서 주요 신호인 포먼트 차이에 보다 민감하게 되고 부차적 신호인 모음 길이 차이에 대한 지각 의존도가 낮아졌다고 보고하였다.
Iverson et al.(2005)은 자연 자극과 조작 자극으로 훈련한 방법 중 어떤 방법이 L2 말소리의 지각 학습에 효율적인지 고찰한 연구이다. 영어의 /l/−/r/을 구별하는 주요 신호가 F3이지만, 일본어가 모국어인 영어 학습자들은 부차적 신호인 F2나 자음 길이 차이를 사용해 해당 말소리 대조를 지각하는 경향을 나타냈다. (1) 모국어 화자가 발화한 자연 자극과 (2) 자연 자극에 기반해 다양한 방법으로 음향 신호를 조작한 자극으로 지각 훈련(하루 30분씩 10회)을 진행했다. 훈련을 통해 부차적 신호를 덜 사용하고 주요 신호를 더 사용하는 방식으로 지각 신호 가중치(cue weight)를 변경했고, 자연 자극을 사용한 훈련과 조작 자극을 사용한 훈련이 모두 효과가 있었으며, 훈련 방법에 따른 차이는 없었다고 보고하였다.
훈련에 사용된 지각 자극의 다양한 형태뿐 아니라, L2 말소리의 지각 범주를 형성하는 데 도움이 되는 피드백 방식에 관한 연구도 있었다. 예를 들어, Lee & Lyster(2016)는 L2 말소리 대조의 지각 학습에 미치는 교정적 피드백(corrective feedback)의 효과를 연구하였다. 교정적 피드백은 학습 과정에서 발생한 학습자의 오류를 알려 주고 교정의 기회를 제공하는 방식이다. 한국어가 모국어인 영어 학습자들이 영어 모음 /i/−/ɪ/를 학습하는 과제를 시행하였다. 지각 훈련(5일 동안 1시간씩 진행)에 도입된 다양한 과제에 대해, 학습자들이 오답을 제시한 경우에 교사가 상승 억양으로 해당 낱말을 다시 발화하거나 대조적 정보를 제공하는 방식으로 부정적 피드백을 제공하였다. 정답을 맞힌 경우에도 교사가 긍정적 피드백을 제공해 학습자가 가지고 있는 음성 지식이 맞는 것임을 확인해 주었다. 교정적 피드백을 받은 집단이 그렇지 않은 집단보다 사전 대비 사후 테스트에서 영어 모음 대조의 지각 정확도가 유의미하게 개선되었다.
본 연구의 목적은 중국어가 모국어인 한국어 학습자들이 한국어 평음(lenis stop)과 기음(aspirated stop) 대조에 초점을 맞춘 지각 훈련을 통해 해당 폐쇄음을 구별하는 음향 신호의 가중치를 모국어 값의 방향으로 개선하는지 고찰하는 것이다. 위에 기술된 Jamieson & Morosan(1986)에서는 영어 /θ/−/ð/ 대조를 구별하는 음향 신호를 조작한 자극으로 지각 훈련을 하고 자연 자극 및 조작 자극으로 테스트를 시행했는데, 본 연구에서는 모국어 화자가 발화한 자연 자극으로 지각 훈련을 시행하고 폐쇄음 음향 신호를 체계적으로 조작한 자극으로 사전 및 사후 테스트를 시행하였다. 자연 자극으로 테스트할 경우 L2 폐쇄음 대조를 구별하는 데 사용한 음향 신호의 가중치를 추정할 수 없으므로, 음향 신호 가중치의 분석을 위해 조작 자극을 사용하는 것이 필요하였다. 지각 훈련에서 제공된 자연 자극들로부터 필요한 음향 정보를 추출해 L2 폐쇄음 신호의 가중치를 모국어 값의 방향으로 조정하게 되는지 고찰하였다. 지각 훈련 중에는 L2 말소리 대조의 지각 정확도를 개선하는 데 도움이 되는 것으로 알려진 교정적 피드백을 제공하였다(e.g., Lee & Lyster, 2016). 또한, 훈련에 사용되는 자극의 음성 환경 다양성이 지각 학습에 도움이 된다는 연구 결과에 따라(e.g., Logan et al., 1991), 해당 폐쇄음의 조음 위치 및 모음 환경을 다양화한 자극으로 지각 훈련을 진행하였다.
한국어 서울 방언의 폐쇄음 체계는 경음(/p’/, /t’/, /k’/), 평음(/p/, /t/, /k/), 기음(/ph/, /th/, /kh/)의 범주로 구성된다. 이들 폐쇄음 범주를 대조하는 주요한 음향 신호는 VOT(voice onset time)와 F0(fundamental frequency)이다. VOT는 폐쇄음의 파열 시점에서 다음 분절음의 성대 진동 시작 시점까지의 시간을 일컫는다. 경음은 VOT가 짧고 F0가 높은 편이며, 평음은 VOT가 길고 F0가 낮으며, 기음은 VOT가 길고 F0가 가장 높은 범주로 구분된다. 한국어 서울 방언의 폐쇄음 체계가 겪고 있는 소리 변화를 통해, 평음과 기음을 구별하는 주요 신호가 F0가 되었고, VOT는 두 폐쇄음의 병합(merge) 과정을 통해 부차적 신호가 되었다(Kang, 2014 및 그에 기재된 문헌들 참조). 개별 화자에 따라 두 폐쇄음 범주의 VOT 값을 (평음이 조금 더 짧은 방식으로) 구별하는 화자들도 있고, 병합 과정이 완성되어 VOT 값을 구별하지 않는 화자들도 있다(e.g., Kim, 2017). 중국어는 유성 폐쇄음(/b/, /d/, /g/)과 무성 폐쇄음(/p/, /t/, /k/) 대조를 구별하는 주요 신호가 VOT로, 유성 폐쇄음이 짧고 무성 폐쇄음이 길다. F0는 중국어 폐쇄음 범주를 구별하는 부차적 신호이다.
이에 따라 본 연구의 주요 질문은 한국어 평음과 기음 대조에 초점을 맞춘 지각 훈련을 통해 중국어가 모국어인 한국어 학습 자들이 L1 폐쇄음 대조에 부차적 신호이지만 L2 폐쇄음 대조에 주요한 신호인 F0의 지각 가중치를 높이게 되는지, L1 폐쇄음 대조에 주요한 신호이지만 L2 폐쇄음 대조에 부차적 신호인 VOT의 지각 가중치를 낮추게 되는지에 관한 것이다. 사전 테스트의 결과에 따라 훈련 집단(training group)과 비훈련 집단(non-training group)으로 나누고 훈련 집단만 5일 동안 지각 훈련을 진행하였다. 개별 학습자들의 테스트 결과에 대해 이분형 로지스틱 회귀 분석(binary logistic regression analysis)을 시행해 학습자별로 음향 신호의 지각 계수(perceptual coefficient) 값을 계산했다. 말소리 대조를 지각하는 데 해당 음향 신호를 사용한 가중치를 추정하는 지각 계수 값을 통해, 사전 대비 사후 테스트에서 학습자들의 L2 폐쇄음 음향 신호 가중치가 모국어 청자 값의 방향으로 변화되었는지 고찰하였다.
2. 실험 방법
중국어가 모국어인 한국어 학습자 20명이 지각 실험에 참가하였다. 한국어가 모국어인 교사 2명이 한국어 폐쇄음 조음 실험에 참가하고 지각 훈련을 진행했다. 학습자들과 교사들 모두 여성이었고, 발성이나 청각에 문제가 있는 경우가 없었다. 학습자들과 교사들에게 소정의 참가비가 지급되었다.
학습자들은 모두 중국 본토에서 태어나 자랐으며, 실험 당시 서울 소재 대학교의 학부생 혹은 대학원생이었다. 전공은 인문학, 사회과학, 경영학, 공학, 디자인 등 다양했다. 학습자들 모두 한국 이외에 해외 국가 거주 경험이 없었고, 한국에서 거주한 지역은 모두 서울이었다. 한국어능력시험(Test of Proficiency in Korean, TOPIK; 교육부 국립국제교육원) 3급이나 4급 취득자들을 대상으로 참가자를 모집하였다(6급이 가장 높은 언어 능력에 해당함).1 본 연구의 목적을 위해, 한국어로 의사소통하는 데 큰 불편함이 없으면서도 L2 폐쇄음 범주를 지각할 때 음향 신호 사용에 대해 개선의 필요성이 있을 것으로 가정된 참가자들을 대상으로 하고자 TOPIK 3급 혹은 4급 취득자로 모집 대상을 제한했다.
표 1에 각 학습자가 설문지에 기입한 나이, 한국 거주 기간(length of residence, LOR), TOPIK 급수, 실험 당시 주요 의사소통 언어(참가자가 기입한 순서대로 기재함)를 기재하였다. 참가자 번호에 ‘T’는 훈련 집단, ‘NT’는 비훈련 집단에 속한 참가자임을 나타낸다(참가자들을 훈련 집단과 비훈련 집단으로 분류한 방법에 대해 2.3절 참조). 훈련 집단으로 분류되었던 학습자 한 명이 지각 훈련 삼 일째부터 개인 사유로 훈련에 참가할 수 없게 되어 해당 학습자의 자료는 폐기되었고, 이에 따라 훈련 집단의 참가자는 모두 9명, 비훈련 집단의 참가자는 10명이 되었다.
학습자들의 평균 나이는 훈련 집단이 24.0세(범위 20–31세), 비훈련 집단이 22.1세(범위 19–25세)였다[집단 간 평균 비교 독립 표본 t-검정 t(17)=1.526, p=0.145]. LOR은 훈련 집단이 평균 3.3년(범위 1–6년), 비훈련 집단이 1.3년(범위 0.5–4.5년)이었다[t(17)=2.881, p<0.05; 2.3절 및 각주 3 참조]. TOPIK 급수는 훈련 집단이 평균 4.2급, 비훈련 집단이 4.0급이었다[t(17)=0.506, p=0.620].
지각 훈련을 진행한 교사 2명(교사 1은 21세; 교사 2는 22세)은 경기 지역에서 태어나 자란 한국어 모국어 화자들이었고, 서울에 위치한 같은 대학교의 사범대학 소속 학부생들이었다. 두 교사 모두 해외 국가 거주 경험이 없었다.
사전 테스트가 시행되고 이틀 후부터 5일간 매일 오전에 40여 분씩 비대면으로 지각 훈련을 진행하였다(사전 테스트 진행 방식에 관해 2.3절 참조). 사전 테스트 직후 학습자들에게 낱말 카드 21장씩을 배부하였다. 낱말 카드 한 면에는 평음, 다른 면에는 기음이 포함된 최소대립 단음절어들(e.g., 카드 한쪽은 “반”, 반대쪽은 “판”)이 기재되어 있었다. 지각 훈련은 최소대립 낱말 간에 식별하는 문항과 교정적 피드백으로 구성되었다(e.g., Lee & Lyster, 2016). 두 반으로 나누어(한 반은 5명, 다른 반은 4명) 진행하였고, 반의 구성원은 매일 다르게 하였다. 두 교사가 매일 20분씩 교차해 두 반의 훈련을 진행했다.
훈련 첫날에는 양순(bilabial) 폐쇄음이 음절 초에 위치한 단음절어 14개(i.e., 빈-핀; 밴-팬; 븐-픈; 번-펀; 반-판; 분-푼; 본-폰), 둘째 날에는 치-치경(denti-alveolar) 폐쇄음이 음절 두음에 위치한 단음절어 14개(i.e., 딘-틴; 댄-탠; 든-튼; 던-턴; 단-탄; 둔-툰; 돈-톤), 셋째 날에는 연구개(velar) 폐쇄음이 음절 두음에 위치한 단음절어 14개(i.e., 긴-킨; 갠-캔; 근-큰; 건-컨; 간-칸; 군-쿤; 곤-콘)로 훈련을 진행했다. 한국어 서울 방언의 모음들을 모두 사용해 다양한 모음 환경에서 조음되는 평음-기음 대조로 훈련하고자 하였다. 음절 끝은 모두 치-치경 비음이었다. 넷째 날과 다섯째 날에는 앞서 3일간 진행한 낱말들을 둘로 나누어 복습하는 방식으로 훈련했다.
교사가 예를 들어 “다음은 ‘반’입니다”를 발화하면 학습자들이 해당 낱말을 제시하는 방식으로 진행했다. 틀린 답을 제시한 학습자들에게 “A씨, B씨, C씨는 ‘판’이 아니고 ‘반’입니다”라고 부정적 피드백을, 맞는 답을 제시한 학습자들에게는 “D씨, E씨는 ‘반’이 맞습니다”라고 긍정적 피드백을 제공했다. 부정적 피드백을 먼저, 긍정적 피드백을 다음에 제공했다. 부정적 피드백을 제공한 후, “다시 한번 ‘반’을 들어보세요”라는 과정을 거쳐 말소리 대조의 음향 신호 차이를 지각할 수 있는 추가적인 기회를 제공하였다. 틀린 답을 제시한 학습자들이 최종적으로 모두 맞는 답을 제시한 것을 확인한 후 다음 낱말로 진행하였다.
사전 및 사후 테스트는 자연 발화를 기반으로 음향 신호 값을 체계적으로 조작한 자극을 사용해 동일한 방식으로 실시하였다. 폐쇄음 신호 사용 패턴에 대한 모국어 청자 값과의 직접적인 비교를 위해 Oh(2020)에서 제작한 자극을 사용하였다. 한국어가 모국어인 여성 화자(녹음 당시 나이 22세; 서울 소재 대학교의 대학생; 서울에서 태어나 성장함)가 조음한 ‘칸’(2017년에 수집된 녹음 자료에서 선정함)을 기반으로 조작한 자극이었다. 기본 토큰으로 사용한 ‘칸’의 기음은 VOT가 76 ms, 후행 모음 길이의 중간 시점에서의 F0가 296 Hz였다. Praat(Boersma & Weenink, 2016)의 PSOLA 기능을 사용해, VOT 값을 10 ms 간격으로 30 ms(1단계), 40 ms(2), 50 ms(3), 60 ms(4), 70 ms(5), 80 ms(6), 90 ms(7)의 일곱 단계, 후행 모음 길이의 중간 시점에서 F0 값을 22 Hz 간격으로 180 Hz(1), 202 Hz(2), 224 Hz(3), 246 Hz(4), 268 Hz(5), 290 Hz(6), 312 Hz(7)의 일곱 단계로 조작했다. 이들 조작 단계의 최솟값(1단계)과 최댓값(7단계)은 녹음 당시 여성 화자들이 발화한 전체 데이터의 음향 값 범위를 반영한 값이다. VOT와 F0 이외에 다른 음향 신호들은 자극에 그대로 남아 있었다.
테스트는 Praat(Boersma & Weenink, 2016)의 MFC 기능을 사용해 ‘간’과 ‘칸’ 중 하나를 선택하는 식별 과제(forced-choice identification task)로 진행하였다. Audio-Technica ATH-M40X 헤드폰을 사용해 조용한 방에서 테스트가 이루어졌다. 조작 자극을 듣고 더 비슷하게 들리는 낱말을 선택하도록 하였다. 낱말 선택 후 ‘다음’을 클릭해 다음 문항으로 넘어가는 방식이었다. 문항은 총 245개(VOT 7단계×F0 7단계×5회 반복)였다. 테스트 직전에 무작위로 선정된 8개의 문항으로 연습 세션을 가졌다. 답을 선택하는 데 시간 제한은 없었으나 선택 후 답을 변경할 수 없었다. 문항 순서는 각 학습자와 사전/사후 테스트에 대해 무작위로 제시되었다. 사후 테스트는 지각 훈련 마지막 날 오후 혹은 다음 날 오전에 시행되었다.
개별 학습자들의 사전 테스트 결과에 대해 이분형 로지스틱 회귀 분석을 시행해 학습자별로 VOT 및 F0의 지각 β 계수를 계산하였다. 지각 β 계수는 청자가 말소리 대조를 지각하는 데 해당 음향 신호를 사용하는 가중치를 계산한 값이다. 지각 계수 값이 클수록 말소리 대조를 지각할 때 해당 음향 신호를 중요하게 사용한다는 의미이다(e.g., Shultz et al., 2012; Schertz et al., 2015).
한국어 평음과 기음을 구분하는 주요 신호인 F0의 지각 β 계수 값을 기준으로 훈련 집단과 비훈련 집단을 분류했다. L2 폐쇄음 대조를 구별하는 지각 훈련을 통해 주요 음향 신호의 사용이 개선되는지 살펴보는 것이 본 연구의 주요한 목적이므로, 사전 테스트에서의 F0 가중치를 기준으로 두 집단을 분류한 것이다. 가장 낮은 지각 계수 값을 나타낸 학습자(20위)부터 가장 높은 값을 나타낸 학습자(1위)까지 교차해 훈련 집단(20위, 17위, 16위, 13위, 12위, 9위, 8위, 5위, 4위, 1위)과 비훈련 집단(19위, 18위, 15위, 14위, 11위, 10위, 7위, 6위, 3위, 2위)으로 나누었다(cf., Jamieson & Morosan, 1986). 2.1절에 기술했듯이, 훈련 집단에 속했던 학습자 한 명(1위)이 훈련 도중 참가가 중단되어 훈련 집단은 최종 9명의 학습자에 대해 자료 분석이 이루어졌다. 사전 테스트 F0 지각 계수의 집단 간 차이가 통계적으로 무의미한 것을 확인하였다[t(17)=−0.456, p=0.654].
학습자들이 훈련을 통해 지각하게 되는 폐쇄음들의 조음 값을 참고하고자 교사들을 대상으로 조음 실험을 시행했다. 지각 훈련에서 사용된 42개의 단음절어(조음 위치 3×모음 환경 7×폐쇄음 2)를 ‘다시 “/CVn/” 보세요’의 문장에 넣어 읽었다. 녹음은 조용한 방에서 TAKSTAR GX6 USB 콘덴서 마이크를 사용해 Praat(Boersma & Weenink, 2016)에 실행했다. 44,100 Hz의 표본추출 비율로 디지털화하였고 WAV 파일로 저장했다. 컴퓨터 모니터에 2초당 한 문장씩 무작위 순으로 제시되었다. 전체 데이터 세트를 3회 읽었고, 그중 2회와 3회 발화의 데이터를 분석했다. 2회나 3회 데이터에 오류가 있는 경우 1회 데이터를 측정하고자 했으나 2회와 3회 발화에 오류가 없었다. 파형과 스펙트로그램을 통해, VOT는 폐쇄음의 파열 직후부터 후행 모음의 주기 파가 시작된 시점까지, F0는 후행 모음 길이의 중간 시점에서 측정하였다. 2회와 3회 데이터의 평균값을 통계 분석의 인풋(input) 자료로 사용하였다.
3. 실험 결과
본 절에서는 한국어가 모국어인 교사 두 명이 조음한 평음과 기음의 음향 신호 값을 보고한다. 교사 1의 VOT는 평음이 평균 89.5 ms, 기음이 96.5 ms로, 두 폐쇄음 간 VOT 차이가 7.0 ms였다. F0는 평음이 215.3 Hz, 기음이 297.0 Hz로, F0 차이가 81.7 Hz였다. 폐쇄음의 조음 위치와 후행 모음 환경에 따라 VOT 값이 체계적으로 달라지는 현상을 고려하여(e.g., Morris et al., 2008), 최소대립 낱말의 평음과 기음 신호에 대해 대응표본 t-검정을 시행했다. 교사 1의 평음과 기음의 VOT 차이는 통계적으로 유의미하지 않았고[t(20)=−1.837, p=0.081], F0 차이는 유의미했다[t(20)=−35.000, p<0.001]. 교사 2의 VOT는 평음이 57.7 ms, 기음이 67.4 ms로, VOT 차이가 9.7 ms였다. F0는 평음이 199.9 Hz, 기음이 308.6 Hz로, F0 차이가 108.7 Hz였다. 교사 2의 두 폐쇄음 간 VOT 차이[t(20)=−2.921, p<0.01]와 F0 차이[t(20)=−48.404, p<0.001]가 모두 통계적으로 유의미했다.
그림 1에 훈련 집단과 비훈련 집단의 신호 단계에 따른 폐쇄음 식별 패턴을 사전(노란색) 및 사후 테스트(보라색)에 대해 제시했다. 비교를 위해 한국어 서울 방언 모국어 청자(여성 20명; 나이 범위 20–27세)의 폐쇄음 식별 패턴을 아래 제시하였다(Oh, 2020: 45에서 개작함). 가로축은 VOT 및 F0의 일곱 단계, 세로축은 ‘칸’으로 답변한 비율이다. 각 음향 신호의 해당 단계에 속한 총 문항에 대해 ‘칸’으로 답변한 비율을 나타낸다. VOT 및 F0 단계가 낮을수록 기음을 포함한 ‘칸’으로 답변하는 비율이 낮고, 단계가 높아짐에 따라 ‘칸’으로 답변하는 비율이 높아질 것으로 예측되었다. 대체로, ‘칸’ 답변 비율의 최댓값과 최솟값 간 차이가 클수록 해당 신호를 폐쇄음 지각에 중요하게 사용한 것으로 해석할 수 있다.2
모국어 집단의 경우 VOT(1단계 51%; 7단계 64%; 차이 13%)와 F0(1단계 2%; 6, 7단계 100%; 차이 98%) 모두 신호 단계가 올라감에 따라 ‘칸’ 답변 비율이 일관적으로 증가했다. 학습자 집단은 사전 및 사후 테스트에서, VOT 단계가 올라감에 따라 답변 비율이 일관적으로 증가하는 모습을 나타내지 않았다. 훈련 집단은 답변 비율의 최댓값과 최솟값이 사전 테스트는 1단계 58.4%, 7단계 46.6%(차이 11.8%), 사후 테스트는 2단계 61.0%, 4, 6단계 53.3%(차이 7.7%)였다. 비훈련 집단은 사전 테스트는 1단계 53.4%, 7단계 45.4%(차이 8.0%), 사후 테스트는 2단계 58.3%, 7단계 51.7%(차이 6.6%)였다. 즉, 두 학습자 집단이 사전과 사후 테스트 모두 VOT 신호를 모국어 집단처럼 사용하지 않은 것으로 나타났다(표 2 참조).
F0에 대해서는 두 학습자 집단 모두 신호 단계가 올라감에 따라 대체로 답변 비율이 증가하는 모습을 나타냈다. 훈련 집단은 답변 비율의 최솟값과 최댓값이 사전 테스트는 1단계 39.7%, 6단계 64.8%(차이 25.1%), 사후 테스트는 1단계 30.5%, 7단계 73.7%(차이 43.2%)였다. 비훈련 집단은 사전 테스트는 1단계 30.9%, 7단계 63.7%(차이 32.8%), 사후 테스트는 1단계 33.1%, 6단계 68.9%(차이 36.1%)였다. 두 학습자 집단이 모국어 청자의 F0 사용 패턴(i.e., F0가 낮을수록 평음, 높을수록 기음으로 지각하는 패턴)을 나타냈지만, F0 지각 중요도에 대해서는 사전 및 사후 테스트 모두 모국어 값에 도달하지 못한 것으로 보인다. 사전 대비 사후 테스트에서 ‘칸’ 답변 비율의 최댓값-최솟값 간 차이의 변화에 대해, 훈련 집단은 사전 25.1%에서 사후 43.2%로 18.1% 증가했고, 비훈련 집단은 사전 32.8%에서 사후 36.1%로 3.3% 증가했다(표 2와 관련된 논의 참조).
각 집단에 대해 폐쇄음 신호(VOT와 F0)와 테스트의 효과를 확인하기 위해, 프로그램 R(R Development Core Team, 2019)과 ‘lme4’ 패키지(Bates et al., 2015)를 사용해 혼합 효과 로지스틱 회귀 분석(mixed-effects logistic regression analysis)을 실시하였다. 폐쇄음 식별에 사용된 음향 신호의 중요도 및 사전 대비 사후 테스트에서 신호 사용 중요도의 변화(i.e., 지각 훈련의 효과)를 집단별로 분석하고자 했다. VOT와 F0는 단계(−3, −2, −1, 0, 1, 2, 3)로 코드화했다. Response를 종속 변수(dependent variable), VOT, F0, Test를 고정 효과(fixed effect), Subject를 임의 효과(random effect)로 지정했다. 각 음향 신호 중요도가 사전 대비 사후 테스트에 대해 다른지 확인하기 위해, 각 음향 신호와 Test의 상호작용 효과(interaction effect)도 확인했다([Response~ VOT+F0 +Test+VOT×Test+F0×Test+(1|Subject)]).
표 2에 분석 결과를 제시하였다. 훈련 집단의 경우 VOT는 통계적으로 유의미하지 않았고(β=−0.002716, SE=0.002260, z=−1.202, p=0.229), F0는 유의미했다(β=0.013965, SE=0.001064, z=13.130, p<0.0001). 평음과 기음을 식별할 때 VOT를 유의미하게 사용하지 않고 F0는 유의미하게 사용한 것이다. VOT의 β 계수 절댓값(0.002716)보다 F0의 계수 값(0.013965)이 큰 것을 통해서도 두 폐쇄음 식별에 F0가 더 중요하게 사용되었음을 알 수 있다. 이러한 현상은 비훈련 집단의 경우에도 동일하게 나타나, VOT는 유의미하지 않았고(β=−0.0038658, SE=0.0021574, z=−1.792, p=0.0731), F0는 유의미했다(β=0.0127938, SE=0.0010088, z=12.682, p<0.0001). 역시 VOT의 β 계수 절댓값(0.0038658)보다 F0의 계수 값(0.0127938)이 더 컸다.
훈련 집단의 경우 Test의 효과가 통계적으로 유의미했다(β= 1.672193, SE=0.406722, z=4.111, p<0.0001). 사전 테스트와 사후 테스트에서의 신호 사용에 차이가 있었다는 의미이다. VOT와 Test의 상호작용 효과는 유의미하지 않았으나(β=−0.003322, SE=0.003154, z=−1.053, p=0.292), F0와 Test의 상호작용 효과는 유의미했다(β=−0.006134, SE=0.001465, z=−4.187, p<0.0001). 사전 대비 사후 테스트에서 VOT의 중요도는 변화하지 않았고, F0의 중요도는 개선된 것으로 해석할 수 있다.
비훈련 집단의 경우 Test의 효과가 통계적으로 유의미하지 않았다(β=0.0265333, SE=0.3931021, z=0.067, p=0.9462). 사전 테스트와 사후 테스트에서의 신호 사용에 차이가 없었다는 의미이다. VOT와 Test의 상호작용 효과(β=−0.0008600, SE=0.0030394, z=−0.283, p=0.7772) 및 F0와 Test의 상호작용 효과가 모두 유의미하지 않았다(β=−0.0007925, SE=0.0014138, z=−0.561, p=0.5751). 사전 대비 사후 테스트에서 VOT와 F0의 중요도가 모두 변화하지 않은 것으로 해석할 수 있다.
그림 2에 훈련 집단의 학습자들이 나타낸 사전(노란색) 및 사후 테스트(보라색)의 폐쇄음 신호(VOT와 F0) 사용 패턴을 제시하였다. 가로축은 음향 신호 값의 일곱 단계, 세로축은 ‘칸’으로 답변한 비율이다. 위의 그림 1에 대해 기술되었듯이, 1단계에서 7단계로 갈수록 ‘칸’ 답변 비율이 증가하는 것이 모국어 청자의 지각 패턴이고, 답변 비율의 최댓값-최솟값 차이가 클수록 해당 음향 신호를 중요하게 사용한 것으로 볼 수 있다.
T1은 모든 학습자 중 F0 사용을 사후 테스트에서 가장 뚜렷하게 개선한 학습자였다. 사전 테스트에서 모국어 청자와 반대로 F0가 낮을수록 ‘칸’으로 높을수록 ‘간’으로 지각하는 경향을 나타냈으나, 사후 테스트에서는 모국어 청자처럼 F0가 낮을수록 ‘간’으로 높을수록 ‘칸’으로 지각하게 되었다. 또한 ‘칸’으로 답변한 문항이 사전 테스트에서 총 81개였다가 사후 테스트에서 151개로 증가한 점도 주목할 만하다. 지각 자극 조작에 사용된 기본 토큰이 ‘칸’임을 고려하면, 조작한 음향 신호인 VOT와 F0를 제외하고 다른 여러 신호가 자극에 남아 있을 것이다(e.g., 파열 강도(amplitude), 기식(aspiration) 강도, 후행 모음 길이, F0 곡선). T1은 지각 훈련을 통해 F0 중요도를 학습했을 뿐 아니라, 자극에 남아 있는 다른 ‘칸’ 신호들을 감지하고 이를 지각에 사용했을 가능성이 있다.
T2는 사전 테스트에서 F0를 모국어 청자와 반대로 사용했는데, 사후 테스트에서 반대의 지각 패턴을 더욱 공고히 했다. ‘칸’ 답변 비율이 사전 테스트에서 80%(1단계)→34.3%(5단계)로 감소하는 패턴을 나타냈는데, 사후 테스트에서는 94.3%(1단계)→14.3%(5단계)로 감소의 패턴이 더욱 가파르게 나타났다. T3는 사전 테스트에서 F0 단계에 따른 ‘칸’ 답변 비율이 증가와 감소를 교체하는 모습을 보였다. 사후 테스트에서는 F0 1단계에서 4단계까지 답변 비율이 감소하다가 4단계에서 7단계까지 증가하는 이례적인 F0 지각 패턴을 나타냈다.
T4는 F0 단계에 따른 ‘칸’ 답변 비율이 사전 테스트에서는 1단계 42.9%, 7단계 62.9%(차이 20%)로 변화 정도가 작았으나, 사후 테스트에서는 1단계 5.7%, 4단계 80%(차이 74.3%)의 변화를 나타내며, 사후 테스트에서 F0를 더 중요하게 사용했다. T5는 VOT 단계에 따른 ‘칸’ 답변 비율이 사전 테스트에서 모국어 청자와 반대 패턴으로 크게 나타났는데(1단계 80%; 7단계 14.3%; 차이 65.7%), 이러한 패턴이 사후 테스트에서 유지되었다(1단계 68.6%; 5단계 31.4%; 차이 37.2%). F0에 대해서는, 사전 테스트에서 단계가 상승할수록 ‘칸’ 답변 비율이 높아지는 패턴을 나타냈지만(1단계 37.1%; 7단계 60%; 차이 22.9%), F0 단계에 따른 답변 비율의 변화가 작았다. 이러한 현상은 사후 테스트(1단계 34.3%; 4, 7단계 60%; 차이 25.7%)에서도 개선되지 않았다.
T6는 사전 테스트에서 F0 단계 상승에 따라 ‘칸’ 답변 비율이 증가했는데(2단계 20%, 6단계와 7단계 85.7%; 차이 65.7%), 사후 테스트에서 이러한 패턴이 더욱 개선되어 F0 단계 상승에 따른 ‘칸’ 답변 비율 증가의 일관성 및 증가 폭이 커졌다(1단계 11.4%; 7단계 94.3%; 차이 82.9%). T7은 F0 사용이 사전 대비 사후 테스트에서 모국어 청자 패턴에서 더 멀어졌다. F0 단계 상승에 따른 ‘칸’ 답변 비율이 사전 테스트에서는 증가하는 패턴을(1단계 17.1%; 6단계 94.3%), 사후 테스트에서는 감소하는 패턴을 나타냈다(1단계 68.6%; 6단계 31.4%).
T8은 사전 및 사후 테스트 모두 F0 단계에 따른 ‘칸’ 답변 비율을 1단계 0%, 7단계 100%로 모국어 청자와 같은 지각 패턴을 나타냈다. T9도 사전 및 사후 테스트 모두 F0 단계에 따른 폐쇄음 지각 패턴을 모국어 청자와 유사하게 나타냈다. ‘칸’ 답변 비율이 사전 테스트에서 1단계 0%, 5단계와 6단계 100%를, 사후 테스트에서 1단계 0%, 5단계 97.1%를 나타냈다.
그림 3에 비훈련 집단의 학습자들이 나타낸 사전(노란색) 및 사후 테스트(보라색)의 폐쇄음 신호(VOT와 F0) 사용 패턴을 제시했다. 가로축은 음향 신호 값의 일곱 단계, 세로축은 ‘칸’으로 답변한 비율이다. 1단계에서 7단계로 갈수록 ‘칸’ 답변 비율이 증가하는 것이 모국어 청자의 지각 패턴이고, 답변 비율의 최댓값-최솟값 차이가 클수록 해당 음향 신호를 중요하게 사용한 것으로 볼 수 있다.
NT1은 사전 테스트에서 F0 지각 패턴을 모국어 청자와 반대로 나타냈는데(1단계 97.1%; 5단계 0%; 차이 97.1%), 사후 테스트에서도 이러한 반대의 패턴이 유지되었다(1단계 71.4%; 4단계 8.6%; 차이 62.8%). NT2는 사전 및 사후 테스트에서 VOT와 F0 신호를 모두 모국어 청자와 반대로 사용했다. 특히 F0는 사전(1단계 77%; 7단계 20%; 차이 57%) 대비 사후 테스트(1단계 88.6%; 7단계 11.4%; 차이 77.2%)에서 반대의 사용 패턴을 더욱 공고히 했다.
NT3는 VOT 사용에 대해 사전 테스트에서 모국어 청자와 반대의 패턴을 나타냈는데(1단계 65.7%; 6단계 17.1%; 차이 48.6%), 사후 테스트에서 이러한 반대 패턴을 더욱 공고히 했다(2단계 74.3%; 7단계 11.4%; 차이 62.9%). F0는 사전(1, 7단계 28.6%; 3, 4, 5단계 45.7%; 차이 17.1%) 대비 사후 테스트(1단계 28.6%; 5, 6단계 62.9%; 차이 34.3%)에서 더 중요하게 사용되었다. NT4는 사전과 사후 테스트 모두 F0 단계에 따른 답변 비율이 일관적으로 증가하거나 감소하지 않고 증감이 반복되는 패턴을 나타냈다. 또한, F0 1단계의 ‘칸’ 답변 비율이 사전 테스트에서 최솟값(34.3%)을 나타낸 반면 사후 테스트에서는 최댓값(82.9%)을 나타내 모국어 청자 패턴에서 더욱 멀어졌다.
NT5는 F0 단계 상승에 따른 ‘칸’ 답변 비율의 증가가 사전(3단계 31.4%; 7단계 74.3%; 차이 42.9%) 대비 사후 테스트(1단계 20.0%; 7단계 82.9%; 차이 62.9%)에서 더 커져, 사후 테스트에서 F0 신호의 지각 중요도가 더 커졌음을 알 수 있다. NT6는 F0 단계 상승에 따른 ‘칸’ 답변 비율의 증가가 사전(1단계 14.3%; 7단계 71.4%; 차이 57.1%) 대비 사후 테스트(1단계 22.9%; 5, 6단계 74.3%; 차이 51.4%)에서 약간 감소했다.
NT7은 NT6와 유사한 패턴을 나타내, F0 상승에 따른 ‘칸’ 답변 비율의 증가가 사전(1단계 2.9%; 7단계 94.3%; 차이 91.4%) 대비 사후 테스트(1단계 5.7%; 5, 7단계 82.9%; 차이 77.2%)에서 감소했다. NT8은 F0에 따른 ‘칸’ 답변 비율의 증가가 사전(1단계 0%; 7단계 97.1%; 차이 97.1%)과 사후 테스트(1단계 2.9%; 7단계 100%; 차이 97.1%)에서 동일했다. 사전 대비 사후 테스트에서 보다 전형적인 지각 범주화 곡선을 나타냈다.
NT9도 NT8과 유사하게, F0 단계 상승에 따른 ‘칸’ 답변 비율의 증가가 사전(1단계 5.7%; 7단계 100%; 차이 94.3%)과 사후 테스트(1단계 5.7%; 4, 5, 6, 7단계 100%; 차이 94.3%)에서 동일했다. NT10은 F0 단계 상승에 따른 ‘칸’ 답변 비율의 증가가 사전(1단계 0%; 7단계 100%; 차이 100%) 대비 사후 테스트(1단계 2.9%; 6, 7단계 100%; 차이 97.1%)에서 약간 감소했다.
본 절에서는 사전 대비 사후 테스트에서 훈련 및 비훈련 집단의 학습자들이 한국어 평음과 기음 지각에 사용한 음향 신호(F0와 VOT)의 지각 β 계수 값이 변화했는지 살펴보고자 한다. 2.3절에 기술되었듯이, 개별 학습자의 사전 및 사후 테스트의 분석 결과에 대해 이분형 로지스틱 회귀 분석을 시행해, 음향 신호의 지각 β 계수를 계산하였다. 지각 β 계수는 청자가 말소리 대조를 지각하는 데 해당 음향 신호를 사용한 중요도를 측정한 값으로, 지각 계수가 클수록 말소리 대조의 구별에 해당 음향 신호를 중요하게 사용한 것으로 해석할 수 있다.
표 3과 표 4에 각각 훈련과 비훈련 집단에 속한 학습자들의 음향 신호 지각 계수를 제시했다. 각 음향 신호에 ‘차이’로 기재된 칸은 [사후 테스트의 음향 신호 지각 계수–사전 테스트의 음향 신호 지각 계수]를 계산한 값으로, 차이가 양수일 경우 사후 테스트에서 해당 신호를 더 중요하게 사용했음을, 음수일 경우 사후 테스트에서 해당 신호를 덜 중요하게 사용했음을 의미한다.3
표 3에 제시된 훈련 집단은 F0 계수 평균이 사전 테스트 0.230, 사후 테스트 0.681로, 0.451의 계수 값 증가를 나타냈다. 집단 단계에서 사전 대비 지각 훈련 후 사후 테스트에서 L2 폐쇄음 대조의 주요 신호인 F0를 더 중요하게 사용한 것이다. 그러나 개별 학습자 단계에서는 F0 지각 계수의 변화에 대해 다양한 패턴이 나타났다. 5명(T1, T3, T4, T6, T8)은 ‘차이’ 값을 양수로 나타내며 사후 테스트에서 F0를 더 중요하게 사용한 반면 4명(T2, T5, T7, T9)은 ‘차이’ 값을 음수로 나타내며 사후 테스트에서 F0 신호를 덜 사용하게 되었다.
F0 계수의 ‘차이’ 값을 양수나 음수로 나타낸 학습자들 내에서도 그 패턴이 동일하지 않았다. 양수로 나타낸 학습자 중 T1은 F0 계수가 사전에 통계적으로 유의미한 음수였다가 사후에 통계적으로 유의미한 양수로 변화한 경우였다. T3도 F0 계수가 사전에 음수였다가 사후에 양수로 변화한 경우였으나 사전 및 사후 테스트 모두 F0 계수가 유의미하지 않았다. T4, T6, T8은 F0 계수가 사전에 양수였다가 사후에 더 큰 양수 값으로 변화한 경우였다. ‘차이’ 값을 음수로 나타낸 학습자 중, T2는 사전과 사후 테스트 모두 F0 계수가 음수였다. T5와 T9은 F0 계수가 사전과 사후 테스트에서 모두 양수였으나 사후 테스트에서 감소한 경우였다. T7은 F0 계수가 사전에 양수였다가 사후에 음수로 변화한 경우였다.
VOT 계수의 평균은 사전 −0.031, 사후 −0.026으로, 사후 테스트에서 0.005의 계수 값 증가를 나타냈다. 사전 테스트에서 모국어 청자와 반대로 VOT가 낮을수록 기음으로 높을수록 평음으로 지각하는 패턴을 보였는데, 이러한 패턴이 사후 테스트에서 지속되며 평균 VOT 지각 계수를 음수로 나타낸 것이다. 사후 테스트에서의 VOT 계수 값 변화도 학습자 간 차이를 나타냈다. ‘차이’ 값을 4명(T3, T5, T6, T7)은 양수로 나타내며 사후 테스트에서 VOT 신호를 더 중요하게 사용한 반면 5명(T1, T2, T4, T8, T9)은 음수로 나타내며 사후 테스트에서 VOT 신호를 덜 사용했다.
그림 4에 훈련 집단의 개별 학습자들이 한국어 폐쇄음 구별에 사용한 F0와 VOT의 지각 계수를 사전과 사후 테스트에 대해 제시하였다. T1(F0 계수 사전 테스트의 가장 하단에 위치한 자료에 해당함; 각주 3)은 F0 계수가 사전 테스트에서 참가자 19명 중 가장 낮은 −1.918이었으나 훈련 후 시행된 사후 테스트에서 2.492로, F0 계수의 급격한 증가를 나타냈음을 확인할 수 있다. 또한, F0 계수(그림 4 왼쪽)에 비해 VOT 계수(그림 4 오른쪽)의 절댓값들이 더 작은 값들에 모여 있어, 학습자들이 한국어 평음과 기음 대조를 지각하는 데 F0를 더 중요하게 사용했음을 확인할 수 있다.
표 4에 제시된 비훈련 집단은 F0 계수 평균이 사전 테스트 0.446, 사후 테스트 0.692로, 0.246의 계수 값 증가를 나타냈다. 비훈련 집단도 개별 학습자 단계에서 F0 지각 계수의 변화에 대해 다양한 패턴을 나타냈다. 5명(NT1, NT3, NT5, NT8, NT9)은 ‘차이’ 값을 양수로 나타내며 사후 테스트에서 F0 신호를 더 중요하게 사용했고, 다른 5명(NT2, NT4, NT6, NT7, NT10)은 ‘차이’ 값을 음수로 나타내며 사후 테스트에서 F0 신호를 덜 사용했다.
비훈련 집단도, F0 계수의 ‘차이’ 값을 양수나 음수로 나타낸 학습자들 내에서 그 패턴이 동일하지 않았다. NT3, NT5, NT8, NT9은 F0 계수가 사전에 양수였다가 사후에 더 큰 양수 값으로 변화했다. NT6, NT7, NT10은 F0 계수가 사전과 사후 테스트에서 모두 양수였으나 사후 테스트에서 감소한 경우였다. NT1은 F0 계수가 사전과 사후 테스트 모두 음수였으나 계수 값이 증가했고, NT2는 사전과 사후 테스트 모두 음수였으나 계수 값이 감소했다. NT4는 F0 계수가 사전에 양수였다가 사후에 음수로 변화한 경우였다.
VOT 계수의 평균은 사전 −0.053, 사후 −0.029로, 사후 테스트에서 0.025의 계수 값 증가를 나타냈다. 사전 테스트에서 모국어 청자와 반대로 VOT가 낮을수록 기음으로 높을수록 평음으로 지각하는 패턴을 보였는데, 이러한 패턴이 사후 테스트에서 지속되며 평균 VOT 지각 계수를 음수로 나타냈다. 사후 테스트에서의 VOT 계수 값 변화도 학습자 간 차이를 나타냈다. ‘차이’ 값을 6명(NT1, NT2, NT4, NT6, NT8, NT10)은 양수로 나타내며 사후 테스트에서 VOT 신호를 더 중요하게 사용헸고, 4명(NT3, NT5, NT7, NT9)은 음수로 나타내며 사후 테스트에서 VOT 신호를 덜 사용했다.
그림 5에 비훈련 집단의 개별 학습자들이 한국어 폐쇄음 구별에 사용한 F0와 VOT 지각 계수를 사전과 사후 테스트에 대해 제시했다. F0 계수에 대해 NT1과 NT9(F0 계수 사전 테스트의 가장 하단(NT1)과 가장 상단에서 두 번째(NT9)에 각각 위치한 자료에 해당함; 각주 3)은 사전과 사후 테스트 계수 ‘차이’ 값이 1 이상인 학습자들이었다. 다른 학습자들은 모두 F0 계수 ‘차이’의 절댓값이 1보다 작았다. 또한, 비훈련 집단의 학습자들도 F0 계수(그림 5 왼쪽)에 비해 VOT 계수(그림 5 오른쪽)의 절댓값들이 더 작은 값들에 모여 있어, 한국어 평음과 기음 대조를 지각하는 데 F0 값을 더 중요하게 사용했음을 확인할 수 있다.
4. 요약 및 논의
본 연구에서는 중국어가 모국어인 한국어 학습자들이 다양한 음성 환경으로 구성된 자연 자극 속 평음과 기음을 대조하는 지각 훈련을 통해 L2 폐쇄음 대조에 주요한 음향 신호인 F0 지각 가중치를 증가시키는지, 부차적 음향 신호인 VOT 가중치를 감소시키는지 고찰하였다. 폐쇄음 지각에 사용된 음향 신호의 가중치를 추정하기 위해 신호를 체계적으로 조작한 자극으로 사전 및 사후 테스트를 시행했다. 사전 테스트의 F0 지각 가중치에 따라 학습자들을 훈련 집단과 비훈련 집단으로 나누고 훈련 집단만 지각 훈련을 진행하였다. 개별 학습자들의 사전 및 사후 테스트 결과에 대해 시행한 이분형 로지스틱 회귀 분석으로 학습자별 음향 신호의 지각 가중치를 계산했다. 말소리 대조를 지각하는 데 사용한 음향 신호의 중요도를 추정하는 지각 계수 값에 대해, 훈련 집단은 사전 대비 사후 테스트에서 평균 0.451의 통계적으로 유의미한 증가를 보인 반면 비훈련 집단은 유의미하지 않은 0.246의 증가를 나타냈다. F0 단계에 따른 ‘칸’ 답변 비율의 최댓값-최솟값 간 차이에 대해서도, 훈련 집단은 사전 테스트 25.1%에서 사후 테스트 43.2%로 18.1% 증가했고, 비훈련 집단은 사전 테스트 32.8%에서 사후 테스트 36.1%로 3.3% 증가했다. 한국어 평음과 기음 대조의 VOT 신호에 대해서는, 훈련 집단과 비훈련 집단 모두 VOT 및 VOT×Test 상호작용 효과가 통계적으로 유의미하지 않아, 사전과 사후 테스트 모두에서 평음과 기음을 구별하는 신호로 VOT를 사용하지 않았음을 알 수 있다(표 2). 개별 학습자 단계에서도, T1(표 3)과 NT5(표 4)가 사전 테스트에서 VOT를 유의미하게 사용한 경우를 제외하고, VOT를 유의미하게 사용하지 않았다.
본 연구에서는 중국어가 모국어인 한국어 학습자들이 다양한 음성 환경으로 구성된 자연 자극 속 평음과 기음을 대조하는 지각 훈련을 통해 L2 폐쇄음 대조에 주요한 음향 신호인 F0 지각 가중치를 증가시키는지, 부차적 음향 신호인 VOT 가중치를 감소시키는지 고찰하였다. 폐쇄음 지각에 사용된 음향 신호의 가중치를 추정하기 위해 신호를 체계적으로 조작한 자극으로 사전 및 사후 테스트를 시행했다. 사전 테스트의 F0 지각 가중치에 따라 학습자들을 훈련 집단과 비훈련 집단으로 나누고 훈련 집단만 지각 훈련을 진행하였다. 개별 학습자들의 사전 및 사후 테스트 결과에 대해 시행한 이분형 로지스틱 회귀 분석으로 학습자별 음향 신호의 지각 가중치를 계산했다. 말소리 대조를 지각하는 데 사용한 음향 신호의 중요도를 추정하는 지각 계수 값에 대해, 훈련 집단은 사전 대비 사후 테스트에서 평균 0.451의 통계적으로 유의미한 증가를 보인 반면 비훈련 집단은 유의미하지 않은 0.246의 증가를 나타냈다. F0 단계에 따른 ‘칸’ 답변 비율의 최댓값-최솟값 간 차이에 대해서도, 훈련 집단은 사전 테스트 25.1%에서 사후 테스트 43.2%로 18.1% 증가했고, 비훈련 집단은 사전 테스트 32.8%에서 사후 테스트 36.1%로 3.3% 증가했다. 한국어 평음과 기음 대조의 VOT 신호에 대해서는, 훈련 집단과 비훈련 집단 모두 VOT 및 VOT×Test 상호작용 효과가 통계적으로 유의미하지 않아, 사전과 사후 테스트 모두에서 평음과 기음을 구별하는 신호로 VOT를 사용하지 않았음을 알 수 있다(표 2). 개별 학습자 단계에서도, T1(표 3)과 NT5(표 4)가 사전 테스트에서 VOT를 유의미하게 사용한 경우를 제외하고, VOT를 유의미하게 사용하지 않았다.
집단 단계에서는 비훈련 집단에 비해 훈련 집단이 사후 테스트에서 F0 사용 패턴을 더 개선한 것으로 보이지만, 훈련 집단의 개별 학습자들 간 F0 사용의 변화 패턴이 다양하게 나타났다. 예를 들어, T1은 F0 가중치가 가장 뚜렷하게 개선된 학습자로 사전 테스트에서 F0 신호를 모국어 청자와 반대의 패턴으로 지각했으나 사후 테스트에서 F0 지각 패턴을 완전히 바꾸어 모국어 청자처럼 폐쇄음을 지각하게 되었다. 반면 T7은 F0 신호를 사전 테스트에서 모국어 청자의 패턴으로 사용했으나 사후 테스트에서 반대로 사용했다. 사전 테스트에서 모국어 청자와 반대로 F0를 사용했는데 사후 테스트에서 이러한 패턴을 더욱 공고히 한 학습자도 있었다.4
말소리 지각 훈련의 효과를 고찰한 연구들에서 개별 학습자 간 차이가 상당한 것으로 보고된 바 있지만, 훈련 후 테스트에서 후퇴하는 방향으로 지각하게 된 경우는 드문 것으로 보인다. 예를 들어 1절에 기술된 바 있는 Wang et al.(1999)에서, 중국어 성조를 식별하는 지각 훈련에 참가한 학습자 8명이 모두 지각 정답률의 증가를 나타냈다(증가 범위 6%–33%). 지각 훈련을 받지 않은 비훈련 집단은 사후 테스트에서 정답률이 18%, 11% 향상된 학습자들이 있었고, 8%, 7% 하락한 학습자들이 있었다.
중국어가 모국어인 한국어 학습자들에게 한국어 평음과 기음을 구분하는 F0의 ‘조음’ 학습이 어렵다고 보고한 연구들이 있다. Oh(2018)에서 한국어 고급 학습자들(한국 거주 기간 2년 이상)이 두 폐쇄음의 F0 차이를 모국어 화자 집단과 다르게 조음하였다. Han & Kim(2014)은 한국어 폐쇄음 체계의 L2 발달 과정을 관찰한 종적(longitudinal) 연구를 통해 학습자들의 평음과 기음을 구분하는 F0 사용 패턴이 1년 동안 뚜렷한 발달을 나타내지 않았다고 보고했다. 한국어 폐쇄음의 L2 조음에 관한 또 다른 종적 연구인 Holliday(2015)에서도 6명의 학습자 중 3명이 1년 동안의 학습에도 F0 신호를 모국어 화자처럼 사용하지 못했다. 중국어에서 폐쇄음 범주 구분에 F0를 주요 신호로 사용하지 않기 때문에 L2 폐쇄음 조음에 F0 신호를 사용하는 것이 어려운 것으로 해석되었다. 본 연구의 결과를 포함해 한국어 평음과 기음의 조음과 지각 학습에 관한 연구들이 공통적으로 보고한 내용에 따르면, 학습자들이 두 L2 폐쇄음 대조를 조음하고 지각하는 데에 F0 신호 사용의 중요도를 증가시키는 것이 어려운 과제인 것으로 보인다.
본 연구에서 지각 훈련은 모국어 화자가 조음한 자연 발화로 진행하고, 테스트는 음향 신호 값을 조작한 자극으로 시행하였다. 학습자들이 L2 대조를 구별하는 데 사용한 음향 신호의 가중치를 분석하기 위해 조작 자극을 사용하는 것이 필요하였다. 자연 자극으로 L2 폐쇄음 대조의 음향 신호들을 통합적으로 사용하는 지각 과제는 상대적으로 용이할 수 있지만, 음향 신호 값을 체계적으로 조작해 실제 모국어 화자에게서 듣지 않을 자극들이 포함된 지각 과제를 수행하기 위해서는 추가적인 학습 과정이 필요할 수 있다.5 즉, 자연 발화 속에 존재하는 L2 말소리를 대조하는 음향 신호의 집합을 통해 구축한 지식을, 조작 자극에 대해 학습자가 ‘재분석’하는 과정을 통해 말소리를 분류하고 범주화하는 과제이다. 연속적인 신호 값을 내포하고 있는 자극들에 대해 음향 신호의 패턴에 주의를 기울이고 신호 가중치를 부여하는 능력을 테스트한 것이다. 모국어 청자들은 이처럼 변형된 자극을 통해서도 폐쇄음 범주화 과제를 매우 체계적으로 수행했으나, 학습자들은 이러한 환경에서 L2 폐쇄음 신호를 체계적으로 사용하기가 어렵고 불안정했던 것으로 보인다(그림 1). L2 말소리 대조에 집중한 지각 훈련을 통해서도 여러 학습자가 이러한 형태의 과제를 수행하는 능력이 개선되지 않은 것이다.
L2 말소리를 대조하는 신호 가중치의 개선을 확인하기 위해 해당 신호 값을 조작한 자극으로 지각 훈련을 시행하는 것이 효과적일지에 관한 연구가 필요한 것으로 보인다. 1절에 기술되었듯이, Kondaurova & Francis(2010)는 영어 모음 /i/−/ɪ/를 대조하는 주요 신호인 포먼트 값 차이를 극대화한 조작 자극으로 지각 훈련을 시행했는데, 사전 대비 사후 테스트에서 포먼트 차이에 대한 학습자들의 지각 의존도가 높아졌다고 보고하였다. 본 연구와 관련해 한국어 평음-기음 대조의 주요 신호인 F0 차이를 극대화한 조작 자극으로 지각 훈련을 시행해 학습자들의 F0 신호 가중치가 높아지는지 확인하는 방식이 가능할 것으로 보인다. 또 다른 방법으로 Francis et al.(2000)에 따르면, 영어 폐쇄음의 조음 위치에 대한 파열 신호와 후행 모음의 포먼트 신호 중 포먼트 값으로 훈련받은 (예를 들어, /b/의 포먼트 값과 /b/의 파열 값이 아닌 값으로 구성된 자극을 사용해 훈련받은) 학습자 집단과 파열 값으로 훈련받은 학습자 집단을 비교한 결과, 포먼트 값으로 훈련받은 집단은 포먼트 신호를 지각한 정답률이 사후 테스트에서 0.18 향상된 반면 파열 신호를 지각한 정답률은 0.11 감소했다. 파열 값으로 훈련받은 집단은 파열 신호를 지각한 정답률이 0.06 향상되었으나 포먼트 신호를 지각한 정답률은 0.11 감소했다. 특정한 음향 신호에 초점을 맞춘 자극으로 훈련한 지식을 지각에 적용했다고 볼 수 있다. 본 연구와 관련해서 F0 신호 값으로 구성한 (예를 들어, 기음의 F0 값과 기음의 다른 신호 값이 아닌 값으로 구성한) 자극으로 지각 훈련을 시행할 경우 F0 신호 가중치를 모국어 값의 방향으로 개선하는 데에 효과적일지 후속 연구에서 확인할 필요가 있다.