1. 서론
한국어의 어두 폐쇄음은 평음, 격음, 경음의 삼원 대립 체계를 갖는다. 폐쇄음의 삼원 대립 체계를 가진 대다수 언어의 경우, 폐쇄음의 유성성 유무와 기식성 유무를 기준으로 유성음, 무성무기음, 무성유기음으로 분류된다(Maddieson, 1984). 반면 한국어의 평음, 격음, 경음은 모두 무성음으로서 유성성 유무가 폐쇄음의 삼원 대립 분류에 이용되지 못한다는 독특한 특성으로 인해 말소리 연구에서 주요한 관심을 받아오고 있다.
전통적으로 한국어의 삼원 대립 폐쇄음은 성대 진동 시작시간(voice onset time, VOT)에 의해 일차적으로 구별되어서 격음의 VOT가 가장 길고 경음의 VOT가 가장 짧으며 평음은 격음과 경음 사이의 VOT값을 갖는 것으로 알려져 있었다(Cho et al., 2002; Han & Weitzman, 1970). 더불어, 폐쇄음을 후행하는 모음의 기본주파수(fundamental frequency, F0) 등이 이차적으로 폐쇄음의 변별을 도와서 가령 낮은 F0를 갖는 평음은 높은 F0를 갖는 격음 및 경음과 변별되는 것으로 알려져 왔다(Cho et al., 2002; Han & Weitzman, 1970).
하지만 최근 보고되는 다수의 발화 연구들에 따르면, 서울 방언의 어두 평음과 격음 사이에 존재하던 VOT값의 차이에 있어서 변화가 진행되고 있다(Bang et al., 2018; Byun, 2016; Kang, 2014; Oh, 2011; Silva, 2006). 구체적으로, 본래 평음에 비해 격음의 VOT값이 컸으나 최근 그 차이값이 줄어들고 있는 양상을 보이며 특히 남성에 비해 여성의 발화에서, 그리고 노년층에 비해 젊은 연령층의 발화에서 그 변화가 더 두드러지는 모습을 보이는 것으로 보고되었다. 평음-격음 대립을 일차적으로 변별해오던 VOT가 변화함에 따라 이차적 역할을 해오던 후행 모음의 F0의 역할(평음의 낮은 F0 vs. 격음의 높은 F0) 또한 발화 연구에서 주요하게 다뤄지고 있다. 즉, VOT의 변별력이 줄어들면서 F0의 변별력은 강화되고 있는지를 알아보는 연구들이 보고되고 있는 것이다. 대체로 VOT 변별력에서는 성별 및 연령에 따른 차이가 일관되게 관찰되는 반면에 F0 변별력에서는 그 차이가 일관되게 관찰되지는 않는다. 가령, Kang(2014)과 Bang et al.(2018)에서는 1930년대에서 1980년대에 태어난 남녀의 산출 코퍼스를 대상으로 음성분석을 실시하였는데 그 결과 남성에 비해 여성이, 그리고 연령층이 젊을수록 평음과 격음 간 VOT 차이값은 작은 반면에 F0 차이값이 크게 나타나는 결과를 나타냈다(이외에 Byun, 2016; Kang & Guion, 2007 참고). 반면 Silva(2006)는 1940년대에서 1980년대 출생자의 발화에서 연령에 따른 VOT 변별력의 차이만 발견했을 뿐 F0 변별력에서는 연령별 차이를 발견하지 못하였다. 요약하면, 평음-격음 대립의 발화에서 VOT와 F0의 변화가 관찰되며 이 변화에서 성별 및 연령에 따른 차이가 존재하는데 F0에 비해 VOT에서 그 차이가 더 일관되게 확인되고 있는 것이다.
이와 같은 다수의 발화 연구를 통해 평음-격음 대립에서 진행되고 있는 음향특성(VOT, F0)의 변화 양상이 말소리 산출에서 어떠한 지에 대해서는 잘 알려진 반면에, 이 주제를 말소리 지각 영역에서 다룬 연구의 진행은 상대적으로 부족한 상황이다. 몇몇의 선행연구가 존재하는데 그중 Kong(2012)은 20–30대 청년층 청자를 대상으로 다양한 VOT와 F0값을 가진 소리를 들려준 뒤 그 소리에 대한 발음 적합성 평정 검사(category goodness rating)를 진행하였다. 그 결과 F0가 낮아질수록 더 좋은 평음 발음으로 평정되고 높아질수록 더 좋은 격음으로 평정됨으로서 평음과 격음 지각에서 F0의 유의미한 역할이 확인되었다. 반면 VOT의 역할은 F0에 비해 제한적인 것으로 관찰되어서 VOT가 길어질수록 더 좋은 격음으로 평정되었지만 평음 발음의 평정에 있어서는 VOT가 영향을 미치지 못하였다. 즉 청년층에서 F0에 비해 VOT의 지각 변별력이 비교적 약하다는 것을 보여주었다. Kang(2010)은 VOT와 F0 변별력에서 연령별 차이가 있는지를 알아보기 위해 청년층과 노년층을 대상으로 연구를 진행하였다. 그 결과 평음과 격음을 변별 지각할 때에 청년층과 노년층 모두 VOT에 비해 F0의 변별력이 더 큰 결과를 보였다. 또한, 청년층이 노년층에 비해 F0 변별력이 더 크다는 결과를 보여주었는데, 이는 발화 연구의 결과(즉, 노년층에 비해 청년층에서 더 두드러지는 평음-격음의 VOT 차이값의 감소)와 전반적으로 일치한다고 볼 수 있다.
본 연구에서는 기존의 지각 연구를 확대하여, 평음과 격음의 변별 지각에서 VOT와 F0의 변별력이 연령뿐만 아니라 성별에 따라서도 어떻게 다른 지를 알아보고자 한다. 즉, 기존 발화 연구에서처럼 지각 영역에서도 VOT와 F0 변별력에 연령과 더불어 성별에 따른 차이가 존재하는 지를 알아보고, 그 차이가 발화 연구의 결과와 일치하는 지를 확인하고자 한다. 이를 위해 서울 방언을 사용하는 청년과 노년 남녀를 대상으로 VOT와 F0를 조작한 음성자극을 사용하여 식별 과제(identification task)를 실시하였다.
2. 방법
서울 표준어를 모국어로 사용하는 성인 총 40명이 실험에 참여하였다. 그 중 20명(20–25세, 평균 23세, 남녀 각 10명)은 청년집단을 구성하였고 나머지 20명(58세 이상, 평균 63세, 남녀 각 10명)은 노년집단을 구성하였다. 모든 참가자들은 실험에 대한 충분한 설명을 들은 뒤 서면 동의서를 작성하였다. 참가자들은 교정시력 및 교정 청력에 문제가 없었으며, 실험 후 소정의 실험 참가비를 지급받았다.
실험자극으로는 VOT값을 10단계로 조작하여 구성한 VOT-연속체(continuum) 음성자극과 F0값을 10단계로 조작하여 구성한 F0-연속체 음성자극을 사용하였다. VOT-연속체의 경우, 고정된 F0값을 갖되 연속체의 양끝이 각각 평음(/ㅂ/)과 격음(/ㅍ/)으로 편향되도록 VOT가 10단계로 조작되었다. F0-연속체는 고정된 VOT값을 갖되 연속체의 양끝이 각각 평음(/ㅂ/)과 격음(/ㅍ/)으로 편향되도록 10단계로 F0를 조작하였다.
실험자극 제작을 위하여 평음과 격음을 초성으로 하는 단음절 /바, 파/를 한 명의 서울 모국어 여성 화자가 녹음하였다. 이 중 하나의 음성자극을 조작하여 VOT-연속체와 F0-연속체를 제작하였다.
음성 연속체 조작에 필요한 기준값(reference values)을 얻기 위해 동일 여성 화자가 목표자극 /바, 파/를 12회 반복하여 녹음하였다. 녹음한 24개 음성자극에 대해 VOT(폐쇄 개방 시점에서부터 두 번째 포만트 시작 시점 사이의 간격으로 측정)와 F0(모음 중간 지점의 안정 구간에서 측정)를 측정하였다. 그 결과, F0의 경우 평음(/ㅂ/)은 187–204 Hz 사이에 분포하고 격음(/ㅍ/)은 220–267 Hz 사이에 분포하여 평음과 격음의 F0가 겹치지 않는 모습을 보였다(그림 1). 반면, VOT의 경우 평음(/ㅂ/)은 52–91 ms 사이에 분포하고 격음(/ㅍ/)은 70–100 ms 사이에 분포하여 평음과 격음의 VOT가 상당 부분 겹치는 모습을 보였다(그림 1).
이와 같은 결과를 바탕으로 VOT-연속체의 F0값을 210 Hz로 설정하였다(그림 1에서 녹색 수직 점선). 이 값은 녹음에서 측정된 평음의 F0 범주와 격음의 F0 범주 경계 사이에 위치하는 값으로 평음과 격음 어디에도 속하지 않는다. 따라서 VOT-연속체의 음성자극들은 F0값에 의해 평음 또는 격음으로 구분되기 어렵다. VOT-연속체의 VOT값은 1단계 30 ms에서 매 단계마다 10 ms씩 늘려 10단계에서는 120 ms을 갖도록 하였다. 30–120 ms 범위는 기준값 설정녹음에서 관찰된 평음과 격음의 VOT값 범위(즉, 52–100 ms)를 1표준편차 이상으로 포함하는 값으로, 1단계의 30 ms는 평음, 10단계의 120 ms은 격음으로 크게 편향된 VOT값이다.
F0-연속체의 경우, VOT값으로 75 ms을 설정하였다(그림1에서 녹색 수평 점선). 이 값은 녹음에서 관찰된 평음과 격음의 VOT값들의 중앙값으로 이는 F0-연속체의 음성자극들이 VOT값으로는 평음 또는 격음으로 구분되어지지 못하도록 하기 위함이다. F0-연속체의 F0값은 1단계 160 Hz에서 매 단계마다 15 Hz씩 높여서 10단계에서는 295 Hz를 갖도록 하였다. 이는 기준값 설정녹음에서 관찰된 평음과 격음의 F0값 범위(즉, 187–267 Hz)를 1표준편차 이상으로 포함하는 범위이며, 1단계 160 Hz는 평음, 10단계의 295 Hz는 격음으로 크게 편향된 F0값이다.
녹음은 16 bit, 44,100 Hz로 디지털화하였으며, 음성 자극의 측정 및 조작에는 Praat이 사용되었다.
실험에는 식별과제가 사용되었다. 식별과제에서 실험참가자들은 헤드셋을 통해 제시되는 음성 자극을 듣고 그것이 ‘바’와 ‘파’ 중 무엇이라고 생각하는 지 판단하여 응답하였다.
구체적으로, 실험 과제의 각 수행은 컴퓨터 화면 중앙에 응시점 “+”표시가 500 ms 동안 제시되는 것으로 시작하였다. 그 다음 빈 화면이 잠시 제시된 뒤(제시 시간은 인지적 방략을 막기 위해 지터링(jittering) 기법을 사용하여 500–900 ms의 범위에서 다양하게 함), “바”와 “파”가 화면에 제시되었다. 500 ms 이후 음성 자극이 제시되고 실험참가자는 손가락으로 버튼을 눌러 반응하였다. 실험참가자가 반응하거나 2초가 지나면 다음 수행이 진행되었다.
VOT-연속체의 10개 음성 자극과 F0-연속체의 10개 음성 자극이 15번씩 제시되어 총 300번의 시행(20개의 음성 자극×15번)이 진행되었다. 300번의 시행은 3개의 블록으로 나뉘어 한 블록 당 100번의 시행이 진행되었고, 한 블록이 끝날 때마다 짧은 휴식이 제공되었다.
본 시행에 앞서 연습 시행을 실시하여 실험참가자들의 과제 이해를 도왔다. 실험 프로그램 제작 및 실행에는 e-Prime 프로그램을 사용하였다. 실험은 고려대학교 심리학과 인지지각실험실의 방음실에서 진행되었으며, 실험에 소요된 시간은 약 12분이었다.
3. 실험 결과
VOT-연속체 10단계 조건과 F0-연속체 10단계 조건에 대해 각 조건별로 반응 비율을 계산하였다. 각 조건 별 15번의 수행 중 15번 모두 ‘파’로 반응하면 1의 값을 갖고, 15번 모두 ‘바’로 반응하면 0의 값을 갖도록 반응 비율을 계산하였다. 즉, 각 조건별 반응 비율은 0–1 사이의 값을 갖게 되며, 1에 가까울수록 ‘파’로 범주지각하고 0에 가까울수록 ‘바’로 범주지각했음을 보여준다.
통계분석에는 집단별 그리고 조건별 평균 반응 비율에 대한 단일표본 t 검정(one sample t-test)을 실시하였다. t 검정의 기준값은 우연수준(chance level)인 0.5(그림 2에서 점선으로 표시)로 하였다. 즉, t 검정 결과가 유의미하지 않으면 지각이 ‘바’ 또는 ‘파’로 범주화되지 못했음을 의미하게 된다. 검정 결과가 유의미할 경우, 반응 비율이 0.5 미만이면 ‘바’로 범주지각이 되었음을 의미하고 반응 비율이 0.5 초과이면 ‘파’로 범주지각이 되었음을 의미한다. 분석에는 참가자들의 모든 반응(12,000=300수행×40명)이 사용되었다.
그림 2는 청년여성, 청년남성, 노년여성, 노년남성 집단별 반응 비율을 보여준다. 그림 2에서 보여지듯이, 모든 참가자집단에서 F0-연속체 조건의 반응 비율이 VOT-연속체 조건에 비해 급격한 기울기를 갖는다. 즉, F0-연속체 조건의 반응 비율이 VOT-연속체 조건에 비해 우연수준으로부터 더 멀리 떨어져있으며 연속체의 단계에 따라 ‘바’ 또는 ‘파’로 더 잘 범주지각 되었음을 의미한다.
이와 같은 패턴은 통계로도 검증이 되었다. F0-연속체 조건의 경우, 노년여성집단은 모든 단계의 반응 비율이 우연수준과 유의미하게 달랐고, 그 외 나머지 3 집단도 4단계를 제외한 모든 단계의 반응 비율이 우연수준과 유의미하게 달랐다(자세한 통계치는 <부록 1> 참고). 이는 집단 간 반응 패턴이 서로 매우 유사하며, 실험참가자들이 F0값에 근거하여 ‘바’와 ‘파’를 구별하는 데 어려움이 없었음을 시사해준다.
반면 VOT-연속체 조건의 경우, 여러 중간 단계에서 우연수준과 통계적으로 유의미하게 다르지 않은 반응 비율이 관찰되었다(자세한 통계치는 <부록 표 1> 참고). 집단 간에도 다소 차이를 보였는데, 가령 청년여성집단의 경우 3-7단계에 걸쳐 다섯 단계에서 우연수준의 반응 비율을 보였고, 노년남성집단은 세 단계(4–6단계)에서 우연수준의 반응 비율을 보여 가장 큰 집단 간 차이를 보였다. 청년남성집단과 노년여성집단의 경우에는 세 단계에서 우연수준의 반응 비율을 보인 것과 더불어 일부 단계에서는 통계적 경향성(청년남성집단: 6단계, p=.065; 노년여성집단: 7단계, p=.078, 9단계, p=.060)을 보여서 가장 큰 차이를 보이는 청년여성집단과 노년남성집단 중간에 위치하는 모습을 보였다. VOT-연속체 조건의 결과를 종합하면, 실험참가자들이 양극단의 VOT값을 갖는 경우를 제외하고는 VOT값에 근거하여 ‘바’와 ‘파’를 구별하는 데 대체로 어려움을 보였고, 집단 간에도 차이가 존재하였다.
4. 논의
본 연구에서는 한국어 서울 방언의 어두 평음과 격음을 변별 지각할 때 폐쇄음의 VOT와 후행 모음의 F0 변별력이 어떠한 지에 대해 알아보았다. 특히 VOT와 F0 변별력에 있어서 성별과 연령에 따른 차이가 있는 지 확인하기 위하여 청년과 노년 남녀 네 집단을 대상으로 지각 실험을 진행하였다. 그 결과, 모든 집단에서 VOT와 F0가 평음과 격음을 변별하는 데 사용되었고 특히 VOT에 비해 F0의 변별력이 더 큰 것을 확인할 수 있었다. 또한, 성별과 연령에 따른 차이가 F0 변별력에서는 관찰되지 않았으나 VOT의 경우 청년여성 집단에서 가장 낮은 변별력을 보이고 노년남성 집단에서 가장 큰 변별력을 보이는 양상으로 그 차이가 관찰되었다.
2000년 이후 보고되는 다수의 발화 연구는 서울 방언의 어두 평음과 격음 간 존재하던 VOT값의 차이가 최근 줄어들고 있음을 보여주고 있다. 특히 이 변화에서 성별과 연령에 따른 차이가 존재하는 것으로 보고되었는데, 가령 남성에 비해 여성이, 그리고 노년층에 비해 청년층에서 VOT값의 차이가 더 크게 줄어들고 있는 것으로 알려져 있다(Byun, 2016; Kang, 2014; Oh, 2011; Silva, 2006). 본 연구는 이와 같이 발화에서 관찰되는 성별 및 연령별 VOT값의 차이가 지각에서도 동일하게 관찰된다는 것을 보여주었다. 즉, 발화에서 평음과 격음 간 VOT 차이값이 가장 작았던 청년여성층이 지각에서도 가장 작은 평음-격음 VOT 변별력(VOT-연속체 10단계 중 극단에 위치한 5단계에서만 평음 또는 격음으로 범주지각)을 보였고, 발화에서 평음과 격음 간 가장 큰 VOT 차이값을 보였던 노년남성층은 지각에서도 가장 큰 VOT 변별력(VOT-연속체 10단계 중 7단계에서 평음 또는 격음으로 범주지각)을 보였다(발화 결과는 Kang(2014) 연구 참고). 이는 그동안 주로 발화 연구에서 보고되었던 평음-격음 대립의 VOT 사용에 대한 성별 및 연령별 차이를 지각 영역으로 확대하여 그 양상을 살펴보았다는 점에서 의의를 갖는다.
반면, 본 연구에서는 F0의 평음-격음 지각 변별력에 대한 성별 및 연령별 차이를 발견하지 못하였다. 즉, 모든 청년과 노년 남녀 집단에서 F0 변별력이 VOT 변별력에 비해 큰 것으로 나타났으며(모든 집단이 VOT-연속체 조건에 비해 F0-연속체 조건의 더 많은 단계에서 평음 또는 격음으로 범주지각), 모든 집단에서 유사한 크기의 F0 변별력이 관찰되었다(모든 집단이 F0-연속체 10단계 중 9 또는 10단계에서 평음 또는 격음으로 범주지각). 이는 평음-격음 대립 발화에서 보고되는 음향특성(F0, VOT)의 변화가 지각에서도 관찰되는 지를 다룬 기존 지각실험 연구 결과와 일부 일치한다. 구체적으로, Kang(2010)에서는 평음-격음을 변별 지각할 때 다양한 음향특성(F0, VOT, H1-H2)의 변별력이 연령층에 따라 다른지를 알아보았다. F0와 VOT를 다양한 크기로 조작한 자극을 이용하여 청년층과 노년층을 대상으로 평음과 격음 지각 실험을 실시한 결과, 본 연구의 결과와 유사하게 청년과 노년의 모든 집단에서 F0가 VOT에 비해 더 강한 평음-격음 변별력을 보였다. 정리하자면 본 연구 결과는 VOT에 비해 상대적으로 강한 F0의 지각 변별력이 청년과 노년에 걸쳐 나타나는 현상임을 재검증해주었으며 나아가 남성과 여성 모두에서 관찰되는 현상임을 보여줬다는 점에서 의의가 있다.
본 연구에서는 F0 변별력 크기에 있어서 성별 및 연령별 집단 간 차이를 발견하지 못하였다. 반면에 Kang(2010)에서는 청년층이 노년층에 비하여 F0의 평음-격음 지각 변별력이 더 크다는 결과를 보고하고 있다. 이와 같은 차이를 설명할 수 있는 한 가지 요인은 두 연구의 서로 다른 실험 절차일 수 있을 것이다. Kang(2010)에서는 들려준 자극에 대해 평음, 격음 또는 경음의 세 가지 선택지 중에서 판단을 하도록 하는 실험 절차를 사용하였다. 반면 본 연구에서는 평음 또는 격음 둘 중에서 선택을 하도록 하였는데, 이와 같은 적은 선택지(3개 vs. 2개)로 인해 본 연구의 과제수행에 필요한 인지적 부하가 Kang(2010)에 비해 상대적으로 낮았을 것으로 보인다. 즉, 본 연구에서 비교적 쉬운 실험 절차로 인해 집단(특히, 연령층) 간 차이를 발견하지 못했을 가능성을 배제할 수 없다.
마지막으로, 본 연구에서는 실험 자극 녹음에 한 명의 젊은 여성 화자만 참여하였다는 점과 연령별 집단의 수가 청년층과 노년층뿐이었다는 한계점이 있다. 추후 연구에서 다양한 연령층의 남녀 녹음을 통해 보다 다양한 실험 자극을 활용하고, 실험 참가자의 연령대 역시 10대 청소년층, 30-40대 중년층, 그리고 70대 이상 고령층 등으로 확대하여 데이터를 수집한다면 서울 방언의 어두 평음과 격음 지각의 양상에 대한 이해를 넓힐 수 있을 것으로 기대된다.