1. 서론
비음(nasal)은 폐에서 성대를 거쳐 나온 공기의 흐름이 개방된 연인두문을 통해 비강 통로로 방출되어 생성되는 말소리 부류이다. 구강 폐쇄를 동반하는 비자음(nasal consonants)의 경우, 구강에서 능동 조음기인 입술 또는 혀가 특정 조음점에 폐쇄를 형성함으로써 구강이 특정 길이의 곁가지(side branch)로 기능하게 되고, 이는 비음의 음향적 특성인 반포먼트 형성으로 이어진다. 이때 비음 포먼트 및 반포먼트(anti-formant) 주파수를 결정하는 데 구강 내 조음점의 위치가 관여하게 된다(Fujimura, 1962).
한편 비강과 구강이 모두 개방되면 비모음(nasal vowels)이 생성된다(House & Stevens, 1956). 프랑스어와 같이 음운적으로 구강 모음과 대립되는 비모음이 있는 언어와 달리, 한국어의 단모음 및 이중모음은 모두 구강 모음으로 구성되어 있다. 그러나 모음의 비음화, 즉 비모음화(vowel nasalization)는 개별 화자 특성뿐 아니라 모음의 주변 환경, 즉 전후 분절음 조건에 의해서도 일어날 수 있다. 이는 공조음(동시조음, coarticulation)과 관련이 있다. 환경에 의해 비음화된 모음(nasalized vowels)의 경우, 비모음화의 원인으로 작용하는 주변 비자음의 연구개 상승 및 하강에 의한 비강 통로 개폐 움직임, 비자음 산출 시 구강 통로를 막기 위한 입술 또는 혀의 움직임, 그리고 해당 모음 산출을 위한 혀의 고저 및 전후 움직임이 복합적으로 관여하게 된다.
한국어 비자음 부류의 조음위치를 변별하기 위한 음향적 특성(Choi & Seong, 2006; Kurowski & Blumstein, 1987; Park, 2005) 또는 지각적 특성(Harnsberger, 2000; Kurowski & Blumstein, 1984; Repp & Svastikula, 1988)에 대한 연구는 이전부터 이루어졌으며, 기계 음성인식 분야에서도 비음 분류를 위한 연구가 수행되었다(Kitazawa & Doshita, 1984; Seitz et al., 1990). 다수의 음향 연구는 비자음 그 자체를 분석 대상으로 삼았는데, 본 연구에서는 공조음 효과에 착안하여 비자음 주변에 위치한 모음을 분석함으로써 비자음 조음위치에 대한 음향 단서를 찾고자 한다.
이와 관련된 선행연구로, 비음 murmur와 자음-모음 간 경계, 이 두 가지 요소가 [m]과 [n]의 조음위치 변별에 유효하다는 보고에 기반하여 Harrington(1994)은 연속 발화에서 음절초 및 음절말 비자음을 분석하였다. 이를 위해 비음 murmur의 스펙트럼과 모음의 스펙트럼 정보 간의 차를 분석하고, 또한 두 스펙트럼 간의 합, 그리고 비자음 또는 모음의 정적 스펙트럼 정보를 바탕으로 분류를 실시하였다. 비음과 모음 스펙트럼 간의 차는 둘 중 하나의 정적 스펙트럼과 비교해도 분류 성능이 낮았으나, 두 스펙트럼의 합은 비음 조음위치 분류에 가장 높은 정확도를 보였다. 스펙트럼 합 가운데 비자음 조음위치 변별 정확도가 가장 높았던 예에서는 음절초 조건에서 94%를 약간 밑돌았고 음절말 조건에서 82%에 조금 못 미치는 수준으로 높게 나타났다.
비음 [m], [n]은 배경 소음이 있을 때 특히 혼동되기 쉬운데, 이는 말소리 지각, 외국어 습득, 기계 음성인식 등에서 어려움으로 작용할 수 있다. CV 음절에 소음을 합성하여 비자음 조음위치 지각에 미치는 영향을 조사한 선행 연구에서 모음-환경 효과가 강하게 나타났는데, /Ca/ 및 /Cu/의 경우에는 모음 포먼트 전이 정보가 비음 murmur보다 결정적으로 작용하였고, /Ci/의 경우에는 포먼트 전이와 비음 murmur가 모두 중요한 요인으로 확인되었다(Alwan et al., 1999).
인접한 자모음 간의 영향과 관련하여 나타나는 경향성, 그리고 공조음의 정도 및 방향성은 언어마다 차이가 있다. 한 예로서 파열음이 모음 길이에 미치는 영향을 연구한 Oh(2002)에서는 영어와 한국어 화자의 CVC 단음절 발화를 비교했을 때 조음위치에 따른 모음 길이의 상대적 순서는 두 언어 간에 차이가 있음을 확인하였다. 이때 영어에서는 기존 선행연구(House & Fairbanks, 1953 등)에서 보고된 바와 같이 음절초 자음의 조음위치가 후속 모음 길이에 미치는 영향이 미미한 반면에 음절말 조음위치의 영향이 두드러졌다. 그러나 한국어에서는 조음위치에 따른 영향이 덜 일관적이었고, 화자 간 개인차가 있었다(Koo, 1998; Oh, 2002). 이는 공조음의 영향과 패턴이 언어 보편적이 아니라 개별적일 수 있음을 보여준다.
본 연구의 주제인 비자음 조음위치 변별에 효과적인 요소(feature)로 아래 세 가지를 들 수 있다(Kitazawa & Doshita, 1984).
여기에서 (2)와 (3)은 자음에 뒤따르는 모음에 관련된 요소인데, 대개 자음과 인접한 구간에서 측정되며 이 점은 위에서 언급한 Alwan et al.(1999), Harrington(1994)에서도 확인할 수 있다.
그러나 비자음은 후속 모음의 스펙트럼 구조에 보다 포괄적인 영향을 미칠 수 있다. Dutta & Pandey(2015)는 비음화된 모음 종류를 변별하기 위해 머신 러닝 알고리즘을 사용하여 낭독발화 코퍼스 자료에서 전후 비자음 환경에 의해 비음화된 모음에 대하여 분류를 수행하였다. 이때 모음에서 측정된 스펙트럼 및 시간 영역의 음향변수 H1, H2, F1, P0, P1, A1-P0, A1-P1, 모음 지속시간, 그 외 비음화 방향성 및 분절음 등 총 15개 예측 변수가 훈련에 사용되었다(상기 매개변수에 대한 설명은 아래 2.2절 표 1 참조). 그 결과 양순음 [m] 환경에서 치조음 [n] 환경에 비해 주변 모음 /i/, /e, /a/, /o/, /ɔ/, /u/ 간의 분류 정확도가 높았다. 자음 조음위치가 주변 모음의 포먼트 전이에 미치는 영향이 조음 제약의 정도에 따라 다르다는 가설(degree of articulatory constraint, DAC; Recasens et al., 1997)에 따르면 양순음이 치조음에 비해 주변 모음에 공조음에 의한 영향을 덜 미치는데, 이에 상응하는 결과이다. 단, NV와 VN 환경에서 모음 분류 정확도가 어떻게 다른지 비교했을 때 서포트 벡터 머신[support vector machine (SVM)]과 나이브 베이즈 분류기[Naive Bayes classifier(NB)]의 분류 결과가 상반되게 나타났기 때문에 순행적 비음화와 역행적 비음화 중 어느 쪽이 모음 종류 변별에 더 큰 영향을 미치는지에 관한 일반적인 결론을 도출할 수 없었다(Dutta & Pandey, 2015).
Adapted from Styler (2017a).
종합하면 여러 선행연구에서 비음 murmur, 그리고 비음과 주변 모음 사이의 전이 구간에서 얻은 스펙트럼 매개변수를 활용하여 비자음의 조음위치를 분류할 수 있음을 보였으며, 또한 주변 비자음의 영향을 받아 환경적으로 비음화된 모음은 전후 비음의 조음위치에 따라 공조음의 정도가 다를 수 있고, 그 결과 해당 모음의 음운적 분류정확도에 차이를 보일 수 있음을 확인하였다. 이때 순행과 역행적 비음화가 모음에 미치는 영향은 분석 방법에 따라 다른 결과를 얻을 가능성이 있으므로 다양한 방식으로 살펴볼 필요가 있는 것으로 보인다.
본 연구에서는 비자음 조음위치를 반영하는 지표로서 한국어 대용량 발화자료에서 추출한 모음을 음향 분석하고 이를 바탕으로 판별 분석을 수행하여 순행 및 역행적 공조음의 영향을 고찰하였다. 통계분석을 위한 예측자로 모음의 스펙트럼 및 시간 특성과 관련된 여러 음향 매개변수를 이용하였는데, 이들 변
수의 측정을 위하여 비모음화 측정에 특화된 Will Styler의 프랏(Praat; Boersma, 2001) 스크립트(Styler, 2017a)를 사용하였다.
2. 연구 방법
모음의 스펙트럼 및 시간 정보 획득을 위해 대용량 말소리 자료를 분석하였다. 분석 대상인 한국어 자연발화 음성코퍼스(서울 코퍼스; Yun et al., 2015)는 주어진 주제와 관련하여 10, 20, 30, 40대 각각 남녀 5명으로 구성된 총 40명의 화자가 인터뷰어를 상대로 정해진 대본 없이 자유롭게 발화한 음성 자료를 담고 있다. 또한 자동 및 수동으로 부여한 언어 부기 정보를 함께 제공하는데, 본 연구에서는 이 부기 정보를 분석에 이용하였다.
이때 비음화가 스펙트럼에 미치는 양상 및 포먼트 측정 오류의 발생 빈도가 모음의 종류에 따라 다를 수 있을 것이라 예상하였다. 특히 본 연구에서는 대용량 자연발화 자료를 다루므로 낭독체 발화에 비해 보다 높은 측정 오류율이 예상됨에 따라, 4개 연령군 각 10명 화자의 발화자료를 모두 사용하되, 측정 대상 모음을 비교적 안정적으로 포먼트 측정이 가능할 것으로 기대되는 /ㅏ/ 모음으로 제한하였다.1
분석 대상 추출 조건은 전후에 자음이 위치하여 CVC 구조를 이루는 /ㅏ/ 모음이다(예: ‘일단’의 모음 /a/). 이때 자음과 모음 사이 또는 모음과 자음 사이에 음운단어의 경계가 위치하는 경우도 허용하였다(예: 각각 ‘엄마랑 아빠의’의 /-ŋap’-/, ‘제가 만들어’의 /-kam-/). 다시 말해 C1VC2 구조에서 C1이 반드시 어두 자음이 아닐 수 있으므로 /ŋ/도 출현할 수 있으며, C2 역시 모음과 같은 음절의 어말 자음이 아닐 수 있다.
모음 주변의 자음(C)은 양순음 /m, p, p’, ph/, 치조음 /n, t, t’, th, s, s’/, 연구개음 /ŋ, k, k’, kh/이다. 이들 분절음 중 비음 부류를 N으로, 구강 장애음 부류를 C로 표기하여 NVC, CVN과 같이 나타낼 것이다.
모음의 음향 매개변수 측정에는 프랏 스크립트 ‘Nasality Automeasure Script Package’(Version 5.9; Styler, 2017a)를 사용하였다(https://github.com/stylerw/styler_praat_scripts). 이 스크립트는 모음의 비음화 측정에 사용되는 스펙트럼 변수와 이를 계산하기 위한 다양한 스펙트럼 정보 및 지속시간 정보를 구하여 기록한다. 본 연구에서 사용하는 음향 매개변수는 총 29개이며, 상세한 내용은 표 1과 같다. 이때 P0는 250 Hz 부근에서 나타나는 제1 비음포먼트, P1은 대략 950 Hz 부근(790–1,100 Hz 대역)에서 나타나는 것으로 예측되는 제2 비음포먼트이다(Chen, 1995; Styler, 2017b:2470, 그림 1 참조). 그림 1은 비자음의 후행모음 시작부에서 얻은 스펙트럼의 예시로, 비음화된 /ㅏ/ 모음의 스펙트럼에 나타나는 비음 포먼트를 보여준다.
위 스크립트는 정해진 시점(timepoint)에서 가장 가까운 반복 파형을 복제하여 0.5초 길이의 완전히 주기적 파형을 만든다. 여기에서 프랏의 기능을 이용해 제 1포먼트와 기본주파수를 측정한다. 추정된 기본주파수와 가장 가까운 주파수값에서 최대 진폭인 H1을 구하고, 기본주파수 값의 2배에서 가장 가까운 주파수의 최대 진폭 H2를 구한다. 이와 같은 작업을 linear predictive coding의 F1값보다 작은 조화음에 대해 차례로 수행한다. 단, P1은 사용자가 설정한 주파수를 기준으로 위아래 각각 1 조화음 범위에서 찾는다. 기본주파수 및 포먼트 설정값은 기본값을 사용하였다.
스크립트를 실행하여 측정한 말소리 원자료는 위 2.1절에서 기술한 조건에 해당되는 /ㅏ/ 모음 토큰 45,227개이다. 원래 코퍼스에서 추출된 /ㅏ/ 토큰의 수는 45,232개였으나, 음향 매개변수 측정 시에 실수로 5개 토큰이 측정 대상에서 누락된 결과이다. 이 자료 수에는 NVN, NVC, CVN, CVC 조건 시료가 포함되어 있는데, 본 연구의 분석 범위는 다음에 기술한 바와 같이 NVC와 CVN으로 제한하였다.
Styler(2017a) 스크립트 실행 시 측정 오류 가능성이 있는 자료를 표시해주는 errorflag 변수에서 오류 보고가 없는 자료만을 추출하여 통계 분석 대상으로 하였다. 이때 모음 정중 구간에서 얻은 NVC 조건의 자료 수는 4,317개, CVN 조건은 8,214개이다. 또한 모음 25% 구간에서 얻은 NVC 조건 자료 수는 4,366개, 모음 75% 구간에서 측정한 CVN 조건의 자료 수는 7,891개이다.
SPSS에서 선형판별분석(linear discriminant analysis)을 수행하였다. NVC 또는 CVN 환경에서 비음화 측정 스크립트(Styler, 2017a)에 의한 측정 결과 ‘errorflag’가 없는 데이터만 추출한 뒤 모음 구간의 정중(50%) 시점에서 전술한 판별 음향변수 29개(표 1)를 투입하여 모음을 선행하는 비음의 세 가지 조음위치(NVC 환경)와 후행 비음의 세 가지 조음위치(CVN 환경)를 분류하는 선형판별분석 작업을 1차적으로 수행하였다. 모음의 정중 구간을 측정구간으로 삼은 것은 선행, 후행 비음의 특징을 가장 객관적으로, 또한 중립적으로 관찰할 수 있는 위치이기 때문이다.
2차 판별분석에서는, 선행비음의 조음위치는 모음의 1/4 구간(25% 포인트)에서, 후행비음의 조음위치는 모음의 3/4 구간(75% 포인트)에서 음향변수를 측정하였다. 자음에 상대적으로 가까운 구간에서 추출한 음향변수이므로 조음위치 분류정확도가 상대적으로 더 높을 것이라는 가정이 가능하다. 모음의 1/4 지점과 3/4 지점 추출 변수 중 분류정확도가 더 높은 지점이 결정된다면 조음위치 관점에서의 공조음(coarticulation) 현상이 선행자음과 더 연관성이 높을지 아니면 후행자음과 더 관련이 될지를 추정해볼 수 있을 것이다.
3. 결과
NVC 환경 모음의 정중 지점(50% 포인트)에서 29개 음향변수들을 측정하여 단계투입(stepwise) 방식으로 선형판별분석을 시행한 결과 윌크스 람다값을 이용한 집단 평균 동질성 검정에서 29개 변수 중 5개 변수, 즉 width_f2(p=.091), freq_f3(p=.060), p0_ prominence(p=.119), a3p0(p=.172), vwl_amp_rms(p=.439)를 제외한 24개 변수가 유의하다고 판명되었다(p<.05). 15번째 단계 모형에서 종료된 판별분석 모형은 유의하였으며(Wilks’ λ=.836, X2=769.466, p<.001) 각 조음위치 집단의 중심점(centroid) 결정에 관여하는 정준판별함수는 식 (1)과 같이 출력되었다.
구조행렬(structure matrix)의 판별적재(discriminant loading) 값에 근거하여, NVC 환경의 모음 정중 지점에서 추출된 15가지 음향변수들의 비음 조음위치 결정 기여 순위를 정리해보면 표 2와 같다. 선형판별분석 결과, 15개 음향변수를 활용한 NVC 환경에서의 비음 조음위치 분류정확도는 양순비음은 49.6%(820/ 1,654), 치조비음은 55.2%(1,054/1,909), 연구개비음은 45.2%(341/ 754)였으며 이 결과를 종합한 전체 분류정확도 (classification accuracy)는 51.3%였다(표 3).
CVN 환경 모음의 정중 지점(50% 포인트)에서 29개 음향변수들을 측정하여 단계투입 방식으로 선형판별분석을 시행한 결과 윌크스 람다값을 이용한 집단 평균 동질성 검정에서 29개 변수 중 10개 변수, 즉 freq_f1(p=.575), width_f2(p=.505), freq_h1(p= .076), amp_h1(p=.079), freq_h2(p=.122), amp_p0(p=.073), freq_p0 (p=.773), a1p0_h3(p=.072), a3p0(p=.215), vwl_amp_rms(p=.059)를 제외한 19개 변수가 유의하다고 판명되었다(p<.05). 17번째 단계 모형에서 종료된 판별분석 모형은 유의하였으며(Wilks’ λ=.849, X2=1,340.005, p<.001) 각 조음위치 집단의 중심점 결정에 관여하는 정준판별함수를 식 (2)에 나타내었다.
구조행렬의 판별적재값 기준 CVN 환경의 모음 정중 지점에서 추출된 17가지 음향변수들의 비음 조음위치 결정 기여 순위는 표 4와 같다. 선형판별분석 결과, 17개 음향변수를 활용한 CVN 환경에서의 비음 조음위치 분류정확도는 양순비음에서 39.7%(801/2,019), 치조비음에서 60.4%(2,914/4,826), 연구개비음에서 48.1%(658/1,369)였으며 이 결과를 종합한 전체 분류정확도는 53.2%였다(표 5).
NVC 환경 모음 구간의 25% 시점에서 29개 음향변수들을 측정하여 단계투입 방식으로 선형판별분석을 시행한 결과 윌크스 람다값을 이용한 집단 평균 동질성 검정에서 29개 변수 중 3개 변수, 즉 width_f1(p=.895), amp_h3(p=.190), vwl_amp_ rms(p=.766)를 제외한 26개 변수가 유의하다고 판명되었다(p<.05). 16번째 단계 모형에서 종료된 판별분석 모형은 유의하였으며(Wilks’ λ=.752, X2=1,244.023, p<.001) 각 조음위치 집단의 중심점 결정에 관여하는 정준판별함수는 식 (3)과 같이 나타낼 수 있다.
NVC 환경의 모음 25% 지점에서 추출된 16가지 음향변수의 비음 조음위치 결정 기여 순위를 구조행렬의 판별적재값에 근거한 정리한 결과는 표 6과 같다. 선형판별분석 결과, 16개 음향변수를 활용한 NVC 환경에서의 비음 조음위치 분류정확도는 양순비음은 50.0%(828/1,656), 치조비음은 66.4%(1,294/1,950), 연구개비음은 46.8%(356/760)였으며 이 결과를 종합한 전체 분류정확도는 56.8%였다(표 7).
CVN 환경 모음 구간의 75% 시점에서 29개 음향변수들을 측정하여 단계투입 방식으로 선형판별분석을 시행한 결과 윌크스 람다값을 이용한 집단 평균 동질성 검정에서 29개 변수 중 4개 변수 freq_h1(p=.115), freq_h2(p=.120), freq_p0(p=.836), a3p0 (p=.062)를 제외한 25개 변수가 유의하다고 판명되었다(p<.05). 18번째 단계 모형에서 종료된 판별분석 모형은 유의하였으며(Wilks’ λ=.767, X2=2,093.394, p<.001), 각 조음위치 집단의 중심점 결정에 관여하는 정준판별함수는 식 (4)와 같다.
CVN 환경의 모음 75% 지점에서 추출된 18가지 음향변수들의 비음 조음위치 결정 기여 순위를 구조행렬 판별적재값에 근거하여 표 8에 정리하였다. 선형판별분석 결과, 18개 음향변수를 활용한 CVN 75% 측정 환경에서의 비음 조음위치 분류정확도는 양순비음은 46.6%(897/1,925), 치조비음은 67.0%(3,145/4,696), 연구개비음은 46.5%(591/1,270)였으며 이 결과를 종합한 전체 분류정확도는 58.7%였다(표 9).
4. 논의 및 결론
본 연구에서는 한국어 비자음 특성을 규명하는 연구의 일환으로 모음에서 측정된 음향 스펙트럼 매개변수가 전후 비음의 조음위치에 대한 신호로서 기능할 수 있는지, 만약 그렇다면 어느 정도의 효과가 기대되는지 탐색하기 위한 분석을 수행하였다. 낭독체 발화에 비해 조음 시의 변이 폭이 큰 자연발화 말뭉치 자료(Yun et al., 2015)를 분석하여 얻은 다양한 음향 매개변수를 선형판별분석의 예측변수로 투입하여, NVC 환경과 CVN 환경에서 각각 모음 스펙트럼 변수들의 조합이 선행 또는 후행 비음의 조음위치를 추정하는 데 어떻게 기여하는지 알아보았다.
각각의 개별 판별분석에 초기 투입된 음향 매개변수의 수와 종류는 29개로 모두 동일하였으나, 단계 선택 방식을 사용하였을 때 최종 선택된 모형에 포함된 음향 매개변수의 수, 종류, 판별적재값은 모형마다 다르게 나타났다. (1) NVC 환경에서 모음 구간 50% 시점, (2) CVN 환경에서 모음 구간 50% 시점, 추가로 (3) NVC 환경에서 모음 구간 25% 시점, (4) CVN 환경에서 모음 구간 75% 시점에서 각각 얻은 비음화 관련 매개변수 측정값으로 판별분석을 수행하였을 때 비음의 조음위치 분류 작업에서 모두 50%–60% 사이의 정확도를 보였으며 구체적으로는 모형 (4)>(3)>(2)>(1) 순으로 높게 나타났다. 이 결과는 모음 내에서 자음에 가까운 구간일수록 해당 자음의 조음위치에 대한 정보를 더 많이 담고 있을 것이라는 예측과 일치한다. 또한 /ㅏ/ 모음이 선행 비자음보다는 후행 비자음의 조음위치에 더 많은 영향을 받았음을 보여준다.
주변 자음의 영향을 가장 적게 받을 것으로 예상되는 모음 정중 구간에서 얻은 측정치를 이용하여 판별분석을 수행하였을 때 NVC 환경에서 모음에 선행하는 비자음의 조음위치 분류정확도는 51.3%였다. 정확도의 순위는 치조>양순>연구개 비음 순이었다. NVC 모음 25% 시점 측정치에 따른 분류정확도는 56.8%, 정확도 순위는 치조>양순>연구개 비음 순으로 동일하다.
CVN 환경의 모음 정중 구간 측정치에 기반한 후행 비음 조음위치 분류정확도는 53.2%로, 조음위치 범주별 분류정확도는 치조>연구개>양순 비음 순이었다. 이때 정확도가 가장 높은 치조비음 환경은 60.4%, 가장 낮은 양순비음은 39.7%로, 앞선 NVC 분석 결과에 비해 범주 간의 분류정확도 차이가 큰 편이었다. 전체 분류정확도 58.7%를 보인 CVN 환경의 모음 25% 시점 측정치 판별분석에서 범주별 정확도는 치조>양순>연구개 순으로, 치조비음 분류정확도는 67.0%에 달했다. 양순과 연구개 비음은 정중 구간 결과와 순위가 뒤바뀌기는 하였으나 각각 46.6%, 46.5%로 매우 근소한 차이에 불과했다.
분석 전체에서 공통적으로 치조비음의 분류정확도가 가장 높았다. 이는 분석에 투입된 조음위치 범주별 자료 수의 순서와도 일치하기에 자료 수의 크기로 인한 효과의 교락이 있을 가능성도 배제할 수 없으나, 해당 결과는 공조음의 조음 제약 정도 모형(DAC; Recasens et al., 1997)이 예측하는 결과와 합치한다. 바로 혀등(tongue dorsum)을 덜 사용하는 분절음일수록 공조음 저항성(resistance)이 크며, 이 저항성은 주변에 공조음화를 일으키는 공격성(aggressiveness)과 정적 상관관계가 있다는 것이다. 이에 따르면 혀 앞쪽으로 조음하는 치조음은 양순음이나 연구개음에 비해 제약이 크고 주변 분절음의 영향을 덜 받으며, 상대적으로 제약이 작은 후설모음이나 중설모음의 혀 위치에 영향을 미치기 쉽다(Recasens & Espinosa, 2009).
NVC와 CVN 환경을 비교하였을 때, CVN 환경에서 공통적으로 비음 조음위치 분류정확도가 더 높게 나타났다. 따라서 조음위치의 관점에서 역행적 동화의 영향이 더 강한 것으로 해석할 수 있다. 단, 분석에 투입한 CVN 환경의 자료 수가 NVC에 비해 약 두 배에 조금 못 미치는 정도로 많았기 때문에 자료 수의 차이가 결과에 영향을 미쳤을 가능성도 있다.
Dutta & Pandey(2015)에서는 모음 /i/, /e, /a/, /o/, /ɔ/, /u/ 범주 간의 분류정확도를 NV와 VN 환경으로 나누어 추정함으로써 모음에 대한 순행적 공조음과 역행적 공조음의 영향력을 비교하고자 하였는데, 머신 러닝 기법 SVM과 NB 분류기를 사용한 두 가지 분석에서 서로 상반된 결과를 얻었다. 전반적으로 분류 성능이 더 우수했던 SVM에서는 NV 환경의 모음 범주 분류정확도가 94.8%로 VN 환경의 87.5%에 비해 더 높았다. 반면 NB 분류기에서는 NV 환경의 69.2%에 비해 VN 환경에서 85%로 더 높았다. 만약 Dutta & Pandey(2015)의 초기 가정이 성립한다면 주변 비자음으로부터 공조음화 압력을 더 크게 받는 경우에 모음 범주 분류정확도가 낮아질 것이라고 예측할 수 있다. 이에 따르면 SVM 결과에서는 모음에 대한 비자음의 역행적 영향력이 상대적으로 더 크고 NB 분류기 결과에서는 모음에 대한 비자음의 순행적 영향력이 상대적으로 더 크다는 해석이 가능하다. 따라서 본 연구에서 확인된 공조음의 방향성은 SVM의 결과와 일치한다고 할 수 있다. 단, Dutta & Pandey(2015)의 해당 분석에서는 비음성과 조음위치가 복합적으로 관여한 것으로 보이나, 본 연구에서는 조음위치의 영향으로 제한하여 방향성을 비교했다는 차이가 있다는 점을 유념해야 할 것이다.
한편, 통계 모형의 상세 내용을 살펴보면 네 벌의 선형판별분석에서 모두 공통적으로 제2 포먼트(freq_f2)가 가장 높은 판별적재값을 보였다. 즉, 전후 비음의 조음위치 분류·예측에 가장 효과적으로 기여한 변수는 모음의 F2값이다. 구강 자음 또는 비자음의 F2 로커스(locus)와 인접 모음의 F2 궤적이 조음위치의 음향 및 지각적 단서가 됨을 보인 선행 연구(Delattre et al., 1955; Nakata, 1959 등)와 연관지어 이해할 수 있는데, 본 연구에서 F2 효과는 전후 자음의 영향이 큰 모음 주변부뿐만 아니라 모음 중앙에서도 확인되었다.
예컨대 NVC 환경의 /ㅏ/ 모음 정중 구간에서 F2 평균은 어두자음 N이 양순비음일때 1,296.77 Hz(±347.50), 치조비음일 때 14,20.85 Hz(±259.22), 연구개음일 때 1,300.89 Hz(±342.60)로 치조음에서 높게 나타났다. 단, 연구개비음 /ŋ/의 후행모음 F2 평균 및 표준편차는 양순비음 /m/의 후행모음과 큰 차이를 보이지 않았다. 이 경향은 NVC 환경의 모음 25% 시점 측정값에서도 유사한데, 이때 모음 F2 평균은 선행자음 N이 양순비음일때 1,267.00 Hz(±338.39), 치조비음일 때 1,474.86 Hz(±252.88), 연구개비음일 때 1,266.99 Hz(±323.23)로, 정중 구간 F2 평균값과 비교하여 치조음 조건은 더 높고 양순음과 연구개음 조건은 조금 낮은 정도였다. 양순비음과 연구개비음 조건 간의 차이는 정중 구간과 마찬가지로 미미하였다. 이 양상은 필리핀어 여성화자 1인이 발화한 NV 음절 경계의 F2 값에서 대략 1,300 Hz 부근에 [ma], 1,700 Hz 전후에 [na]와 [ŋa]가 분포하는 선행연구(Narayan et al., 2010)의 보고와는 차이가 있다.
다음으로 비음화 추정과 관련하여 대표적인 3가지 스펙트럼 변수를 비교하면, 각 판별분석마다 기여도의 순위는 달랐으나 A1-P1(a1p1) 및 보정된 A1-P1의 적재값이 전체적으로 높았던 반면, A1-P0(a1p0) 및 A3-P0(a3p0) 관련 변수들은 상대적으로 낮게 나타났다. 따라서 비음화 모음 측정에 사용되는 이들 3가지 스펙트럼 변수 중 A1-P1 계열 변수가 전후 비음의 조음위치를 가장 잘 반영한다고 할 수 있다. 뒤집어 이야기하면, 모음의 비음화 정도를 추정하기 위한 지표로서 해당 변수를 사용하는 경우 그 값이 전후 자음의 조음위치에 따라 영향을 받기 쉽다고도 생각해볼 수 있다.
본 연구에서는 조건별 분석 방법을 통일하여 일관적으로 적용하고 각 판별분석 내에서 개별적으로 유효한 변수를 걸러내고자 29개 매개변수를 일괄 투입하였으나, 이 중에는 ‘A1-P1’ (a1p1)과 ‘보정된 A1-P1’(a1p1_compensated)과 같이 다중공선성이 예상되는 변수들이 포함되어 있다. 예컨대 모음 정중 구간 NVC 환경의 정준판별함수에서 변수 a1p1과 a1p1_compensated 간에 부호 방향이 반대로 나타남을 볼 때, 두 변수 간의 상관성이 추정된 계수에 영향을 미쳤을 가능성도 예상된다. 따라서 다른 변수 조합을 사용하여 분석을 수행한다면 각 변수의 기여도가 본 연구 결과와 어느 정도 차이를 보일 수도 있다.
결과적으로 모음 구간의 측정값만으로 전후 비자음의 조음위치를 정확히 추정하기에는 어려움이 예상된다고 정리할 수 있다. 그러나 비자음 그 자체가 아닌 인접 분절음, 즉 모음구간에서 얻은 스펙트럼 및 지속시간 정보만으로 상술한 바와 같이 우연 확률(1/3)을 훨씬 웃도는 분류정확도를 보였음을 고려할 때, 자음에서 얻은 스펙트럼 정보와 함께 활용함으로써 비자음의 기계적 분류 및 인식 정확도 개선에 기여할 수 있을 것으로 기대된다.
만약 본 연구가 비음의 조음위치를 직접적으로 분류하는 작업 자체에 목적을 두었다면, 분류에 기여하는 변수를 찾는 과정, 그리고 그 변수들을 이용해서 판별분석을 하는 과정으로 기술했을 것이다. 이 경우 해당 판별식과 변수가 가지는 가치들을 입증하기 위하여 변수의 과적합(overfitting)을 조정하고, 데이터셋을 70% 훈련 셋과 30% 테스트 셋으로 나누어 분류정확도를 보고하는 방식을 취했을 것이다. 더 나아가 서포트벡터머신(support vector machine) 또는 랜덤포레스트(random forest)와 같이 기계 학습에 특화된 모형과 비교하는 방식으로 진행했을 것이다. 그러나 현 논문은 판별분석을 이용하여 각 음향 변수의 기여도를 추정한 후 자연발화에서 공조음 효과가 모음 안정구간에 미치는 영향을 확인하였으며 조음위치 측면에서 비음과 모음의 관계성을 동화의 방향성과 관련하여 고찰하기 위하여 코퍼스를 이용한 분석을 수행하고 그 경향성을 보고하는 데 중점을 두는 방식으로 진행을 하였다. 비음과 관련된 후속 논문에서는 현 논문에서 다룬 음향변수들과 함께 또 다른 음향변수들을 탐색하여 조음위치에 따른 비음 자체의 분류를 주제로 진행해보고자 한다.