1. 서론
인간이 태어나 첫 낱말을 말하기 전까지 아기는 옹알이와 같은 발성(vocalization)을 통해 자신의 의사를 표현한다. 목소리는 대부분의 인간이 태어나서부터 죽기 전까지 사용하는 중요한 의사표현수단이다(Pyo & Sim, 2007). 우리는 다른 사람과의 사회적인 관계 속에서 의사소통이 필요하고, 자신의 의견 표현 및 다른 사람 의견에 반응하기 위한 방법으로 음성을 사용한다(Lee et al., 2012). 이처럼 음성은 우리 삶에 있어 없어서는 안 될 중요한 요소이며, 직업생활을 유지하기 위해 음성 사용이 필수적인 사람들에게는 더 큰 영향을 끼친다(Kim, 2007).
자신의 음성에 문제가 있다고 생각하거나 실제로 음성 산출에 어려움을 겪는 경우, 특히 직업적으로 목소리를 많이 사용 하는 경우 음성의 미세한 변화나 문제에도 일반 사람들에 비해 민감하게 반응하고 그것을 핸디캡으로 생각할 수 있다(Lee et al., 2018). 음성의 문제가 직업을 유지하는 데 방해가 되는 사람을 직업적 음성사용자(professional voice user)라고 한다(Koufman & Isaacson, 1991). 가수, 배우, 교사, 목사, 콜센터 직원 등이 직업적 음성사용자에 속하며 전체 직업군의 25%–30%를 차지한다(Lee et al., 2019). 직업적 음성사용자는 환경적 요인과 기능적 요인으로 인하여 음성 장애가 발생할 가능성이 일반인보다 높다. 음성 피로가 있는 사람들이 주로 나타내는 증상은 발성노력과 후두 불편함 증가, 음도의 범위와 유연성 감소, 음량과 음성 조절력 감소, 음성을 사용한 날 음성 피로 증상의 증가, 휴식 후 증강의 개선 등이 있다고 한다(Solomon, 2008).
언어재활사 또한 이러한 직업적 음성사용자 중 하나다. 언어재활사는 언어치료나 평가 시 언어적 자극 제시와 치료 대상자의 반응을 유도하기 위해 음성을 사용한다. 치료과정에서 언어적 모델링과 자발적 언어 표현 유도를 위한 언어적, 환경적 맥락의 구조화가 필요하고 대상자나 보호자와의 상담 등 업무 수행을 위해서도 지속적인 음성 사용이 필요하다(Kim & Choi, 2018). 또 언어재활사는 업무의 특성상 짧게는 30분에서 길게는 90분 이상의 치료 또는 평가가 진행되고 회기가 연속적으로 이루어지는 경우가 많다. 그리고 직업의 특성상 상대적으로 크고 높은 목소리로 힘주어 말하는 경향이 있어 음성 피로에 노출되기 쉽다. 그래서 음성 사용이 많은 다른 직업군이나 일반 직업군에 비해 음성 문제를 경험한 경우가 많고, 음성 장애를 느끼는 주관적 음성 증상 유병률이 61.6%로 다른 직업군에 비해 높다(Song & Pyo, 2010).
Kim & Choi(2018)의 연구에서 언어재활사들이 호소하는 주관적 음성 증상은 음성피로감(55.6%, 104명), 쉰 목소리(50.3%, 94명), 말할 때 힘이 들어감(49.2%, 92명), 거친 음성(41.7%, 78명), 말할 때 통증(35.3%, 66명), 말할 때 힘이 듦(28.3%, 53명), 노래 부를 때 고음 발성 곤란(23.5%, 44명) 순이었고 음성 피로와 관련된 증상이 가장 많았다. 또 본인에게 만성적인 음성 문제가 있다고 보고한 언어재활사 중 11.7%는 음성 문제로 인해 치료 회기 수를 조절한 적이 있었고, 25.7%는 치료 회기를 조절하지는 않았지만, 휴식의 필요성을 느꼈다고 응답했다. 지속적인 음성 문제는 직업 환경에서의 대인관계에서 문제를 일으킬 수 있고 이것은 정서적으로 부정적인 영향을 끼칠 수도 있다(Lee et al., 2018). 특히 직업적 음성사용자에게는 음성문제가 큰 장애가 되므로 건강한 음성은 직업생활을 안정적으로 유지하기 위해 중요한 역할을 한다고 볼 수 있다.
음성 피로를 평가할 수 있는 방법으로 음향학적, 공기역학적, 청지각적 방법들이 사용되고 있으며, 음성 피로가 있는 개인의 음성 피로를 확인하고, 음성 피로에 대한 불편함을 주관적인 설문 평가도구로도 확인할 수 있다. 주관적 음성문제를 반영해주는 평가도구로 VHI(voice handicap index; Jacobson et al., 1997)와 VRQOL(voice-related quality of life; Hogikyan & Sethuraman, 1999)이 보편적이긴 하지만(Kim, 2015), 음성 피로도와 불편함을 직접적으로 반영해주는 VFI(Voice Fatigue Index; Nanjundeswaran et al., 2015)의 사용빈도도 늘어나고 있다(Son & Choi, 2016).
국내외로 직업적 음성사용자들의 음성 피로에 관한 연구들이 이루어지고 있지만, 대부분 성악가나 교사의 음성 피로도에 대한 연구가 주를 이루고 있다(Jin et al., 1998; Laukkanen et al., 2008; Lee et al., 2012; Niebudek-Bogusz et al., 2008; Rantala & Vilkman, 1999; Van Houtte et al., 2011; Wang, 2019). 최근 국내에서도 언어재활사의 음성 피로도와 관련된 음향학적 연구가 점차 이루어지고 있다(Kim, 2017; Lee, 2017; Song & Pyo, 2010). 음성 피로도에 관한 음향학적 연구는 주로 jitter, shimmer와 같은 섭동(perturbation) 변수를 중심으로 분석 결과를 보고하고 있다. 성악가와 교사집단을 대상으로 한 Hong & Hwang(2012)은 기본주파수, jitter와 같은 기본주파수 변이 관련 변수, shimmer와 같은 진폭 변이 관련 변수 등이 대조군 집단에 비해 높게 측정되었다고 했으며, Jin et al.(1998) 또한 직업적 사용군의 jitter, shimmer, PPQ(pitch perturbation quotient) 등에서 대조군에 비해 유의하게 높음을 보고하였다. 이러한 연구에 성직자 집단과 그 대조군에 대한 CPP(cepstral peak prominence)와 LH(low to high) 비율 변수를 포함한 새로운 접근도 시도되었다(Seo, 2016). LH-ratio에서는 유의한 차이가 관찰되지 않았고 CPP는 성직자 집단이 유의하게 낮았다. 주기성이 높을수록, 사운드 스펙트럼의 조화음 구조가 안정적일수록 높게 나오는 것이 CPP이기 때문이다. 기본주파수가 교사 집단에서 대조군 집단에 비해 높게 나온 연구도 있다(Choi & Choi, 2013). 그러나 직업적 음성사용자와 일반인 사이에 음향적 차이가 관찰되지 않은 경우도 있다(Lee, 2017; Lee et al., 2012). Kim(2017)의 경우는 언어재활사, 영유아 교사에 대비해 일반 사무직 여성을 대조군으로 설정하여 jitter, shimmer 등에서는 유의한 차이를 보지 못했으나 NHR(noise to harmonic ratio)에서는 영유아 교사가 대조군보다 높게 나왔다.
본 연구는 연구자가 마련한 주관적 설문조사(이하 J-survey, 부록)를 통해 음성피로 유무 집단을 구분한 뒤, 두 집단 간 VFI 평가도구 설문 점수에서의 차이와 음향적 차이, 그리고 언어 치료 전과 후의 음향적 차이를 통계적으로 살펴보고자 한다. 80분 정도의 연속적인 목소리 사용으로 인한 성대 피로가 섭동변수의 상승을 이끌어낸다는 연구는 이미 있기 때문에(Park et al., 2010), 본 연구에서는 일상적인 언어치료 현장을 가정하여 총 4회기 언어치료 전/후 녹음을 하되 식사와 휴식이 회기 중간에 있는 일상적인 상황을 상정하였다. 연구를 통해 집단 간 차이, 언어치료 전/후의 음향적 차이를 살펴보고, 피로도와 관련된 언어재활사 음성의 전반적 특징을 기술하고자 한다.
2. 연구방법
본 연구는 대전․충남 지역 사설 언어치료실에 근무하고 있는 20․30대 여성 언어재활사들을 대상으로 진행하였다. 연구 대상자들은 언어발달 지연 및 발달장애 아동들을 대상으로 주(週) 20회기 이상, 녹음 당일 4회기 이상의 치료를 진행하고 있고 음성에 영향을 끼칠 수 있는 질환과 과거 병력이 없는 비흡연자들로 선정하였다. 대상자들의 평균 나이는 28.14세(SD=4.49), 평균 근무년수는 5년 3개월(SD=3.9), 주당 평균 치료 시수는 29.2회기(SD=6.59)였다. 대상자들에게 설문 내용과 녹음과정을 설명하고 동의를 얻은 후 연구를 진행하였다. 설문(J-survey, 5번 항목, 부록) 결과를 바탕으로 음성 피로 유/무 집단을 25명씩으로 맞추었다. 음성 피로집단 25명 종료 후 피로 없는 집단 25명을 추가하였다. 두 집단의 나이와 근무년수, 주당 평균 치료 시수에 대해 t-검정한 결과, 나이의 경우 집단 간 유의한 차이가 없었으며(p=.065), 근무년수는 유의한 차이가 있었다(피로집단: m=6.56, SD=4.42, n=25; 피로 없는 집단: m=4.22, SD=3.06, n=25; p<.05). 주당 평균 치료 시수는 차이가 없었다(p=.061).
연구자가 기획한 설문지(J-seurvey, 부록)는 언어재활사 배경정보(연령, 근무년수, 주당 치료 회기, 녹음 당일 치료 회기), 주관적 음성 피로 여부와 증상, 음성 오남용(말패턴, 목소리에 영향을 줄 수 있는 내적/외적 요인 등) 관련 질문들로 구성된 설문으로 이루어져 있다(부록). 5번 항목에 주관적 음성 피로 여부를 표시하게 되어 있으며 5번 항목의 하위 항목 세 개를 더 두어 이 부분을 보완하였다. 이와 더불어 K-VFI(Korean Vocal Fatigue Index; Kang et al., 2017) 검사를 시행하였다. K-VFI는 음성 피로로 인한 음성 사용 회피 섹션, 음성 사용과 관련된 신체적 피로 섹션, 휴식 후 음성의 개선 섹션으로 구성되어 있다. 총 19문항으로 이루어져 있으며, 1, 2섹션은 점수가 높을수록(negative wording) 음성 피로도가 높음을 나타내고 3섹션은 점수가 낮을수록 휴식이 피로 개선에 미치는 영향이 크다는 것을 의미한다(positive wording).
언어재활사의 음성 피로도를 음향학적으로 분석하기 위하여 음성녹음을 통해 자료를 수집하였다. 설문을 마친 후 TASCAM Linear PCM Recorder DR-40(TEAC, East Syracuse, NY, USA)을 사용하여 당일 4회기 언어치료 전과 후 총 2회 녹음이 진행되었다. 1–2회기는 오전에 진행되고 식사와 휴식을 가진 뒤 나머지 회기는 오후에 진행되었다. 녹음은 밀폐되고 소음이 적은 공간에서 이루어졌으며, 녹음기를 책상 위에 올려 두고 입과 마이크의 거리는 약 15 cm의 간격을 두어 녹음을 진행하였다. 대상자들에게 평소 말 패턴대로 5초 동안 /아/ 모음을 연장 발성하도록 지시하였다. /아/ 모음은 음향분석의 검사재료로 쓰이는 연장 발성 모음 중에서 가장 많이 사용되는 것으로, 음의 안정도를 살펴볼 수 있는 지표값이 민감하다는 장점이 있어 사용하였다(Moon, 2010).
대상자의 실제 음성 생활에 더 가까운 음성 표본을 수집하기 위하여 문단 읽기 과제를 실시하였다(Moon, 2010). 문단 읽기 연결발화(connected utterance) 과제는 선행연구에서 각색 후 전문 음성학자에 의해 타당도가 평가된 우화 ‘바람과 해님(Seong, 1995)’을 사용하였고, 연구 대상자들에게 평소 말 패턴대로 녹음과제를 수행해 달라고 지시하였다. 문단 읽기 과제인 바람과 해님은 친숙한 내용으로 대상자들이 어렵지 않게 읽을 수 있으며 운율 현상을 다양하게 관찰할 수 있다는 장점이 있다. 또 문장이 길지 않아 읽기 쉽게 구성되어 있고 대상자의 자연스러운 발화를 기대할 수 있어 문단 읽기 과제로 선정하게 되었다. 음향분석 시 전체 문단을 사용하지 않고 문단의 끝부분인 ‘나그네는 외투를 얼른 벗었습니다.’ 문장을 사용하였는데, 이 문장은 시작하는 낱말이 비음으로 이루어져 있고 약음절(weak syllable: V 혹은 CV 형태의 음절 유형) 조건이 잘 갖춰져 있다. 또 문장 끝부분에 마찰음 사용이 많아 문미에서 발화 에너지가 심하게 하강하는 피험자의 경우 음질이 더 현저하게 떨어지는 것을 관찰할 수 있는 점 등을 고려하여 선정하게 되었다.
언어치료 수업 전과 후 각각 녹음된 /아/ 연장 발성과 ‘바람과 해님’ 문장을 음성 분석 프로그램 Praat(version 6.1.05, Netherlands)을 이용하여 분석하였다. 모음 /아/의 경우 안정구간을 중심으로 2초를 일괄적으로 분절하여 포먼트 에너지와 섭동변수인 jitter, shimmer, harmonics to noise ratio, 그리고 기본주파수(f0), semi-tone의 절반에 해당하는 quarter-tone, 강도 에너지(intensity)와 같은 운율변수들과 더불어, LH 비율, spectral tilt와 같은 스펙트럼 에너지 분포와 관련된 변수들을 측정하였다(모든 음향변수 표 1 참고). 성인 여성의 발화이므로 기본주파수는 바닥값(floor) 100 Hz, 천정값(ceiling) 500 Hz 조건의 autocorrelation 알고리듬으로 검출하였고, 포먼트 세팅은 최대주파수 5,500 Hz/5개 포먼트 조건에서 측정하였으며 Pascal 단위로 측정된 포먼트 에너지값은 식 (1)을 이용하여 dBSPL값으로 변환하였다.
섭동변수를 구하기 위해 바닥값(floor) 100 Hz, 천정값(ceiling) 500 Hz 조건에서 pitch 개체를 생성한 뒤, 이로부터 포인트프로세스[point process (cc)] 개체를 재생성하고 사운드 개체와 이들 피치 개체, 포인트프로세스 개체를 모두 이용하여 voice report 정보 텍스트를 최종 출력하였다. 개별 섭동변수는 문자 함수(string function)를 이용하여 변수별로 할당하였다.
스펙트럼 개체는 두 가지 방식으로 구하였다. 1) 첫 번째는 성도의 공명 성분을 극대화하기 위해 고주파 증폭(pre-emphasis)을 실시한 경우다. 2) 두 번째는 음원(source) 성분만의 특징을 구체화하기 위해 고주파 감폭(de-emphasis)을 적용한 경우다. 청자의 귀에 전달되는 음파는 성도로서의 음원과 여과기로서의 성도 둘 다를 거치면서 변형된 것이기 때문에, 피로감이라는 음질적 특성은 음원-여과기 이론의 두 부분 모두를 고려할 필요가 있기 때문이다.
먼저 11,000 Hz 이상 고주파 성분의 간섭으로 인한 신호 착오(error)를 최소화하기 위해 사운드 개체를 5,500 Hz 나이퀴스트 주파수로 다운샘플한 뒤, 성도 공명 성분을 극대화하기 위해 고주파 증폭(pre-emphasis, from 50 Hz, 6 dB/oct)을 시행한 뒤 FFT (fast Fourier transform)하여 구하였다(Forrest et al., 1990). 두 번째, 음원 성분만을 남기기 위하여 (다운샘플된) 사운드 개체에 역필터링(inverse filtering)을 실시하였다. 이를 위해 예측차수(prediction order) 10차의 조건에서 LPC 개체를 Burg 알고리듬으로 구하였다. 포먼트 성분이 제거된 역필터링 개체를 대상으로 입술의 방출효과(radiation effect)를 없애기 위해 고주파 감폭(de-emphasis)을 시행하였다(from 50 Hz, Choi et al., 2014). 음향변수는 주파수에 따른 에너지 분포를 관찰할 때 효율적인 적률 변수(moment parameters) 중에서 특히 분포 자체에 최적화된 왜도(skewness)와 무게중심(center of gravity, COG)을 선정하였다. 왜도는 값이 클수록 스펙트럼의 저주파 영역 쪽으로 에너지가 집중되는 경향을 보이고, 무게중심(Hz)은 값이 클수록 에너지 중앙점이 고주파 쪽으로 이동한다. 적률변수의 경우는 여과기 성분의 효과를 극대화해서 관찰해야 하므로 고주파 증폭을 시행하여 계산하였다.
0–4,000 Hz까지의 저주파수 영역(low energy, lowE)과 4,000– 8,000 Hz까지 고주파수 대역의 에너지(high energy, highE) 동향 파악을 중점 과제로 설정하였다(Awan & Roy, 2006; Awan & Roy, 2009; Watts & Awan, 2011). 두 영역의 에너지값, 두 영역의 에너지 비율(LH-ratio), 두 영역의 에너지 차를 기울기로 표현하는 slope_ltas, 그리고 0–8,000 Hz까지의 스펙트럼 기울기(tilt)와 절편값(offset)을 구하였다.
0–4,000 Hz 사이에는 1–4까지의 주요 포먼트들이 응집되어 있으므로, 이 영역 에너지 비중이 높으면 효율적 발성을 한 것으로 간주하거나 과다한 노력을 가했다는(high effort) 해석을 할 수 있다(Pickett, 1980). 4,000–8,000 Hz 영역 에너지 비중이 높으면 장애음성(dysphonic voice)과 같이 소음성이 많은 발성에서 원인을 찾는다. LH-ratio는 저주파 영역 에너지가 분자 위치에 있으므로 이 값이 높아진다는 것은 0–4,000 Hz 저주파 영역 에너지가 상대적으로 크고 4,000–8,000 Hz 고주파 영역 에너지가 상대적으로 작다는 것을 의미한다. Slope_ltas는 이 두 영역의 에너지 차를 음수(-) 기울기로 보여주는 변수이므로 저주파 영역 에너지가 상대적으로 약하고 고주파 영역 에너지가 상대적으로 강하다면 기울기 절대값은 작아진다. 0–8,000 Hz 영역의 기울기(tilt)와 절편(offset)의 경우 고주파 영역 에너지가 상대적으로 작다면 하향 기울기는 가파를 것이고 절편값은 높아지게 될 것이다. 그러나 전반적으로 에너지가 상승한다면 그 역시 절편값을 높이게 된다. 0–4,000 Hz 저주파수와 4,000–8,000 Hz 고주파수 대역 각각의 에너지 측정에는 스펙트럼 개체를 이용하였고 두 영역 간 에너지 차를 기울기로 표현하는 slope_ltas와 0–8,000 Hz까지의 스펙트럼 기울기 및 절편값은 LTAS(long term average spectrum) 1-to-1 개체를 이용하였다. LTAS(1-to-1) 개체는 연구에 이용된 스펙트럼 개체와 default bin(주파수축에서의 분석 간격)값이 동일하다는 특징이 있다.
켑스트럼 관련 변수는 음원(source)과 여과기(filter) 성분이 발화 상태 그대로 보존된 경우와 여과기 성분의 강화를 위해 고주파 증폭한 경우의 두 가지 방식으로, 스펙트럼 개체에 대해서 파워켑스트럼 개체를 생성하여 대표 변수 몇 가지로 구체화하였다. Hillenbrand et al.(1994) 이래 많은 관심을 받아오고 있는 CPP, CPPs(smoothed CPP)와 더불어, 머신러닝을 이용한 집단 구분에 큰 영향력을 발휘하는 RNR(rhamonics to noise ratio) 변수를 포함하였다. Rhamonic은 스펙트럼 개체에서의 harmonic에 상대되는 켑스트럼 인자로서 dB 단위로 측정된다. 큐프런시 영역의 하위 영역은 성도 공명 정보를 압축하여 보여주며 상위 영역은 조화음(harmonics) 구조를 보여주는데, RNR은 이 상부 영역의 구조적 특징을 포착한다(Kim & Seong, 2017). 높은 RNR값은 에너지와 관련된 조화음 배열이 더 안정적임을 의미한다.
CPP(s)를 구하기 위하여 주파수 바닥값 60 Hz, 천정값 333.3 Hz 조건에서 피크 검출을 했고, interpolation은 parabolic으로, 큐프런시 범위는 Hillenbrand et al.(1994)에서 제시한 것과 같은 0.001초부터 출발하여 0.05초까지로 설정했으며, rhamonic 배열을 추정하는 모델의 trend type은 Hillenbrand & Houde(1996)의 초기 모델과 달리 비선형(non-linear) 지수감소형(exponential decay)으로, 선형 회귀선을 긋는 방식은 Theil(1950)의 robust line의 변형인 robust slow를 선택하였다. RNR도 CPP와 동일한 피치 범위(60–333.3 Hz)에서 구하였다.
연결 발화의 경우 문장 내 쉼 부분을 모두 제거한 뒤 모음 연장 발성과 마찬가지로 두 가지 방식의 스펙트럼 개체를 생성했는데, 1) 첫 번째의 경우, 연결 발화는 단일한 모음만으로 구성된 것이 아니므로 역필터링을 통한 음원 개체 생성은 필요하지 않다. 따라서 데이터 그대로 FFT하여 스펙트럼 개체와 파워켑스트럼 개체를 만들었고, 2) 두 번째는 성도 공명 기능의 최대치를 살펴보기 위해 고주파 증폭을 하여 스펙트럼과 파워켑스트럼 개체를 생성하였다. 연결발화의 경우 자음과 모음이 혼재되어 있어서 자/모음 전이부에 기본주파수와 에너지의 왜곡이 어느 정도 발생할 수 있으므로 운율 변수들은 측정하지 않았다.
언어치료 수업 전과 후 각각 녹음된 /아/ 연장 발성과 ‘바람과 해님’ 우화 중 ‘나그네는 외투를 얼른 벗었습니다.’ 문장을 음성 분석 프로그램 Praat의 experiment_ MFC 플랫폼을 이용하여 현직 언어재활사 7인(1급 언어재활사 2명, 2급 언어재활사 5명)이 평가하였다. 평가는 자극을 듣고 음성피로의 정도를 1점(낮음)부터 6점(높음)까지 평가하는 6점 Likert 척도로 제시하였고, 본 평가에 앞서 모음과 문장 각각 10개를 연습과제로 먼저 제시하여 평가자들이 실험 내용과 평가 방법에 익숙해지도록 하였다. 모음과 연결발화 과제 모두 평가자 내 신뢰도 평가를 위해 10개의 dummy 과제를 포함하였다. 모음과 문장 각각 110개의 자극을 듣고 평가하도록 하였고 모음 평가 후 연결발화 평가를 실시하였다. 37개의 자극이 제시되면 잠시 휴식을 할 수 있도록 코딩하였으며 다시 듣기는 3회까지 허용하였다.
통계 분석을 위해 SPSS(version 23, IBM, Armonk, NY, USA) 를 사용하였다. 1차적으로 음성 피로도 검사(K-VFI)의 세 가지 섹션별 음성 피로 유무 집단 간 차이를 비교하기 위하여 독립표본 t-검정을 실시하였다. 그리고 설문조사로 나누어진 음성 피로 집단(fatigue)과 음성 피로 없는 집단(no.fatigue)의 모음 연장 발성과 연결 발화에서 음향변수들이 녹음 시점(time, 언어치료 전/후)과 집단(음성 피로도 유/무)에 따라 어떠한 차이가 있는지 살펴보기 위해, 녹음 시점을 개체 내 변수인 반복변수로 삼고 집단변수를 개체 간 변수로 하는 혼합모형 2-요인 반복측정 분산분석을 실시하였다. 개체 내 변수와 개체 간 변수 사이에 상호작용이 발생했을 경우 다중비교로 인하여 발생할 수 있는 1종 오류를 통제하기 위하여 Emmeans subcommand 코딩으로 출력되는 Bonferroni 교정 다중 짝대응 테이블을 이용하여 사후검정하였다. Mauchly의 구형성 가정을 위배하고(p<.05), epsilon값이 0.75보다 큰 경우 분산분석은 Huynh-Feldt 효과로 검정하였고 0.75보다 작은 경우는 Greenhouse-Geisser로 시행하였다. 청지각 평가의 경우 6점 리커트 척도로 평가된 음성 피로도 점수에 대해 평가자 내 신뢰도는 스피어맨의 상관관계로, 평가자 간 신뢰도는 Cronbach alpha(intra-class correlation coefficient)로 검정하였다. 청지각 점수를 검정 변수로 하여 음성피로 유무 집단 간 t-test로 비교하였다. 독립변수 모든 수준(level) 간의 본페로니 교정 다중 짝대응 비교 테이블을 출력해주는 Emmeans subcommand code는 아래와 같다. 언급한 테이블은 통상의 SPSS 메뉴를 통해서는 구할 수 없고 syntax 코딩을 통해서만 접근할 수 있다.
GLM LH-ratio.1 LH-ratio.2 BY fatigue
/WSFACTOR=time 2 Polynomial
/METHOD=SSTYPE(3)
/SAVE=PRED
/PLOT=PROFILE(fatigue×time)
/EMMEANS=TABLES(OVERALL)
/EMMEANS=TABLES(fatigue) COMPARE ADJ(BONFERRONI)
/EMMEANS=TABLES(time) COMPARE ADJ(BONFERRONI)
/EMMEANS=TABLES(fatigue×time) COMPARE(fatigue) ADJ(BONFERRONI)
/EMMEANS=TABLES(fatigue×time) COMPARE(time) ADJ(BONFERRONI)
/PRINT=DESCRIPTIVE ETASQ HOMOGENEITY
/CRITERIA=ALPHA(.05)
/WSDESIGN=time
/DESIGN=fatigue.
3. 연구결과
주관적 설문(J-survey)에 의해 음성 피로 유무로 나누어진 두 집단 간 K-VFI 항목별 점수 차이가 있는지 알아보기 위해 실시한 독립표본 t-검정 결과, 음성 피로 항목과 신체 피로 항목에서 집단 간 유의한 차이가 있는 것으로 나타났다(p<.01). 휴식 후 개선 항목(긍정 문항이라서 역채점함)은 각 집단 간 차이가 유의미하지는 않았지만, 음성 피로 집단이 음성 피로가 없는 집단에 비해 평균 점수가 높은 것으로 나타났다. K-VFI 점수에 대한 집단 간 독립표본 t-검정 결과는 아래와 같다.
모음 연장 발성의 경우 평가자 내 신뢰도는 그리 높지 않았다(r=.491, p<.01). 평가자 간 신뢰도는 매우 높았다[average measure (99,594)=.818, p=.001]. 7인 평가 결과, 점수를 검정변수로 하고 피로도 유무 집단 간 t-검정한 결과, 피로 집단(m=3.02, SD= 1.478, n=350)과 피로 없는 집단(m=3.14, SD=1.383, n=350) 사이에 유의한 차이가 없었다(p=.279). 언어치료 수업 전/후 t-검정한 결과, 수업 전(m=3.11, SD=1.419, n=350)과 후(m=3.05, SD= 1.446, n=350) 사이에 유의한 차이가 관찰되지 않았다(p=.544).
연결발화 과제의 평가자 내 신뢰도 또한 그리 높지 않았다(r= .545, p<.01). 평가자 간 신뢰도는 상당히 높게 나왔다[A.M.(69, 69)=.791, p<.001]. 연결발화 과제 평가 점수를 검정 변수로 하여 피로도 유무 집단 간 t-검정한 결과, 피로 집단(m=2.54, SD= 1.132, n=350)과 피로 없는 집단(m=2.46, SD=1.147, n=350) 사이에 유의한 차이가 없었다(p=.336). 언어치료 수업 전/후에 대한 t-검정 결과, 치료수업 전(m=2.51, SD=1.130, n=350)과 수업 후(m=2.49, SD=1.150, n=350) 사이에 유의한 차이가 관찰되지 않았다(p=.868).
집단과 녹음 시점을 독립변수로 하는 반복측정 분산분석 결과, 역필터링과 고주파 감폭을 시행한 음원 차원의 모음 연장 발성의 경우 사운드 스펙트럼 0–4,000 Hz 저주파수 영역 에너지(lowE)와 shimmer_local에서 집단 변수와 녹음 시점 변수 사이에 교차(disordinal) 상호작용이 발생하였으며{lowE: [F(1,48)=4.364, p<.05], shimmer_local: [F(1,48)=4.49, p<.05]}, NHR, COG, LH-ratio, f3(3rd formant)_dB, offset, highE에서는 독립변수 간 상호작용은 관찰되지 않았으나 녹음 시점 변수에서 유의미한 주 효과가 관찰되었다{NHR: [F(1,48)=6.780, p<.05], COG: [F(1,48)=5.217, p<.05], LH-ratio: [F(1,48)=7.455, p<.01], f3_dB: [F(1,48)=5.056, p<.05], offset: [F(1,48)=4.206, p<.05], highE: [F(1,48)=7.764, p<.01]}. 문장 연결 발화의 경우 고주파 증폭 없이 발화 그대로 FFT만 했을 경우 스펙트럼 에너지 왜도에서만 집단 변수와 녹음 시점 변수 사이에 교차 상호작용이 발생하였고[F(1,48)= 4.373, p<.05] 그 외 변수에서는 유의한 결과가 없었다.
모음 연장 발화 lowE의 경우 본페로니 교정된 다중 짝 대응 결과, 치료 전(t1) 상황에서 음성 피로 없는 집단이 피로 있는 집단 보다 유의하게 컸으며[no.fatigue>fatigue in t1, mean difference (md)=1.757 dB, p<.05], 피로 집단이 치료 후에 더 컸다(t2>t1 in fatigue, md=1.476 dBSPL, p<.05). Shimmer_local은 음성 피로 없는 집단의 치료 전 값이 치료 후(t2) 값보다 컸다(t1>t2, md= 1.825%, p<.05). RNR은 피로 없는 집단의 치료 후가 전에 비해 유의하게 컸다(t2<t1, md=2.243 dB, p<.05, 그림 1).
NHR은 치료 전이 치료 후보다 값이 컸다(t1>t2, md=0.031, p<.05). Slope_ltas는 치료 후가 치료 전에 비해 유의하게 컸으며(t2>t1, md=2.170 dB, p<.05), LH-ratio는 치료 전이 치료 후에 비해 유의하게 컸다(t1>t2, md=0.166, p<.01). F3_dB의 경우도 치료 전이 치료 후보다 유의하게 컸다(t1>t2, md=3.531 dB, p<.05). Offset은 치료 후가 치료 전에 비해 유의하게 컸으며(t2>t1, md=1.694 dB, p<.05), highE는 치료 후가 더 컸다(t2>t1, md= 2.703 dB, p<.01). 문장읽기 연결발화의 스펙트럼 에너지 왜도는 집단 변수와 녹음 시점 변수 사이에 유의한 교차 상호작용이 발생하였으나(p<.05) 본페로니 다중 짝대응 결과, 피로 없는 집단의 치료 후가 지료 전에 비해 값이 컸으며 90% 신뢰수준에서 유의하였다(t2>t1, md=1.061, p=.082, 그림 2).
표 3은 모음 연장발화의 공명, 섭동, 운율과 관련된 음향변수 평균과 표준편차이며, 표 4의 켑스트럼 변수 중 RNR은 고주파 증폭을 적용하여 계산되었으며 나머지 CPP와 CPPs는 음원(source)과 여과기(filter) 성분을 자연 상태 발화 그대로 측정한 경우이며, 적률변수인 skewness는 고주파 증폭을 적용한 평균과 표준편차이고 slope_ltas부터 highE까지 스펙트럼 변수들은 {역필터링+고주파 감폭}을 적용한 경우다. 표 5는 문장읽기 연결발화의 스펙트럼, 켑스트럼 관련 변수들의 평균과 표준편차다. 표3–5에서 연두색 그라데이션으로 셀이 채워진 음향변수는 분산분석 결과, 주 효과만 관찰된 경우이고, 주황색으로 채워진 셀은 집단×녹음시점 상호작용이 유의했던 음향변수의 평균과 표준편차다.
B1, 1st formant’s bandwidth; B2, 2nd formant’s bandwidth; B3, 3rd formant’s bandwidth; f1_dB, 1st formant’s energy; f2_dB, 2nd formant’s energy; f3_dB, 3rd formant’s energy; HNR, harmonics to noise ratio; NHR, noise to harmonic ratio; jit_local, jitter local; shim_local, shimmer local; f0, fundamental frequency; Q-tone, quarter tone; sd_int, standard deviation of intensity.
4. 논의 및 맺음말
설문조사(J-survey)를 통해 언어재활사의 음성 피로도를 그들의 주관적 평가에 기반하여 음성 피로 집단과 피로 없는 집단으로 나눈 후, 언어치료 전후 집단별 차이를 K-VFI 점수와 청지각 평가 점수를 통해 살펴보았고 음향음성학의 관점에서도 분석해 보았다.
K-VFI 결과에서는 음성 피로로 인한 음성 사용 회피 항목과 음성 사용으로 인한 신체 피로 항목에서 집단 간 유의미한 차이가 있었다. 이는 주관적 음성 피로 집단이 음성 문제가 없는 집단에 비해 K-VFI의 휴식 항목을 제외한 모든 항목에서 통계적으로 유의하게 높은 점수를 보였다는 선행연구(Kim & Choi, 2018)와 동일한 결과다. 청지각 평가 점수는 집단 간, 언어치료 전후 유의한 차이가 없었다. 청지각만으로 피로도 구분이 어렵다는 얘기다.
주관적인 음성 피로 유무로 나누어진 두 집단의 언어치료 전후 모음 연장 발성의 음향학적 특성을 살펴보면, 음성 피로 있는 집단과 없는 집단 사이에 어떤 패턴화된 차이가 있음을 알게 된다. 치료 전후 통계적으로 유의하게 차이를 보이는 대표적 스펙트럼 변수는 LH-ratio와 slope_ltas 그리고 포먼트 관련 변수로 f3_dB값이었는데 치료 전과 비교하여 LH-ratio와 f3_dB은 치료 후 값이 작아졌고, slope_ltas는 치료 후 커졌다.
LH-ratio의 경우 소음성이 강한 음성장애 환자의 목소리에서 낮게 나오는 경향이 있는데, 이는 일상 발화에 주로 사용되는 저주파 대역 에너지가 약하고 소음성이 강한 고주파 대역 에너지가 강하기 때문이다(Awan & Roy, 2009). 이 변수는 치료 전이 치료 후보다 값이 컸다. 치료 후에 저주파 대역의 에너지는 상대적으로 줄어들고 고주파 대역의 에너지는 늘어났다는 걸 의미한다. Slope_ltas값도 LH-ratio와 동일한 특성을 보였다. 언어치료 세션 전에 비해서 치료 후의 값이 더 커졌으므로(△2.170: –40.958→ –38.788) 저주파 대역 에너지가 약화되고 고주파 영역이 커졌음을 방증한다.
제 3포먼트 에너지(f3_dB)는 치료 후 유의하게 작아졌다. 제 3포먼트 에너지값은 대략 2,820 Hz(mean=2,821.4 Hz, SD=417.6, n=100) 근처에서 형성되는데, LH-ratio의 저주파 대역(0–4,000 Hz)에 속한다. F3_dB이 치료 후 작아졌다는 것은 저주파 영역의 에너지가 일부 감소한 것을 의미한다. 따라서 LH-ratio, slope_ ltas, 그리고 f3_dB의 변화는 치료 후 저주파 대역의 에너지는 상대적으로 줄어들고 고주파 대역의 에너지는 늘어났다는 것을 의미한다.
스펙트럼 대역 에너지와 관련된 lowE, highE 그리고 스펙트럼의 y-절편을 의미하는 offset은 치료 후 값이 증가했으며, 이는 세션 동안 성대의 과다한 사용 즉 성대의 과다한 긴장(hyper- tension)과 연결될 수 있다. 성인 여성의 성도 길이를 대략 15 cm 정도로 가정했을 때 여과기의 포먼트를 구하는 공식인 (2n-1)c/ 4L을 이용해보면(L: 성도길이, c: 상온에서의 소리 전달 속도) 네 번째 포먼트가 (이론적으로) 3,962 Hz가 된다(Stevens, 2000). 대략 포먼트 4개까지가 4,000 Hz 아래쪽에서 측정된다는 것이니 이 영역에 주요한 발화에너지가 몰려 있음을 짐작할 수 있다. 고함을 친다든지 과다하게 큰 목소리를 낸다든지 하는 과노력(high-effort)성 발성을 하게 되면 이 영역 에너지가 전반적으로 높아진다. 장애음성(dysphonic voice)과 같은 효율적이지 못한 발성은 이 영역 에너지를 떨어뜨린다.
모음 연장발성에서 shimmer_local은 피로 없는 집단의 치료 후가 치료 전보다 값이 작아졌으며, 피로 있는 집단은 치료 후 값이 커졌다. 켑스트럼의 RNR 변수는 피로 없는 집단의 치료 후가 전에 비해 유의하게 컸다. 이 두 변수에 국한한다면 피로 없는 집단의 치료 후 목소리가 더 안정되었다는 해석이 가능하며, 음성 피로 집단과 그렇지 않은 집단 간에 주요한 차이가 있음을 시사한다. NHR의 경우 두 집단 모두 치료 전에 비해 치료 후 값이 작아지는 경향으로 변화하였는데 특히 피로 없는 집단의 경우 그 평균변화량이 컸다(△0.047: 0.072→0.025).
NHR은 잡음성분 에너지를 분자로 하고 조화음 성분 에너지를 분모로 하여 구하는 비율 변수다. 분석 대상 신호에 잡음(noise)이 많이 섞일수록 값이 커지게 된다. 이 값이 치료 후에 작아졌다는 것은 두 집단 모두 분자에 해당하는 잡음 성분 에너지가 줄어들어서 그런 것이 아닌가 생각해볼 수 있다. 언어치료로 인해 성대를 과다하게 사용하고 있음에도 언어재활사는 목소리를 효율적으로 사용하고 있다고 말할 수 있는 부분이다. 대개 언어재활사는 전공 교육 과정에서 음성장애 및 음성관리에 대한 교육을 받아 건강한 음성을 유지하기 위한 방법을 알고 있는 경우가 많으며(Song & Pyo, 2010), 언어재활사의 62%가 음성을 효율적으로 사용하기 위한 방법을 알고 있다고 응답한 연구도 있다(Lee, 2015). 따라서 피로 없는 집단의 shimmer_local 하강과 RNR의 치료 후 상승은 성대 과긴장보다는 목소리 관리에 전문성이 있는 언어재활사들이 치료 세션을 통하여 목소리를 더 안정되게 조절해 갔다는 해석이 가능하다. 이 부분에서 언어재활사의 언어치료 전/후를 비교한 연구에서 유의미한 음향변수를 관찰하지 못하고 회기를 거듭함에 따라 섭동변수가 낮아지는 경향을 보인 Lee (2017)를 참고할 만하다.
Laukkanen et al.(2008)은 초등교사의 근무 전, 후 목소리 변화를 여러 가지 음향변수를 이용하여 측정, 분석하였는데 /아/ 연장발성에서 기본주파수와 강도의 유의한 상승, 그리고 jitter와 shimmer의 유의한 하강을 보고하였다. 기본주파수와 강도의 유의한 상승은 성대근육 과긴장(higher muscle tonus)과 발화 산출에서의 과기능(hyper- function)을 반영한다. 즉 성대근육 과긴장, 과기능으로 인해 기본주파수와 강도가 올라가는 경향을 보인다는 것이다(Orlikoff & Baken, 1990; Orlikoff & Kahane, 1991). 본 연구의 데이터는 기본주파수와 강도에서 통계적으로 유의한 상승은 없었으나 스펙트럼 에너지 관점에서 lowE의 치료 후 피로 집단에서의 상승과 highE와 offset의 치료 후 상승을 간접적으로 고려하면 치료 후 피로 집단에서의 성대 과긴장 상태를 유추할 수 있다.
섭동변수는 후두 피로도와 상관관계가 높은데, 성대 피로로 인한 성대 조직의 팽창은 후두에 대한 운동신경 조절 능력을 약화시키며 이로 인해 근 긴장도가 떨어짐에 따라 섭동 변수가 증가하는 쪽으로 이끈다(Anne et al., 2008). 교사나 성직자와 같은 직업적 음성 과다사용 직능군과 정상 대조군을 비교한 국내 선행연구들에서 음성 과다사용 집단의 기본주파수, 기본주파수 변이 관련 변수, 강도, 강도 변이 관련 변수, NHR 등이 대조군에 비해 비교적 높았다(Choi & Choi, 2013; Hong & Hwang, 2012; Jin et al., 1998; Kim, 2017; Seo, 2016). 직업군 비교에서는 이러한 특징이 뚜렷해 보인다. Anne et al.(2008)의 결론을 수용한다면 음성과다 사용 직업군들의 성대는 피로한 상태에서 조절 능력이 떨어져 있다는 추론을 할 수 있다.
일정 시간 이상의 목소리 노동을 한 후 그 전/후 상태를 비교하는 연구에서 대체로 60분 정도 이상의 연속된 음성 사용 결과, jitter, shimmer, NHR 등의 섭동변수들이 증가하는 방향으로 유의한 차이를 보였다고 하는데, 실험에 따르면 80분 정도에 이르러 최댓값을 보였고 그 이후부터는 하강하는 경향을 보였다(Park et al., 2010). 80분 정도까지는 Anne et al.(2008)의 주장처럼 성대 피로로 인한 근 긴장도 저하가 섭동변수의 증가를 유도했다고 볼 수 있다. Park et al.(2010)의 피험자는 20대 남녀 일반인이었고 Lee(2017)는 직업적으로 목소리를 과다하게 사용하는 언어재활사였다. Lee(2017)에서 언어재활사들의 섭동변수가 하강경향을 보인 것은 본 실험의 피로 없는 집단의 치료 후 shimmer_local 하강, 그리고 주 효과로 관찰된 NHR의 감소와 비견될 만하다.
문단읽기 연결발화에서는 skewness가 피로 없는 집단에서 치료 후 값이 더 커졌으므로 치료 후 스펙트럼 에너지가 저주파 영역으로 집중되었다는 것인데, 자음이 섞여 있는 연결발화의 경우도 치료로 인한 성대 과긴장 등이 스펙트럼 저주파 영역 에너지 치우침으로 나타나지 않았을까 추측되는 부분이다. 연결발화에서는 skewness 이외 다른 유의변수가 없었다. 이러한 저주파 영역에서의 에너지 증가를 치료세션이 성대를 긍정적으로 훈련시키는 방향이라는 해석도 할 수 있으나 에너지가 저주파 영역으로 쏠렸다는 사실만으로 치료세션의 긍정 결과를 단언하기는 어렵다. RNR과 같은 조화음 구조와 관련된 변수, LH-ratio와 같은 변수에서 유의한 결과가 나오지 않았기 때문이다.
본 연구에서 다룬 음향변수의 통계 결과는 J-survey 설문조사에서 음성 피로가 있는 집단의 96%(24/25)가 언어치료 후 음성 피로가 증가한다고 답한 내용을 어느 정도 반영한다. 언어치료 전/후 주 효과 차이를 보인 음향변수가 꽤 되므로 피로 없는 집단의 경우도 해당되는 사항이다. 집단 간 차이는 음향변수들 중 치료 전 모음 연장발성 스펙트럼 저주파 대역의 에너지인 lowE에서만 관찰되었다. 피로하지 않은 집단의 lowE값이 컸다는 것은 치료 전의 상황에서 음성 피로를 호소한 집단에 비해 일상 말하기에 사용되는 4,000 Hz 아래 저주파수 영역에 충분한 에너지가 있다는 걸 보여준다.
대개의 국내 선행연구는 기본주파수, 강도(intensity)와 함께 jitter, shimmer 등을 측정변수로 삼았고, 직업적으로 음성노동을 과다하게 하는 집단과 대조군 집단을 비교하는 방식으로 실험하여 집단 간 유의한 결과를 보고하였다. Lee(2017)의 경우가 본 연구와 가장 흡사한 설계인데 이 경우 언어재활사 자체의 주관적 피로도는 고려되지 않았다. 선행연구를 보면 음성 피로 집단과 피로하지 않은 집단 사이에 음향변수의 유의미한 차이가 나온 연구도 있었고 그렇지 않은 연구(Lee, 2017; Lee et al., 2012)도 있었다. Lee et al.(2012)의 교사를 대상으로 한 연구에서 설문을 통한 음성 장애 판별과 객관적 지표(음향분석지표)의 음성 장애 판별 일치율이 15.6%에 지나지 않았다는 결과도 있으며, 후두 피로 및 관련 증상이 음향변수 변화와 일치하지 않을 수 있다는 국외 연구도 있다(Boucher, 2008; Lehto et al., 2006). Choi & Choi(2013)는 교사들이 음향학적 수치와 상관없이 직업과 관련하여 스스로 자각하는 주관적 음성 장애 지수가 크기 때문에 이를 반영할 수 있는 다차원적 평가 프로토콜을 개발, 적용하는 것이 바람직하다고 하였다. 이는 주관적으로 음성 피로를 느낄지라도 객관적인 수치로 나타나지 않을 수 있고, 평가 방식에 따라 음성 장애 판별이 달라질 수 있음을 의미하는 것으로 음성 장애 평가 방식에 대한 다양한 접근이 필요함을 시사한다.
본 연구는 언어재활사들의 음성 피로 정도를 측정하는 음향변수를 스펙트럼과 켑스트럼의 다양한 변수까지 확대했다는 점과, 설문을 통한 주관적인 피로도를 바탕으로 집단을 구분해서 연구를 진행했다는 의의가 있다. 그러나 피험자가 사설치료실에 근무하는 언어재활사들로만 구성되어 있어 다양한 기관에 근무하는 언어재활사들의 음성 피로나 음성 특성을 모두 반영한다고 보기 어렵다. 더 다양한 근무 기관에서 일하는 언어재활사를 대상으로 연구를 진행한다면 언어재활사의 음성 피로 현황이나 음성 특성을 더 잘 기술할 수 있을 것으로 본다.