1. 서론
인간의 음성은 완벽한 주기성을 가질 수 없기 때문에 본질적으로 준 주기적(quasi-periodic) 특성을 나타내지만, 음성장애에서는 이러한 사람의 음성파형을 정규적인 변화를 가진 주기적 파형으로 간주하다[1]. Titze[2]는 주기성의 교란 정도에 따라 정상음성은 주기적, 이중음성은 준주기적, 쉰목소리와 같은 병리적 음성은 비주기적으로 분류된다.
이중음성은 일반적으로 발성 시 청지각적으로 두 개의 음도로 지각되는 음성으로 이는 질병의 특성이라기보다 음성 증상의 하나로 간주될 수 있다. 두 개의 음도로 지각되는 이중음성은 아직까지 합의된 정의는 없으며, 지각적, 음향학적, 생리학적 측면에서 정의될 수 있다.
지각적 측면은 청지각적 평가를 통해 평가되며, 이중음성을 다소 모호한 정의인 두 가지 음도의 동시적 지각으로 정의하고 있다[3]. 이 정의는 19세기부터 지속해서 통용되어 왔고, 전통적 이중음성의 기본정의로 간주하고 있다. 심리음향학적 연구에서 이러한 복합적 지각효과에 대하여 두 음도의 존재는 자극과 관찰자에 의존한다고 보고되고 있고, 지각적 판단능력은 분리된 음도에서 음성신호를 분리하는 능력으로 훈련정도의 차이를 의미한다[4] .
음향학적 측면은 음성파형과 서브하모닉(subharmonic)을 통해 평가할 수 있다[5]. 이중음성은 음성파형의 수준에서 준주기적 변동을 하나의 메타사이클(meta-cycle) 안의 펄스를 계산함으로써 정의된다[1], [2]. 예를 들어, 임의의 주기적 매개변수에서 두 개의 상승하강 패턴이나 맥동(pulsing)을 계산할 수 있고, 이들 음성파형 패턴에 따라 바이플로포니아(biplophonia), 트리플로포니아(triplophonia), 쿼드로플로포니아(quadruplophonia), 멀티플로포니아(multiplophonia)로 분류할 수 있다[2]. 이중음성의 음성파형 변화는 두 진동자가 덧셈 또는 곱셈으로 조합하여 맥놀이 현상을 만들어 낼 때 나타나고, 두 진동자는 각각 진폭과 주파수를 조절한다. 합리적인 비율에서 두 진동수는 같은 기준으로 잴 수 있으므로 메타사이클이 만들어진다. 두 개의 진동자가 합쳐졌을 때 가수의 파형 사이클은 서브사이클로 나타나고, 메타사이클은 진동자의 움직임과 진동자의 진동비율에 따라 두드러진 펄스 높이의 시간적 변화로 나타난다[6].
이중음성의 생리학적 측면은 하이스피드비디오내시경[7], 디지털 카이모그래피[8], 나이퀴스트 플롯(nyquist plot)[9], 성문영역파형(glottal area waveform)[8], [10], 평면 스캐닝 디지털카이모그래피[11]등을 통하여 관찰할 수 있으며, 성대수준에서 두 진동체의 다른 진동 수로 정의된다[6] . 질량 또는 긴장의 차이로 인해 좌우 또는 상하 성대가 다른 주파수로 진동하거나 근긴장으로 인해 진성대와 가성대가 동시에 다른 진동수로 진동하는 양상을 나타낸다.
이중음성의 모든 정의는 임상적 사용에 문제가 있다. 두 가지 음도의 존재라는 지각적 정의는 객관성 측면에서 제한점이 있고, 음성파형의 정의는 주기 탐지와 음원의 독립적 결정에서 해결되지 않은 문제를 가지고 있다[12]. 성문 진동 수준에서 정의는 관찰 방법의 제약으로 어려움이 있다.
20세기 이후, 과학의 진보와 더불어 후두의학 분야에서도 음질을 객관적으로 평가할 수 있는 기술과 검사에 필요한 다양한 영상 기술들이 개발되어 오고 있다. 그러나 청지각적 평가는 검사자 내와 검사자 간 신뢰도에 대한 비판에도 불구하고, 여전히 검사의 용이성과 음성의 지각적 특성으로 인해 발성장애 평가에 있어 황금률(golden standard)로 간주되어 오고 있다[13], [14].
따라서, 이중음성 판별에 있어 청지각적 평가의 임상적 유용성을 검증할 필요가 있다. 이를 위해, 이 연구에서는 비침습적인 간접적 평가방법 중, 이중음성 평가의 선행 연구들에서 사용되었던 청지각적 평가, 음성파형 분석, 전기성문파형 분석의 신뢰도, 정확도, 편리성을 비교함으로 청지각적 평가의 임상적 의의를 확인해 보고자 한다.
2. 연구 방법
부산소재 대학병원에 내원한 환자 중 이비인후과 전문의에 의하여 후두질환으로 진단된 환자 중 이중음성(준주기적 음성) 28명과 대조군으로 비주기적 음성 39명, 총 67명(평균연령 56.48± 12.45)의 음성샘플을 연구에 사용하였다(<표 1>).
샘플 선정을 위하여 한 명의 이비인후과 전문의와 한 명의 언어재활사가 참여하였고, 선행 연구들을 참조하여 다음의 기준을 모두 충족하는 샘플을 이중음성으로 선별하였다.
첫째, 정상인 음성은 연구에서 제외하였고, 둘째, 병리적 음성을 청지각적으로 평가하여 두 개의 음도로 지각되는 음성을 이중음성으로 분류하였다[3]. 셋째, 음향학적 분석을 통하여 음성파형에서 준주기적 섭동과 협대역 스팩트로그램에서 서브하모닉이 나타나는 음성을 이중음성으로 분류하였다[5]. 넷째, 전기성문파형검사에서 준주기적 진동이 메타사이클로 관찰되는 샘플을 이중음성으로 분류하였다[6]. 다섯째, 하이스피드비디오내시경 검사 상 비대칭적인 성대진동수를 나타내는 경우를 이중음성으로 분류하였다[7].
검사자간 신뢰도는 유의미한 차이를 보였고(Kappa=.938), 두 검사자가 각 검사에서 이중음성과 비주기적 음성으로 동일하게 분류한 샘플을 최종샘플로 선정하였다.
동일한 음성샘플에 대한 청지각적 평가, 음성파형 분석, eletroglottograph(이하 EGG) 분석을 위하여 EGG(6103, Kay, NJ)와 마이크로폰(SM48, Shure, IL)을 다채널 정보 습득이 가능한 PCquirer 516(Scicon R&D, CA)에 연결하여 음성과 전기성문파형을 동시에 획득하였다(<그림 1>). 음성샘플은 44,100 Hz 표본화비, 16 bit 양자화, 웨이브(wav) 파일 형태로 저장되었다.
대학병원 이비인후과에서 5년 이상의 임상경력을 가진 3명의 언어재활사에 의해 이중음성 판별 평가가 실시되었고, 이중음성 샘플 선정에 참여하였던 2명은 평가결과에 영향을 미칠 수 있음으로 평가자에서 제외하였다. 청지각적 평가, 음성파형을 이용한 평가, 전기성문파형을 이용한 평가, 총 3가지 방법을 사용하였고, 결과는 이중음성의 출현 유무에 따라 이중음성(+)과 비주기적 음성(–)으로 평가하였다.
청지각적 평가는 Alvin[15]을 연구목적에 맞게 수정하여 사용하였다. 평가자들은 샘플을 듣고 두 개의 음도가 동시에 지각되는 것을 양성으로 정의하여 이중음성을 판별하였다[3]. 평가자들의 필요에 따라 음성샘플을 반복 청취 가능하도록 하였고, 판별결과와 시간은 자동으로 저장되도록 하였다. 음성파형 분석은 메타사이클의 준주기적 교란을 발견하기 위하여 <그림 2>와 같이, Praat 6.0.16 (Paul Boersma and David Weenink, Institute for Phonetic Sciences, University of Amsterdam, The Netherlands)을 이용하여 확장된 음성파형에서 구간을 이동하면서 이중음성을 감별하였다[6], [16]. EGG 분석은 성문파형에서 메타사이클의 준주기적 교란을 발견하기 위하여 PCquire의 분석 소포트웨어를 이용하였다[5], [8]. <그림 3B>와 같이, 음성파형은 준주기적 교란의 파형이 연속적으로 3개 이상 관찰될 때를 양성을 정의하여 이중음성으로 판별하였고, EGG도 동일한 기준으로 판별하였다.
판별 방법 간의 편리성은 샘플을 제시하고, 평가자가 판독결과를 표시하는 데까지 소요된 시간을 측정하여 비교하였다. 청지각적 평가는 Alvin에 저장된 판독시간을 활용하였고, 음성파형과 EGG는 스톱워치를 이용하여 측정하였다.
판별 방법에 따른 신뢰도를 비교하기 위하여, 이중음성 샘플의 평가자 간과 평가자 내 신뢰도를 급내 상관계수(ICC, intraclass correlation coefficient)로 평가하였다. 평가자 내 신뢰도를 보기 위하여 20개의 음성샘플을 무선 수집하여 반복 평가하였다.
판별 방법에 따른 정확도를 비교하기 위하여, 사전평가를 통하여 황금기준이 되는 이중음성 28개, 이중음성 39개, 총 67개의 샘플을 선정하였고, 이중음성을 양성으로 하여 이중음성과 비주기적 샘플의 판별 결과를 혼동 행렬의 이진 분류 척도로 95% 신뢰 구간에서 분석하였다.
실제적 의미에서의 황금기준이란 비록 완벽하지는 않지만, 현재의 지식과 기술을 고려하여 비교적 정확도가 높다고 인정된 방법을 적용하였을 때 나타나는 결과에 의한 판정기준을 일컫는다. 이런 의미에서 전통적으로 인정되어 오던 청지각적 평가, 음향학적 분석, 전기성문파형 검사의 진단에서 모두 이중음성으로 나온 음성샘플을 황금기준으로 두고 세 가지 평가 측도의 진단상의 상대적 감별 능력을 비교 평가하는 데 사용하였다. <표 2>의 식을 이용하여 각 판별 방법의 민감도(sensitivity), 특이도(specificity), 정확도(accuracy), 양성우도비(LR+, positive likelihood ratio), 음성우도비(LR-, negative likelihood ratio)를 살펴보았고, 판별 방법들 간에 성능에 차이를 살펴보기 위하여 이중음성에 대한 두 진단평가 측도의 감별일치도는 차이가 없다라는 귀무가설 하에 맥니마 검정(McNemar's test)을 시행하였다.
질병이 있을 때 있다고 평가된 참 양성(TP, true positive)과 질병이 없을 때 없다고 평가된 참 음성(TN, true negative)은 감별 결과와 실제 질병의 유무가 일치한 경우로 감별 결과가 맞는 경우를 말한다. 질병이 없을 때 있다고 평가된 거짓 양성(FP, false positive)과 질병이 있을 때 없다고 평가된 거짓 음성(FN, false negative)은 불일치한 경우로 감별 결과가 틀린 경우이다.
Variables | Condition | |||
---|---|---|---|---|
Gold standard(+) | Gold standard(‒) | Subtotal | ||
Test | Finding(+) | TP | FP | TP+FP |
Finding(–) | FN | TN | FN+TN | |
Subtotal | TP+FN | FP+TN | TP+FP+FN+TN |
판별 방법에 따른 편리성을 비교하기 위하여, 이중음성 샘플의 판독시간을 일원배치 분산분석(one-way ANOVA)으로 검증하였고, 튜키의 정직 유의차 검정(Tukey’s honestly significant difference)을 이용하여 사후분석을 실시하였다. 통계 프로그램은 SPSS 21.0(SPSS Inc., Chicago, IL)을 이용하였다.
3. 연구 결과
청지각적 평가, 음성파형 분석, 전기성문파형 분석에 대한 평가자 내, 평가자 간 신뢰도를 살펴 본 결과(<표 3>), 청지각적 평가, 음성파형, 전기성문파형의 검사자 간 신뢰도는 각각 .760 (.697-.811), .800(.678-.876), .767(.705-.815)이었고, 검사자 내 신뢰도는 각각 .818(.737-.879), .931(.900-.954), .839(.740-.900)이었다. 청지각적 평가의 검사자 간 신뢰도가 다른 평가방법에 비해 낮게 나타났으나, 95% 신뢰구간 내에서 세 평가 방법 간에 차이는 없었다. 검사자내 신뢰도는 음성파형이 가장 높게 나타났고, 청지각적 평가와 95% 신뢰구간에서 유의한 차이가 있었다.
세 가지 방법으로 이중음성과 비주기적 음성을 판별한 결과(<표 4>), 민감도는 음성파형 94.87%, 청지각적 평가 92.31%, 전기성문파형 89.74% 순으로 나타났다. 특이도는 청지각적 평가 89.29%, 음성파형 78.27%, 전기성문파형 71.43% 순으로 나타났다. 정확도는 음성파형 88.06%, 청지각적 평가 86.57%, 전기성문파형 83.33% 순으로 나타났다. 양성우도비는 음성파형 15.32, 청지각적 평가 11.61, 전기성문파형 6.96 순으로 나타났다. 음성우도비는 전기성문파형 .32, 음성파형 .23, 청지각적 평가 .12 순으로 나타났다.
Variables | Sensitivity | Specificity | Accuracy | LR+ | LR- |
---|---|---|---|---|---|
Auditory perception | 92.31 | 89.29 | 86.57 | 11.61 | .12 |
Sound waveform | 94.87 | 78.57 | 88.06 | 15.32 | .23 |
Electroglottography waveform | 89.74 | 71.43 | 83.33 | 6.96 | .32 |
판별 방법에 따른 일치도를 비교하기 위해 맥니마 검정을 실시한 결과, 청지각적 평가는 음성파형 분석과 유의미한 차이가 없었고, 전기성문파형 분석과는 유의미한 차이가 있었다(p<.001).
판별 편리성을 비교하기 위하여 판독에 걸리는 시간을 일원배치 분산분석을 이용하여 비교한 결과, 세 가지 판별 방법 간에는 검사 결과를 판별하기까지 소요되는 시간은 통계적으로 유의한 차이(p<.001)를 보이는 것으로 나타났다(<표 5>). 판독 시간은 청지각적 평가는 평균 6.02초(±1.12), 전기성문파형은 평균 16.41초(±7.12), 음성파형은 평균 30.15초(±10.41) 순으로 판독 시간이 길었다. 청지각적 평가는 음성파형과 전기성문파형 간의 판독 시간에서 모두 유의한 차이를 나타내었다(p<.05).
4. 논의
청지각적 평가는 심리적 표상에 기반하고 있어, 직관적인 의미를 가지고 있다. 이로 인해, 다른 도구적 평가 방법들보다 평가가 용이하고, 즉각적인 피드백이 가능하기 때문에 임상에서 황금률로 간주되어 널리 사용되고 있다. 그러나 평가자의 내적기준의 변화와 경험, 평가환경 등에 민감하게 반응하여 평가자 신뢰도의 적절성이 부족하다는 비판을 받아왔다. 이러한 평가는 증거기반 의학과 과학적 방법론의 측면에서 객관성의 결여로 이중음성 분석에서도 지속적으로 문제점이 제기되어 왔다[7].
이 연구에서는 이러한 제한점들을 확인하고자 청지각적 평가와 더불어 비침습적 방법인 음성파형 분석과 전기성문파형 분석을 실시하였고, 청지각적 평가의 신뢰도, 판별일치도, 판별편리성을 비교 분석하였다. 연구의 결론은 다음과 같다.
첫째, 청지각적 평가의 검사자 내와 검사자간 신뢰도는 .75 이상으로 다른 방법들과 비교하여 신뢰할만한 결과를 나타내었다. 심리적 표상에 기반을 둔 청지각적 평가는 직관적인 의미가 있어 다른 도구적 평가보다 쉽게 평가할 수 있고, 그로 인해 임상적으로 널리 사용되고 있다. 평가자 신뢰도의 적절성이 부족하다는 비판을 지속적으로 받아왔으나[13], [17], 본 연구에서는 다른 평가도구들과 비교하여 유사한 차이가 나타내었다. 그러나 청지각적 평가의 신뢰도는 훈련 정도에 따라 차이를 보이므로 보다 나은 평가를 위해서 청지각적 훈련이 필요하다[14]. 특히 이중음성은 크릭키 음성(creaky voice), 보컬 프라이(vocal fry)와 청지각적 또는 음향학적으로 혼동되기 쉽기 때문에 주의가 필요하다[18].
둘째, 청지각적 평가는 비교적 높은 정확도를 보였으며, 음성파형 분석의 정확도가 가장 높게 나타났다. 판별일치도를 비교한 결과, 청지각적 평가와 음성파형 분석 간에 차이가 없어 유사한 판별능력을 나타내 주었다[19].
음향학적 분석은 성대의 준주기적 교란을 반영하고 있어 이중음성 진단에 많이 사용되고 있다[6], [8], [16]. <그림 3B>의 음성파형을 보면, 성대의 움직임이 제 위상일 때 완전한 성대 폐쇄 구간이 나타나고, 음성파형의 자극상태는 강해진다. 이어서 주기가 연속적으로 반복되는 동안 위상차는 점진적으로 더 커지고, 성문폐쇄는 불완전하게 되어 음성파형의 자극 상태는 약해진다[16]. 즉, 위상차가 클 때, 성문폐쇄는 불완전하고, 음성진폭에서 준주기적 변화를 만들어낸다. 그러나 이중음성의 음향학적 분석은 확대된 파형을 이용하여 준주기적 섭동을 보이는 진폭 및 파장의 변화를 찾아야 하고, 이러한 이중음성을 구간을 찾기 위한 과정은 높은 집중력이 요구된다. 또한, 전체 음성 파형을 하나씩 살펴보아야 하므로 이중음성 구간을 놓치기 쉽다. 거친 소리가 동반되어 주기성이 심하게 붕괴한 음성파형에서는 준주기적 교란을 판별하기 어려워 평가의 정확도가 감소한다.
청지각적 평가는 전기성문파형 분석보다는 높은 판별능력을 보여주었다. Dejonckere와 Lebacq[3]는 전기성문파형검사를 통하여 이중음성을 가진 대상자에게서 연속적으로 세 개의 다른 정점을 가진 파형이 주기적으로 반복되는 것을 보고하였다. Hirose et al.[10]의 연구와 같이, <그림 3B>의 전기성문파형에서 성대접촉이 정위상일 때는 강한 정점의 전기성문파형이 관찰되고, 양측 성대의 비대칭적인 진동으로 인해 위상차가 생길 때는 약한 정점이 관찰된다. 이러한 패턴의 반복으로 연속적으로 다른 정점의 파형이 주기적으로 반복된다. 그러나 전기성문파형은 두꺼운 피하지방이나 성대사이에 이물이 있을 경우, 전류전달에 영향을 미쳐 정확한 평가가 불가능한 경우가 생긴다. 또한, 단순히 준주기적 파형의 출현을 이중음성을 정의하기에는 다소 무리가 있다.
셋째, 판독시간은 청지각적 평가가 가장 빠른 것으로 나타났다. 이중음성을 진단하는 직간접적 방법들이 있지만, 내시경을 이용한 직접적 관찰방법은 침습적이며, 주기 대 주기 분석이 가능한 검사들은 검사 및 판독까지 많은 시간이 소모된다. 음성파형 분석과 전기성문파형 검사 또한, 파형을 일일이 확인하여야 하고, 확장된 파형을 이용하여야 하기 때문에 많은 시간이 소모된다. 반면에 지각적 수준에서 평가되는 청지각적 평가는 시공간적 정보(spatial-temporal information)[8]-[11]로 결과를 제공되는 평가들에 비해 빠른 진단이 가능하다. 이러한 차이는 청지각적 평가의 장점이 될 수 있지만, 반면에 신뢰도와 정확도에 영향을 주는 부정적 요소가 될 수도 있다[13], [14].
청지각적 평가가 신뢰할만한 결과를 나타내었지만, 보다 정확한 평가를 위해서는 후두경을 이용한 성대진동의 직접적 관찰이 실시되어야 할 것이다. 전통적으로 많이 이용되고 있는 스트로보스코피의 경우는 주기별로 하나의 이미지를 추출하여 가상의 영상을 만들어 내기 때문에 이중음성 평가에는 적절하지 않다[20]. 주기 대 주기의 변화를 보아야 하는 이중음성 평가에는 디지털 카이모그래피, 평면 스캐닝 디지털 카이모그래피, 성문영역파형, 나이퀴스트 플롯 등 하이스피드 비디오내시경을 이용한 후처리 방법들이 유용하게 활용되고 있다[21], [22]. 그러나 이러한 평가들은 본질적으로 하이스피드 비디오내시경을 기반으로 만들어지기 때문에 검사시간과 과정의 복잡성 등으로 임상환경에서 적용하기에 어려움이 있다[11].