1. 서론
말 산출 과정에는 호흡, 발성, 조음 및 공명에 관여하는 기관(조음기관) 간의 협응이 필요하다. 말소리 산출과 관련된 기관의 구조나 기능적인 원인으로 야기되는 의사소통의 어려움에는 조음장애, 음성장애, 유창성장애 등이 포함된다(Kim & Kim., 2016). 이러한 특성을 적절하게 치료하기 위해서는 말장애를 유발할 수 있는 조음기관의 구조와 기능의 이상 유무를 먼저 살펴보는 것이 중요하다. 이를 통해 의사소통 문제의 치료계획을 구체적이고 체계적으로 수립할 수 있고, 진전 여부를 판단하는 근거로 활용할 수 있기 때문이다.
특히, 아동의 조음기관은 연령에 따라 지속적으로 발달 과정에 있어, 구개의 특성이나 혀의 움직임 범위 등이 성인과 차이를 보인다. 따라서 아동의 조음능력에 영향을 미치는 조음운동성을 평가하기 위해서는 발달 과정을 고려한 검사 방법과 적합한 과제를 제시할 필요가 있다(Kim et al., 2018). 또한 호흡, 발성, 조음 및 공명기관의 구조와 기능을 수량화하는 평가가 필요하다(Kim & Kim., 2016).
국내에서 아동의 조음기관의 구조와 기능을 평가하는 대표적인 검사도구로 조음기관 구조·기능 선별검사(Speech Mechanism Screening Test for children, SMST-C; Shin et al., 2018)가 있다. 『SMST』는 조음장애나 언어장애가 없는 만 3–12세의 국내 정상 아동을 대상으로 표준화하여 조음기관의 구조와 기능의 이상 유무를 평가할 수 있는 기준치를 제시하고 있다.
『SMST-C』는 세 개의 하위 영역으로 구성되어 있는데, ‘조음기관 구조와 기능’에서는 얼굴, 입술, 혀, 턱과 치아, 경구개 및 연구개, 인두 및 호흡기관 등 조음기관의 구조나 기능의 이상 여부를 확인한다. ‘발성·음성·조음 선별’에서 최대발성지속시간(maximum phonation time, MPT)은 /아 / 모음을 발성할 때의 발성을 지속하는 시간을 측정하여, 조음 산출 시 기능이나 신경계 협응과 폐활량과 폐 내 압력 및 성대의 접촉 양상 그리고 성대를 통과하는 기류의 양과 압력 등을 간접적으로 평가할 수 있다(Kent et al., 1987). 조음기관을 구성하는 근육들의 최대 운동속도 및 규칙성과 정확성 평가를 위해 조음교대운동(diadochokinesis, DDK)을 실시한다. DDK 과제는 무의미 음절 /퍼/, /터/, /커/를 반복하여 산출하는 교대운동속도(alternating motion rate, AMR)와 3음절 /퍼터커/를 일련으로 산출하는 일련운동속도(sequential motion rate, SMR)로 구분되며, 일반적으로 주어진 시간 동안 반복한 음절 수를 세는 방식(count-by-time)을 통해 측정한다. DDK 평균 속도와 편차를 이용하여 아동의 조음능력을 간접적으로 알 수 있어 임상적으로 유용하게 활용할 수 있다(Yoo, 2018). Granocchio et al. (2021)는 Robbins & Klee 프로토콜을 확립하여 아동의 구강 운동성과 조음 운동성(DDK)을 평가하고, 발달 지연 여부를 파악하여 아동의 조음 및 구강 운동 발달 상태를 정량적으로 평가하는 데 신뢰성을 확보할 수 있음을 확인하였다.
일반적으로 임상현장에서 환자의 말소리를 평가하는 가장 보편적인 방법은 언어재활사가 귀로 듣고 평가하는 청지각적 평정이다. 청지각적 평정은 특별한 도구를 필요로 하지 않아, 임상현장에서 즉각적이고 편리하게 사용할 수 있는 장점이 있다. 그러나 청지각적 평정의 경우 측정 일관성과 반복 측정에 통일된 기준을 합의하기에 어려운 측면이 있다(Roy et al., 2013). 따라서 임상가는 음향학적 분석을 추가로 시행하여 음성에 대한 정량화된 측정치를 확인하고, 청지각적 평정의 한계를 보완한다(Natour & Saleem, 2009). 음향학적 분석은 개인의 음성 특성을 파악하고, 이를 통해 진단과 진전도를 객관적으로 확인할 수 있는 중요한 평가 방법이다. 또한 음성과 관련된 다양한 매개변수들의 객관적 수치를 비침습적인 방법으로 빠르고 쉽게 얻을 수 있다는 장점이 있다(Choi et al., 2005). Praat은 음성 분석 및 음성 변형 프로그램으로 홈페이지(http://www.praat.org)에서 무상으로 다운 받을 수 있다. 또한 데이터를 효율적으로 처리할 수 있어 많은 임상가와 과학자들이 사용하고 있다(Oğuz et al., 2011). 그러나 분석을 위해 음성 녹음이 선행되어야 하고, 평가 진행 이후 임상가가 프로그램을 이용하여 분석하기 때문에 즉각적인 결과 확인이 어렵다는 제한점이 있다. Jeong, et al. (2011)는 미취학 아동을 대상으로 DDK 과제에 대한 연령에 따른 반응태도를 분석하였다. 연구 결과 지시사항의 이해가 어려운 5세 미만 어린 연령 아동과 조음음운 능력이 낮은 아동은 말운동 능력 측정이 까다로워, 민감하게 반응할 수 있는 검사 방법이 필요하다는 점을 언급하였다. 이는 아동의 말운동 상태를 측정은 조음발달 수준과 이상 여부 등 중요한 정보를 확인할 수 있는 과제임에도 현실적인 문제로 인해 측정의 어려움이 있음을 시사한다. 따라서 아동의 말운동 능력 측정을 위해서는 검사자와 대상자의 편의성을 고려한 검사 방법의 도입이 필요하다.
최근 인공지능(artificial intelligence, AI) 음성인식 기술이 고도화되어 음성 신호 특징의 자동 인식과 분석 및 결과를 즉시 확인할 수 있는 수준에 도달하였다. 이러한 AI 음성인식 기술을 언어병리학에 도입한 학제간 융합 연구가 활발하게 진행되고 있다(Kang et al., 2022). 국외 연구 동향에 따르면 현재 언어병리학 분야에서의 AI 기술 적용은 임상에서 효과성 및 효용성을 확인하기 시작하였으며(Song et al., 2020), 국내에서도 진단의 정확성과 치료의 효율성을 확보하기 위한 연구가 진행 중에 있다(Yun & Im, 2022).
이에 따라 본 연구에서는 말운동 능력을 평가할 수 있는 과제(MPT, DDK)에서 AI 음성 인식 모듈을 이용한 자동 측정 결과와 전통적 분석 방법인 Praat의 결과를 비교하고자 한다. 전통적 측정 방법과의 일치도가 높을수록 결과의 신뢰성을 검증할 수 있으며, 이는 향후 임상에서의 활용 가능성을 탐색하는 데 중요한 기반이 될 것이다. 본 연구의 구체적인 목적은 다음과 같다. 1) 두 가지 음향 기기적 측정 방법(AI 음성인식 모듈, Praat) 간의 일치도를 평가하고, 2) AI 음성인식 모듈의 신뢰성과 대체 가능성을 검증하며, 3) 말소리장애 아동의 말운동 능력을 평가하는데 기초자료로 제공하고자 한다.
2. 연구방법
본 연구는 가톨릭대학교 인천성모병원 임상연구심사위원회의 승인(IRB: OC24ONSI0086)을 받았으며, 가톨릭대학교 인천성모병원에 내원한 아동 중 본인 또는 보호자가 참여 의사를 밝힌 만 3–9세의 정상 발달 아동 30명을 대상으로 하였다. 1차적으로 보호자 설문을 통해 아동의 발달사 및 구개파열, 뇌성마비 등의 조음기관 구조와 기능의 이상을 초래할 가능성 여부를 확인하였다. 이차적으로 1) 수용·표현어휘력검사(Receptive & Expressive Vocabulary Test, REVT; Kim et al., 2009)의 표현 어휘력 과제를 실시하여 –1SD 이하, 2) 자발화상에서 언어나 조음의 이상이 있다고 의심되는 경우, 3) 검사에 비협조적이거나 검사를 완료하지 못한 경우 대상에서 제외하였다(표 1).
집단 | 인원(명) | 연령 |
---|---|---|
미취학 | 11 | 4.27±1.10 |
취학 | 19 | 7.05±0.84 |
합계 | 30 | 6.03±1.65 |
본 연구는 독립되고 조용한 공간에서 실시되었으며, 각 연구자와 대상자는 1대 1로 검사를 시행하였다. 1급 언어재활사 1인과 2급 언어재활사 2인이 프로토콜에 따라 대상자의 MPT와 DDK를 측정하였다. 검사에는 평가자용 노트북, 아동 검사용 태블릿 PC(Galaxy Tab S7 FE, Samsung, Suwon, Korea), 구강경, 펜라이트, 설압자 및 초시계가 사용되었으며, 아동의 발화는 스마트폰(iphone pro max 12, Apple, Cupertino, CA, USA)을 사용하여 녹음하였다. Lee et al.(2019)의 연구에 따르면 스마트폰은 음성 선별검사를 위한 녹음 장비로써 유용성이 인정되어 본 검사에서도 활용하였다. 검사 시 아동과 태블릿 PC 그리고 스마트폰의 간격은 30 cm를 유지하였고, 스마트폰의 마이크가 아동을 향하도록 세팅하였다. 검사실에서 태블릿 PC 애플리케이션을 활용하여 아동의 MPT와 DDK를 자동으로 측정하였고, 검사가 끝난 후 녹음된 음성파일은 Praat을 이용해 분석을 실시하여 결과를 비교하였다.
자동측정에 사용된 애플리케이션(application, app)은 발화 시간을 측정하는 MPT 알고리즘을 적용한 ASR(automatic speech recognition) 엔진을 통합하고 있다. MPT 알고리즘은 발화 시작 지점부터 종료 지점까지의 시간을 측정하는 방식으로, 음성 감지 시 무음 구간을 오인하는 문제를 해결하는 데 중점을 두었다. 마이크로 입력되는 오디오의 음량이 일정하지 않을 경우, 일부 음성을 휴지 구간으로 인식하여 실제 발화 시간보다 짧게 측정되는 오류가 발생하였다. 이를 해결하기 위해 0.2초 이하의 짧은 휴지 구간은 무시하도록 설정하였으며, 발화가 끊기지 않고 정확하게 측정될 수 있도록 알고리즘을 개선하였다. 제시한 그림 1의 푸른 음영은 발성으로 인식한 부분으로 알고리즘 개선 전후의 결과를 비교하여 확인할 수 있다.

DDK는 /퍼/, /터/, /커/ 또는 /퍼터커/와 같은 음절 반복 발화를 자동으로 측정하는 알고리즘을 적용하였다. 음성 데이터를 텍스트로 변환하는 복잡한 과정을 단순화해 주는 딥러닝 모델인 Wav2Vec 기반의 E2E STT(end-to-end speech-to-text) 엔진을 활용하여 음성 인식을 하였다. 파일럿 테스트에서 /kᴧ:/와 같이 모음을 과도하게 강조하는 경우 두 번의 peak가 발생하여, 횟수 측정에 오류가 발생하였다. 이에 알고리즘의 peak 값을 0–1,000 Hz에서 2,000–3,000 Hz로 조정하여 민감도를 향상하였다. 제시된 그림 2에서 하단의 초록 마커는 기존 결과를 의미하며, 중간의 파란 마커는 최종 개선된 사양을 의미한다.

검사자는 아동에게 검사용 태블릿 화면을 보여주며 “숨을 크게 마시고, 화면에 마이크가 보이기 시작하면 /아/ 소리를 할 수 있는 만큼 오래 내세요”라고 지시하였다. 아동 연령에 따른 지시이해도를 고려하여 지시사항을 조절하여 제시하거나, 필요한 경우 검사자가 시범을 보였다. 아동이 1–2회 반복하여 연습한 후 검사가 가능할 것으로 판단되면 측정을 시행하였다. 검사자가 아동에게 지시한 후 평가자용 웹화면에서 시작버튼을 누르면, 태블릿 PC를 통해 아동의 발화가 시작되는 시점부터 MPT가 자동 측정되었다. 아동의 발화가 종료된 후 검사자가 웹화면의 종료버튼을 누르는 동시에 결과가 분석이 되며, 측정 결과 화면 예시는 그림 3에 제시하였다. 총 2회씩 MPT 측정을 시행하였으며, 가장 긴 결과치를 분석대상으로 채택하였다.

DDK 검사는 MPT와 동일한 절차로 진행되며, /퍼/, /터/, /커/, /퍼터커/ 순서로 시행하였다. 검사자가 “화면에 마이크가 보이면 선생님이 그만~할 때까지 /퍼/를 최대한 빨리 말해보세요.”라고 지시한 후 아동의 발화가 시작되면 5초간의 음성이 자동 측정되어 분석되었다. 화면에 분석 결과가 제시되면 검사자는 청지각적 평정에 따라 규칙성과 정확성을 체크하였다. 과제별로 총 2회씩 시행하였으며, 가장 많이 시행한 결과치를 채택하였다(그림 4).

본 연구의 수집된 자료는 Statistical Product and Service Solution (SPSS, version 21.0) 통계 프로그램을 이용하여 분석하였다. 대상자의 인구학적 정보는 기술통계를 활용하여 평균 및 표준편차를 산출하였다. 두 측정치(app, Praat)의 일치도는 Bland-Altman plot을 활용하였다(Bland & Altman, 1986). Bland-Altman plot은 두 측정 방법 간의 차이를 평균값과 비교하여 차이의 분포를 시각화하는 분석 기법으로 두 방법 간의 체계적 차이(평균 차이)를 확인하고, 95%의 데이터가 포함되는 일치한계(limits of agreement, LoA)를 설정하여 각 측정 방법이 일관된 값을 제공하는지 확인할 수 있다(Euser et al., 2008). 이를 통해 측정도구의 비교 평가에서 상관관계 분석의 취약점을 보완할 수 있으며(Giavarina, 2015), 두 측정 방법이 임상적으로 또는 연구적으로 대체 가능한지를 평가할 수 있다(Haghayegh et al., 2020).
3. 연구결과
MPT 측정 결과에서 상위 일치 한계는 0.72, 하위 일치 한계는 –0.81로 계산되었고, 93%에 달하는 결과가 일치 한계 내에 분포하여 높은 일치도가 확인되었다. 측정 평균 차이는 –0.04로 app이 Praat 보다 낮게 측정된 값이 있었다는 것을 의미한다(그림 5).

DDK 과제 중 /퍼/ 측정에서는 상위 일치 한계는 1.21, 하위 일치 한계는 –0.75로 계산되었으며, 91%의 결과가 일치 한계 내에분포하였다. 또한 측정 평균 차이가 0.23으로 크지 않아, 두 측정 결과 간에 높은 일치도를 보였다(그림 6).

/터/ 측정 결과에서 상위 일치 한계는 0.97, 하위 일치 한계는 –0.59로 계산되었으며, 91%의 결과가 일치 한계 내에 분포하였다. 또한 측정 평균 차이가 0.17으로 작아, 두 측정 결과 간에 높은 일치도가 확인되었다(그림 7).

/커/ 측정 결과에서 상위 일치 한계는 0.23 하위 일치 한계는 –0.75로 계산되었으며, 91%의 결과가 일치 한계 내에 분포하였다. 또한 측정 평균 차이가 0.23으로 크지 않아, 두 측정 결과 간에 높은 일치도를 보였다(그림 8).

/퍼터커/ 측정 결과에서 상위 일치 한계는 0.38 하위 일치 한계는 –0.32로 계산되었으며, 93%의 결과가 일치 한계 내에 분포하였다. 또한 측정 평균 차이가 0.03으로 작아, 두 측정 결과가 일치함을 시사하였다.

4. 논의 및 결론
본 연구는 AI 음성인식 모듈을 사용한 app과 Praat 간의 측정 결과의 일치도를 평가하고, app을 통한 측정 방법의 신뢰성과 대체 가능성을 검증하는 것을 목적으로 하였다. 이를 위해 MPT 및 DDK 과제를 통해 두 측정 결과 간의 평균 차이와 상위 및 하위 일치 한계를 분석하였다. 분석 결과, MPT, /퍼/, /터/, /커/, /퍼터커/의 app과 Praat 측정치 분포 비율이 91% 이상 일치 한계 내에 있었으며, 평균 차이는 최대 0.23으로 미미하여 두 결과 간 높은 일치도를 보였다. 이는 MPT와 DDK 과제에서 gold standard(Praat)와 본 연구를 통해 개발된 app의 일치도가 임상적 기준에 부합하여 평가 도구로 활용할 수 있음을 시사한다(Borrie et al., 2019).
본 연구에서 사용한 Bland-Altman 분석은 두 측정 방법의 차이에 대한 평균과 표준편차를 사용하여 일치도를 평가하는 데 적합하다. 그러나 측정 방법 간 체계적 오차나 비선형적 상관관계가 존재할 가능성이 있다(Ribeiro et al., 2022). 이번 연구에서 한계선을 초과한 사례들은 한계선에 근접하여 일치도 분석에 영향을 미치지 않은 것으로 확인되었다(Ribeiro et al., 2022; Suh & Seo, 2022). 하지만 개별 아동의 음성 특성 차이, 발음 습관, 발성 방식의 차이 등을 고려하여 한계선 밖의 값들이 어떤 조건에서 발생하는지(Son et al., 2024)와 소음이 통제되지 않은 다양한 검사 환경에서의 측정한 결과를 추가로 분석할 필요가 있다. 이를 통해 강건한 알고리즘 성능을 구현하여 app 고도화에 적용할 수 있을 것이다.
따라서 향후 연구에서는 정상 음성을 대표하는 연구 대상자의 수를 추가적으로 확보하여 집단 내 결과에 영향을 미치는 요인의 유무를 확인할 것을 제안하는 바이다. 또한 병리적 음성을 분석할 때는 음성 분석 도구가 사용하는 알고리즘에 따라 민감도와 특이도가 영향을 받을 수 있다(shim et al., 2014). 이에 따라 향후 진행될 연구에서 말소리 장애 아동 음성 및 다양한 환자군에 따른 음성 측정 결과치를 확보해야 할 것이다.
본 연구 결과, AI 음성 인식 모듈을 활용한 앱과 전통적 측정 도구인 Praat을 사용한 음성 측정 결과 간에 높은 일치도가 확인되어, 두 측정 방식이 상호 대체 가능함을 입증하였다. 또한 MPT와 DDK 측정 결과를 실시간으로 확인할 수 있다는 점에서 연구와 임상 현장에서 편의성과 유용성을 향상시켰다는 의의를 가진다.