Uncovering between-categorical details in L2 pronunciation errors using Wav2Vec2.0 code vectors

Hong, Eunsoo; Kim, Sunhee; Chung, Minhwa

doi:10.13064/KSSS.2024.16.4.073

Phonetics Speech Sci. 2024; 16(4):73-94

pISSN: 2005-8063, eISSN: 2586-5854

DOI: https://doi.org/10.13064/KSSS.2024.16.4.073

Speech Engineering/음성공학

Wav2Vec2.0 코드벡터를 활용한 음소 범주 사이 L2 오류 패턴 탐구^*

홍은수¹, 김선희², 정민화¹^,^**

Uncovering between-categorical details in L2 pronunciation errors using Wav2Vec2.0 code vectors^*

Eunsoo Hong¹, Sunhee Kim², Minhwa Chung¹^,^**

Author Information & Copyright ▼

¹서울대학교 언어학과

²서울대학교 불어교육과

¹Department of Linguistics, Seoul National University, Seoul, Korea

²Department of French Language Education, Seoul National University, Seoul, Korea

^**Corresponding author : mchung@snu.ac.kr

© Copyright 2024 Korean Society of Speech Sciences. This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Received: Aug 16, 2024; Revised: Oct 28, 2024; Accepted: Oct 29, 2024

Published Online: Dec 31, 2024

국문초록

L2 발음 오류는 모국어 전이 현상에 의해 둘 이상의 표준 음소 범주를 아우르는 특성을 띤다. 이 같은 비범주성을 고려한 평가를 위해서는 음소보다 세분화된 발음 분석 단위가 필요하다. 선행 연구들에서는 그 예시로 음소 사후확률 (phonemic posterior-gram, PPG)을 제안했지만, 사전 정의된 음소 집합과의 연계성으로 소리를 표현하므로 범주적 개여를 온전히 벗어나지 못한다. 이에 본 연구는 자기지도 학습(self-supervised learning, SSL) 모델의 표현 학습이 외부 음소적 규제로부터 자유롭다는 점에 착안해, Wav2Vec2.0 코드벡터를 비범주적 양상 분석의 새로운 단위로 활용한다. 먼저 자질이 L1과 L2 음성을 다르게 인지하는지 확인하기 위해, 내용적으로 통제된 L1 (CMU ARCTIC)과 L2 (L2 ARCTIC) 화자별 데이터에서 사용되는 코드벡터 목록들을 비교했다. 그 후 범주적 정의 내 세부 변이양상들을 조사하고자, 선차적으로 음소 단위 오류탐지를 실시해 분석할 교체오류들을 선별했다. 이때 모델 파인튜닝에 사용될 데이터는 L1 TIMIT이며, 분석 대상은 NIA 037 교육용 한국인의 영어 음성 데이터다. 이후 교체 유형별로 오류 표본들의 음성 프레임에 대응되는 코드벡터열을 추출한 뒤, 우세한 패턴들을 도출했다. 도출된 패턴들은 L1 TIMIT의 코드벡터별 음소 분포 조건부 확률과 현존하는 코드벡터 집합의 군집화 결과를 참조해 최종 해석된다. 분석 결과, 코드벡터는 L2 변별력과 더불어 발음 연속체 속 오류 패턴의 범주 간 위치를 수치화할 능력을 보유하고 있었다. 이른바, 각 오류 패턴을 대표하는 자질들 사이 유클리디안 거리와 패턴 분포는 현존하는 L2 발음 연구에서 기술된 현상들을 반영했다.

Abstract

L2 pronunciation errors, influenced by L1 phonetic transfer, often span the boundaries of two or more canonical phonemes. This phenomenon necessitates moving beyond the categorical judgments by analyzing pronunciation using units more granular than phonemes. While previous studies proposed phonemic posterior-grams (PPG) in this context, these features remain tied to a categorical framework when derived through phonemic association. This study employs Wav2Vec2.0 code vectors as an alternative description unit, granted that the self-supervised learning (SSL) representation is free from external phonemic stipulation. We first evaluate whether code vectors encode L1 and L2 speech differently and use them to identify patterns among categorically identical error samples. To this end, the used inventory in single-speaker data of L1 (CMU ARCTIC) and L2 (L2 ARCTIC) is first compared. Then, substitution errors are selected from our L2 analysis NIA037 data using the model finetuned with TIMIT. For each error type, sub-categorical inspection concerns deriving dominant patterns from corresponding featural sequences and interpreting them using raw code vector clustering results and phoneme-code vector co-occurrence probabilities, both constructed from the L1 reference data TIMIT. The findings revealed that, beyond discerning L2 speech, code vectors can effectively quantify the between-categorical positions of error patterns in the pronunciation spectrum. Specifically, Euclidean distances between pattern vectors reflected phonetically grounded variation phenomena documented in existing L2 literature.

Keywords: Wav2Vec2.0 코드벡터; 표현 학습; 비범주성; 오류 패턴

Keywords: Wav2Vec2.0 code vector; self-supervised learning representation; between-categorical; error pattern

1. 서론

제2 언어 발음은 모국어의 영향으로 목표 언어의 표준 발음과 차이가 나며, 이는 단순한 표준 음소의 교체로 설명하기 어려운 경우가 많다. 모국어와 목표 언어의 음성 체계가 근본적으로 달라 발생하는 현상이기 때문이다. 예를 들어, 광동어 모어 화자가 발음하는 영어 /n/ 음소는 종종 /n/과 /l/의 중간의 성격을 지닌다(Li et al., 2020; Mao et al., 2018). 두 음소를 음절 초성에서 이음으로 여기는 모국어 체제의 변화에 의한 현상이다. 이러한 발음 변이는 음소 수준의 분석만으로 설명되기 어렵기에, 음소 이하의 세분화된 단위의 도입이 제기된다. 아울러 두 (음소)범주 사이의 오류를 체계적으로 분석하기 위해서는, 반복되는 발음 변이의 규칙성(패턴)을 찾아내야 한다. 그러나 세분화된 단위를 직접 정의하고 이를 바탕으로 발음을 표현하며, 오류의 규칙성을 도출하는 과정은 많은 시간과 전문인력을 요구한다. 이 같은 배경 하, 발음 오류의 세분화된 패턴을 발견하기 위해 비지도 학습 기법을 활용한 연구들이 시도되어왔다(Li et al., 2018, 2020; Mao et al., 2018; Wang & Lee, 2013, 2015).

기존 연구들은 공통적으로 MFCC(mel-frequency cepstral coefficients) 음향 특징과 음소 라벨로 훈련된 모델의 음소 사후 확률(phonemic posterior-gram, PPG)을 세분화된 음성 표현 자질로 삼았다. 또한 음성 신호에서 반복되는 특징적인 패턴을 찾는 음향 패턴탐색 기법(acoustic pattern discovery)을 통해 발음 오류와 관련된 패턴을 추출하였다. 이때 분포된 신호의 유사한 특징을 묶는 군집화(clustering)가 활용된다. 음향 패턴탐색 연구의 지평을 연 Park & Glass(2007)에서는 DTW(dynamic time warping)를 이용해 두 음성 시퀀스 사이에서 유사도가 높은 정렬 경로(alignment path)를 선별하고 인접 그래프(adjacency graph)를 만들어 군집화한 단위를 어휘적 의미를 갖춘 패턴으로 간주했다.어휘 단위(lexical unit)가 발화에서 반복적으로 사용되듯, L2 발음 오류 또한 음성 체계 간 상호작용에 의해 언어학적 유의성을 가지며 반복된다. 이에 착안하여 Li et al.(2018), Wang & Lee(2013, 2015)에서는 동일한 음소 범주에 속하는 발음 표본들의 PPG를 군집화하여 음소 세부 유형을 분류하고자 했다. 한편 Mao et al.(2018)은 전체 발화의 PPG를 군집화해 /n_l/처럼 기존의 음소 범주에 속하지 않는 새로운 운영 단위를 발견하고자 했다.

그러나 PPG는 지도학습 자질이자 범주적 사고를 탈피하지 못한다는 한계를 지닌다. 모델이 학습한 음소 집합에 대한 각 입력 음성프레임의 소속 확률을 나타내므로, 음소 라벨을 동반한 지도학습 과정이 필수적이다. 이때 충분한 양의 데이터 라벨이 확보되지 않으면, 자질의 음성 표현력이 저하된다. 다시 말해 PPG를 분석자질로 사용하는 것은 비지도 기법으로 노동 비용을 절감하고자 하는 연구 흐름에 반한다. 또한 사전 정의된 음소 범주에 대한 분류 결과이므로, 범주적 사고로부터 자유로울 수 없다. 이는 음소 이상의 특징을 파악하기 위해 다시 음소적 틀로 회귀하는 모순점을 드러낸다. 위 두 한계점들을 개선하고자 본 연구에서는 Wav2Vec2.0(Baevski et al., 2020) 코드벡터를 대체 분석 자질로 탐색해보고자 한다.

Wav2Vec2.0는 자기지도학습(self-supervised learning, SSL) 모델로, 입력된 레이블 없이 데이터의 자기 상관성을 활용하여 의미있는 표현을 학습한다. SSL 모델의 표현 학습(representation learning)은 문자를 보지 않고 소리만 듣고 단어의 의미를 배우는 신생아의 언어학습 기전을 모방하여 발전했다(Liu et al., 2022). 이 과정은 데이터 내에서 의미 있는 표현 단위를 자동으로 찾아내는 음향 패턴탐색의 지향점과 맞닿아 있다. 따라서 학습된 표현은 이미 패턴탐색의 속성을 반영한다.

음향 패턴 분석이 음성 언어의 음소나 형태소와 같은 기본 단위를 찾아내듯, 자기지도학습(SSL)을 통해 얻은 표현들은 음운론적인 패턴, 어휘적인 의미, 그리고 통사론적인 구조를 반영하여 언어의 다양한 측면을 포착한다. Martin et al.(2023)은 HuBERT(Hsu et al., 2021) 모델이 입력 음성을 음소(phoneme)와 음성(phone) 단위에서 각기 다른 표현으로 효과적으로 인코딩할 수 있음을 입증했다. 모델은 음운 중성화되는 서로 다른 음성을 동일한 음소로 인식하고, 같은 표현으로 인코딩했지만, 같은 음소의 변이음은 다른 표현으로 구분하였다. Pasad et al.(2023)은 HuBERT(Hsu et al., 2021), Wav2Vec2.0(Baevski et al., 2020), WavLM(Chen et al., 2022), FaST-VGS+(Peng & Harwath, 2022) 등 다양한 자기지도 학습 모델의 표현들이 소리 정보뿐만 아니라 단어 수준의 속성도 내포하고 있음을 표준 상관 분석, 음향 단어 판별, 단어 분할의 방법들을 통해 입증했다. 이때 사전 학습 목표에 따라 어휘 정보를 가장 풍부하게 담고 있는 층위가 달랐다. 소리의 국소적 특징을 재구축하는 것을 목표로 하는 모델은 중간 층위에서, 중간 층위의 이산적 단위를 재구축하는 것을 목표로 하는 모델은 더 상위 층위에서 가장 많은 어휘 지식을 보유했다. 나아가, 단어 판별 정보는 각 음소 분절의 중간 지점 프레임에서 가장 명확하게 나타났다. Shen et al.(2023)은 통사론적 정보가 모델의 학습 목표를 최적화하는 데 유용하다면, 학습된 모델이 통사론적 정보를 표현할 수 있다는 가정을 검증했다. Pasad et al.(2023)에서 사용된 것과 동일한 모델들의 통사론적 구조 인코딩을 TreeDepth Probe와 TreeKernel Probe라는 두 가지 통사론적 탐색 기법을 활용하여 분석했다. TreeDepth Probe 분석 결과, 구성소 나무의 최대 깊이는 중간 층위부터 깊은 층위에서 주로 나타났다. 또한, TreeKernel Probe를 활용한 유사도 분석을 통해 모델이 학습한 통사론적 정보는 주로 어휘 정보와 긴밀하게 연결되어 있음을 확인했다. SSL을 통해 얻은 표현들이 음운론적, 어휘적, 통사론적 특징을 반영한다는 사실은 본 연구에서 이를 발음 오류 분석에 활용하는 근거가 된다.

한편, 이 같은 언어학적 유의성에 착안하여 자기지도 표현 학습(self supervised representation learning)을 발음 평가에 활용한 연구들이 존재한다. Kim et al.(2022)은 Wav2Vec2.0 (Baevski et al., 2020)의 각 층에서 추출한 표현들을 양방향 LSTM을 이용하여 심층 분석하고, 이를 종합해 음성 맥락 벡터(audio context vector)를 만들었다. 같은 방법으로 텍스트 임베딩을 처리하여 언어학적 맥락 벡터(linguistic context vector)를 생성하고, 이를 음성 맥락 벡터와 결합한 후, 인간 평가자의 점수를 예측하도록 선형 회귀 모델을 학습시켰다. Anand et al.(2023)은 별도의 선형회귀 모델 설계 없이 Wav2Vec2.0(Baevski et al., 2020) 표현 특징을 활용하여 음성 시퀀스를 벡터로 변환한 후, 이를 정답 표현 벡터와의 거리로 비교해 가독성(intelligibility)을 평가했다. 발음열의 시간적 변형을 고려하여 정확한 거리를 측정하기 위해 DTW 알고리즘을 사용하였으며, 이는 Park & Glass(2007)의 연구에서 제시된 패턴탐색 기법과 유사한 접근 방식이다. 한편, Bannò et al.(2023)은 자기지도학습 모델이 다양한 음성 언어 처리 문제에 적용될 수 있다는 점에 착안하여, SSL 모델 위에 별도의 평가 모듈(grader)을 추가해 L2 말하기 능력 점수를 산출했다. 사전학습된 모델이 음성인식, 화자인식, 키워드 스팟팅 등 다양한 음성 관련 하위 작업에 적용될 수 있다는 범용성을 확장한 예시다. 위 범용성을 발음 오류 분석 과제에 적용하고자 한 연구들 또한 존재하지만, 자기지도 학습 기법의 효력을 직접 활용하기보다는, 지도 학습 기반의 파인튜닝에 의존하는 경우가 많았다(Peng et al., 2021; Wu et al., 2021; Xu et al., 2021). 모델이 사전에 정해진 음소 라벨 집합을 기반으로 음성을 분류하도록 학습(파인튜닝)되었기 때문에, 평가 시스템 역시 인식된 음소 시퀀스를 정확한 표준 음소 시퀀스와 비교하는 범주형 평가 방식을 벗어나기 어렵다.

본 연구는 기존 연구들과 달리 자기지도 표현 학습의 효력을 직접 활용하여 비범주적 발음 오류 분석을 수행한다. 자기지도학습을 통해 습득된 표현 자질은 음소 라벨 없이 데이터 속성으로부터 유추된 운영 단위이므로 PPG와 달리 범주적 제약을 받지 않는다. 코드벡터는 Wav2Vec2.0모델의 두 가지 표현 학습 자질 중 하나이다. 이를 자기지도학습 자질의 대표적인 예로 채택한 이유는 회수 가능성, 음성학적 유의성, 그리고 음소보다 더 세분화된 단위라는 점 때문이다.

Wav2Vec2.0은 다층 합성곱(CNN) 특징 인코더와 트랜스포머(transformer) 컨텍스트 인코더로 구성된다. 원시 음성 신호가 CNN 특정 인코더를 통과하면 첫 번째로 음성의 본질적인 특징을 표현한 잠재 자질(latent representation)이 학습된다. 표현된 특징에는 음높이, 음색, 스펙트럼 등의 데이터 내제적 정보가 포함된다. 후속되는 트랜스포머 인코더는 잠재 자질을 입력받아 음성이 실현되는 문맥 정보를 학습한 컨텍스트 벡터(context vector)를 산출한다. 문맥 정보의 학습은 마스킹 된 구역에 대응되는 잠재 자질을 올바르게 예측하는 자기지도학습 목표로 설명된다. 이때 잠재 자질을 감독 신호로 활용하고자 양자화한 결과가 코드벡터다(discrete latent speech representation). 따라서 Wav2Vec2.0에는 양자화되지 않은 잠재 자질, 코드벡터, 컨텍스트 벡터가 존재한다. 이 중 컨텍스트 벡터는 약한 감독(weak supervision) 아래 생성되므로, 온전히 비지도적인 잠재 자질보다 발음의 원론적인 특성과 덜 밀접하다. 잠재 자질 중에서도 코드벡터는 양음성 샘플을 구분하는 자기지도학습 목표와 직결되므로, 모델이 정의한 발화 구성의 가장 기본적인 단위로 간주 될 수 있다. 또한 Wav2Vec2.0 코드벡터는 타 자기지도학습 모델의 감독신호 자질들과 날리 모델 내부에서 학습되어 회수 가능한 장점이 있다. 대조적으로 비슷한 전방 업무(upstream task)를 지닌 HuBERT(Hsu et al., 2021)는 오프라인에서 진행된 군집화로 감독 신호가 구성되기에 모델로부터 양자화 벡터를 직접 회수할 수 없다.

아울러 Wav2Vec2.0저서 Baevski et al.(2020)에서 진행된 코드벡터의 음성학 유의 검증 실험(phonetic probing)은 코드벡터가 음소와 연관돼있으며 동시에 음소보다 세분화된 단위임을 보여준다. 코드벡터 종류별 음소 분포의 조건부 확률을 들여다보면, 하나의 코드벡터는 하나의 음소를 대표하지만 하나의 음소를 표현하는 데는 여러 개의 코드벡터가 사용되는 비대칭적인 분포를 보인다. 이것은 자질이 음소와 연관되어 있으면서도, 하나의 음소 내에서 나타나는 발음 변이를 세밀하게 구분할 수 있는 더 작은 단위임을 의미한다. 음성학적 유의성은 다국어 사전학습 모델 XLSR-53저서 Conneau et al.(2020)에서 진행된 빈도 분포 조사에서 다시 한번 검증된다. 모델의 사전학습에 활용된 언어 데이터별 코드벡터 빈도 분포를 조사했을 때, 유사한 언어 쌍 일수록 빈도 분포가 비슷하게 나타났다. 이는 코드벡터가 각 언어의 공통된 음성 특징을 잘 반영하고 있음을 의미한다.

결국 Wav2Vec2.0 코드벡터 활용 근간에는 범주적 사고를 탈피해 음소 이하의 특성을 살펴볼 수 있는 세분화된 접근성과 비지도 패턴탐색에 적합한 속성을 이미 갖추었다는 점이 존재한다. 이에 착안하여, 자질을 활용한 발음 분석은 선행 연구의 오류 패턴탐색 기법들과 모델의 음성학 유의성 검증실험들을 결합해 진행된다. 먼저 분석에 앞서 Conneau et al.(2020)에서 언어별 변별력을 확인하기 위해 쓴 빈도 조사를 같은 언어 내에서도 L1과 L2 음성을 구별할 수 있는지 확인하기 위해 차용했다. L2 발음 변이를 기술하는 데 쓰일 만큼 자질이 소리 변이의 미묘한 차이를 포착할 수 있을지 사전 검증하기 위한 과정이다. 두 번째로 비범주적 특성 탐구 중에서도 본 연구는 같은 음소적 정의 내 다양성을 반환하고자 하는 Li et al.(2018), Wang & Lee(2013, 2015)와 흐름을 같이 한다. 따라서 해당 연구들과 같이 강제 정렬을 통해 나뉜 표준 음소 구간들을 따로 분석하며, 동일 음소 구간별 음성 프레임열 집합에 Li et al.(2018)의 열 분석론을 적용할 예정이다. 다만 모든 구간의 표본들을 분석한 위 접근법과 달리, 범주적 오류와 결부된 구간들로 분석 대상을 한정한다. 본 연구는 범주적 탐지에서 간과되는 오류 세부 양상을 톺아보는 것이 목표이기 때문이다. 따라서 코드벡터를 추출할 사전학습 모델을 파인튜닝 해 분석 표본을 이룰 교체오류들을 사전 선별했다. 그 후 강제 정렬 정보를 참조해 표준음소 - 인식결과가 불일치 하는 음성 구간들을 기록한 뒤, 상응되는 코드벡터열들을 추출했다. 열분석을 적용해 우세한 패턴들이 기록되면 해석을 위해 파인튜닝에 활용한 L1 데이터의 코드벡터 정보를 참조한다. Baevski et al.(2020)의 자질 종류별 함께 나타나는 음소 분포를 그린 확률 그래프를 재구축해, 음성학적 속성을 유추하는 데 사용하였으며, 데이터에 현존하는 모든 자질들을 추출한 뒤 군집화해 패턴 간 관계성을 파악했다. 군집화는 앞서 언급되었듯이, 유사성 기반으로 패턴을 찾고자 기존 연구들에서 널리 활용된 방법이다(Li et al., 2018; Mao et al., 2018; Wang & Lee, 2013, 2015).

궁극적으로 L2 발음 오류의 단일 음소 범주 이상의 특성을 비지도 방식으로 찾아낼 수 있는지 실험하고자 한다. 자질이 원어민 음성과 다른 L2 음성 체계의 독자성을 인지하며, 오류의 범주 사이 특징을 환원할 수 있을지 조사할 것이다. 본 연구는 분석 대상이 될 범주적 오류를 교체 오류로 한정하였는데, 삽입 혹은 탈락의 경우 강제 정렬 대응 음성 구간이 불명확하기 때문이다. 또한 교체오류는 관련 범주가 명시돼있기에 비범주성을 가시화하기 용이하다. 따라서 교체 범주 사이 오류 패턴 분포를 그리며, 그 양상이 음성학적 근거를 수반하는지 점검해 볼 것이다.

2. 방법론

2.1. 코드벡터 빈도조사

잠재 자질의 양자화는 고차원 벡터를 여러 개의 하위 벡터로 나누고 각 하위 벡터를 별도의 코드북으로 매핑하는 PQ(product quantization) 기법을 따른다. 각 분할분의 양자화를 담당하는 다수(G개)의 코드북이 동시에 학습되며, 하나의 코드북은 소리를 대표할 V개의 코드 단어(code word)을 내포한다. CNN 인코더를 통과한 음성 프레임은 G개의 하위 벡터로 분할되어 코드북 별로 하나의 단어를 선택한다. 그 후, G개의 단어를 연쇄(concatenate)하여 음성 프레임을 대표할 표현이 최종적으로 완성된다. 따라서 코드 벡터의 빈도는 1) 개별 코드 단어 수준과 2) 연쇄된 단어 쌍 수준, 이 두 가지 차원에서 살펴볼 수 있다.

2.1.1. 코드 단어 빈도 조사

양자화에 활용되는 코드 단어 수는 V×G개로 한정되어있으며, 각 단어 종류는 1부터 V까지의 인덱스로 반환될 수 있다. 따라서 개별 코드 단어 빈도는 각 코드북에서 채택된 인덱스를 기록한 뒤, 한 코드북 내 V개 단어의 발생 기록을 G번 합산해 도출할 수 있다. 일명 각 차수가 g번째 코드북의 v번째 단어 빈도를 나타내는 V×G 차원의 벡터로 분포를 그려 비교해볼 수 있다. 이는 Conneau et al.(2020)에서 코드 단어 분포의 언어 간 변별력을 확인하기 위해 그림 1과 같이 시도된 바 있다.

그림 1. | Figure 1. 의 코드 단어 빈도 벡터 | Code word frequency vectors in

Download Original Figure

위 예시에서 사전학습 된 다중화자 언어 데이터별로 빈도를 조사했다면, 본 연구에서는 같은 발화목록을 사용하는 L1과 L2 단일화자 데이터에서의 빈도를 조사한다. 개별화자의 빈도 분포가 원어민성을 근거로 나뉘는지 확인하는 것이 목표다. 이에 조사할 음성파일을 강제 정렬하여 음소 단위로 나누고, 각 음소 구간에서 가장 많이 나타나는 코드벡터 인덱스를 기록하였다. 기록은 인덱스-발생 빈도 쌍의 사전 형태로 json 파일에 저장되었다. 코드북 별로 구축된 빈도 파일은 V×1차원의 확률 벡터로 재구성된다. 이때 사용되지 않은 인덱스는 0의 값이 할당됐다. 그림 2와 3은 빈도 기록 과정과 결과 예시다. 그림 2에서 /s/를 대표할 코드북 1의 22번째 단어와 코드북 2의 234번째 단어가 채택되면 그림3 파일들의 22번째와 234번째 값이 증가할 것이다.

그림 2. | Figure 2. 코드 단어 빈도 기록 | Code word frequency recording

Download Original Figure

그림 3. | Figure 3. 코드북별 빈도 기록 예시 | Frequency recording examples per codebook

Download Original Figure

2.1.2. 코드 단어 쌍 빈도 조사

발생 가능한 개별 코드 단어 종류와 달리 발생 가능한 단어 조합의 수는 데이터별로 상이하며, 이론적으로 V^G 종류가 구현될 수 있다. 개별 단어 빈도 조사와 마찬가지로 벡터 구축을 통해 화자 데이터별 자질 이용분포를 비교할 예정이다. L1과 L2 데이터를 아우르는 공통된 공간에서 분포를 비교하고자, 사용된 전체 조합 수를 기준으로 발생 빈도를 측정했다. 분석한 L1 및 L2 발화를 통틀어 5,712쌍의 조합이 관찰되기 때문에 5,712차원의 벡터에 확률분포가 그려졌다.

마찬가지로 강제 정렬된 음성 구간을 대표하는 인덱스를 추출했다. 단, 개별 인덱스 기록이 아닌 쌍으로 회수되므로 그림 4와 같은 기록 형태를 보였다. 그림 4는 그림 2와 같은 음소 /s/에 해당하는 음성 구역의 코드벡터 분포다. 그림 2에서 코드북 1의 22번째 단어와 코드북 2의 234번째 단어가 각 코드북을 대표할 단어로 따로 기록되었다면, 그림 4에서는 두 단어가 [22. 234]라는 짝을 이루며 가장 높은 빈도를 기록한다. 그림 5는 단어 쌍 기록을 저장해 구축된 그림 3과 동일 화자의 빈도 파일이다.

그림 4. | Figure 4. 코드 단어쌍 빈도 기록 | Code word pair frequency recording

Download Original Figure

그림 5. | Figure 5. 코드 단어 쌍 빈도 기록 예시 | Frequency recording examples of code word pairs

Download Original Figure

2.1.3. 빈도 벡터 비교

최종적으로 조사된 빈도는 자질의 L1-L2 변별력을 검증하는 데 활용되며 두 가지 비교 거점 아래 놓인다. 첫째, 잠재공간(latent space)에서 벡터 간 군집화를 통해 거시적 차원에서 차별화 양상을 확인했다. 둘째, 보다 세분화된 조사를 위해 개별화자 간 사용목록 차이를 비율과 수 기준에서 비교했다. 벡터 군집화는 단어 빈도 벡터와 단어 쌍 빈도 벡터에 모두 적용되지만, 화자별 사용목록은 단어 쌍 수준에서만 비교된다. 단어 목록은 V×G개로 한정되어 있기에 같은 목표 음소 집합을 지닌 언어 내에서 사용된 단어 종류가 유의미한 차이를 보이지는 않을 것이기 때문이다. 이는 그림 1에서 동일 언어가 아닌 유사한 언어들 사이만 하더라도 단어 분포가 근접한 점으로부터 예측될 수 있는 사실이다.

결국 군집화 실험은 그림 1의 결과를 재현하고, 이를 단어 연쇄 수준으로 확장하는 두 가지 실험으로 구성된다. 화자 간 목록 비교에서는 각 화자의 빈도 벡터에서 0이 아닌 값의 차원을 구성하는 단어 집합 사이 교집합 비율과 크기를 분석한다.

2.2. 범주적 오류탐지

앞서 본 연구의 목적은 음소 범주 이하 다양성 탐색이며, 그 대상이 교체오류로 한정됨을 언급한 바 있다. 이때 분석할 교체오류를 선정하기 위해 음소인식 결과와 정답 발음열을 비교해, 범주적 오류를 검출하는 방법(mispronunciation detection and diagnosis, MDD)을 활용했다. 우선 음소인식을 위해 코드벡터를 추출한 사전학습모델을 L1 데이터로 파인튜닝 했다. 이후 MDD로 기록된 오류 목록으로부터 분석 대상이 될 교체오류 표본들을 높은 출현 빈도와 언어학적 유의성을 기준으로 선정했다. 빈도를 고려한 이유는 보편적인 오류 패턴 유형을 도출하기 위해서는 충분한 자료가 확보되어야 하기 때문이다. 또한 인식기의 결함 때문이 아닌, 언어 습득 환경에서 실현 가능성 있는 오류 경로를 분석하기 위해 후자의 기준이 적용되었다. 이에 기존 한국인의 영어 L2 연구(Choi & Oh, 2021; Kim & Rhee, 2019; Yang, 2013 등)에서 기술된 현상들을 참조했으며, 타 음성인식 기반 L2 오류 연구(Hong et al., 2014) 결과를 활용하여 오류 탐지의 객관성을 높였다. 표 1은 기록된 오류 목록과 이탤릭체의 선별된 분석 표본들 사이의 연계성을 드러낸다.

표 1. | Table 1. 분석을 위한 교체 오류 선정 | Selection of substituion error for the analysis

정답 발음	인식 결과	빈도	언어학적 유의성
Z	S	11,204	모국어 유성 마찰음 부재
T	***	7,668	-
L	R	5,549	모국어 단일 유음 대응 음소
AE	EH	6,966	모국어 모음체계 긴장-이완 대립 부재
***	IH	4,791	음절 구조 차이
N	***	3,386	-

^*** 대응되는 음소가 부재함.

Download Excel Table

2.3. 비범주적 오류 양상 분석

수집된 교체오류 데이터를 분석하기 위해서, 각 발음 표본을 대표하는 코드벡터열이 추출되어야 한다. 강제 정렬 발음 사전과 음소 인식기가 사용하는 음소 집합을 일치시킴으로써, 오류 구역의 시간적 기록이 가능했다. 그림 6은 IH에서 IY로 교체되는 오류 표본의 시간대를 기록하는 과정을 보여준다. 각 음성파일 내 오류 표본들의 시간대가 기록되면, 그림 7과 같이 기록된 시간 내 음성 프레임들에 대응되는 코드벡터열을 뽑을 수 있다.

그림 6. | Figure 6. IH에서 IY 교체오류의 시간 기록 | Recording of time stamps in IH to IY

실험	2.1 빈도조사	2.2 ~ 3 오류 분석
L1	CMU ARCTIC (5명 북미화자: bdl, slt, jmk, rms, clb)	TIMIT (파인튜닝: train split, 참조자료 구축: train & test split)
L2	L2 ARCTIC v5.0 (6개 모국어 배경을 지닌 24명 화자)	NIA037 교육용 한국인의 영어 음성 데이터 (낭독체 발화의 train split 중 문장 단위 발화)

음소 종류	교체 경로	오류
마찰음	유성음>무성음	Z to S
마찰음	연속성>불연속성 (마찰음>파열음)	DH to D V to B F to P
유음	설측성 +/−	L to R R to L
모음	긴장성 +/−	IH to IY IY to IH AE to EH EH to AE
	중모음>저모음	AH to AA
	이중모음>단모음	EY to EH OW to AO

지표	긴장성
긴장모음	ae, aw, ay, ey, iy, ow, oy, uw
이완모음	aa, ah, ao, ax, axr, eh, er, ih, ix, uh, ux
지표	전후설성
전설 음소	eh, er, ey, ih, iy, y, l, ix, el, dx, b, bcl, f, p, n, m, v, dcl, dh, pcl, tcl, t, z, nx, em, th, s
후설 음소	aa, ae, ah, ao, aw, ow, uh, uw, ay, oy, w, ux, r, hh, q, k, hv, ng, g, gcl

지표	긴장-대-이완 비율(tense-to-lax ratio)
코드북1	191 (0.511)>42 (0.375)>22 (0.315) [-tense]
코드북2	234 (9.744)>268 (2.981) [+tense]
지표	후설-대-전설 비율(back-to-front ratio)
코드북1	191 (1.687)>232 (0.7)>22 (0.559) [-back]
코드북2	212 (2.084) [+back]
지표	전설-대-후설 비율(front-to-back ratio)
코드북1	42 (2.666)>22 (1.788) [-back]
코드북2	234 (11.363)>319 (3.606) [+back]

Wav2Vec2.0 코드벡터를 활용한 음소 범주 사이 L2 오류 패턴 탐구*

국문초록

Abstract

1. 서론

2. 방법론

3. 실험

4. 실험 결과

5. 논의

6. 결론

Notes

References/참고문헌

Wav2Vec2.0 코드벡터를 활용한 음소 범주 사이 L2 오류 패턴 탐구^*