
WhisperX는 OpenAI의 Whisper 모델 기반으로, 긴 오디오를 효율적이고 정확하게 받아쓰기하며 단어 단위의 정밀한 시간 정보를 제공하는 시스템이다. 이 리뷰에서는 논문에서 제안하는 기술 중 수식과 코드 블록을 중심으로 정리함1. Voice Activity Detection (VAD)WhisperX는 오디오 전체를 처리하기 전에, 음성이 존재하는 구간만을 식별하는 VAD를 선행적으로 수행한다. 이를 통해 불필요한 연산을 줄이고, 후속 처리를 위한 정제된 오디오 구간을 생성할 수 있다.오디오는 시간 단위로 나뉜 특징 벡터 시퀀스로 표현된다:$A = \{a_1, a_2, ..., a_T\}$ 이에 대한 VAD 모델의 출력은 각 시점의 음성 여부를 나타내는 이진 시퀀스이다:$y = \{y_1, y_..