1. 포님 (Phoneme)정의: 사람이 말할 때 구분 가능한 소리의 최소 단위예시:"cat"이라는 단어는 [k] + [æ] + [t] → 3개의 포님영어에는 약 44개의 포님음성 인식(Speech Recognition)은 이 포님을 구분해서 텍스트로 바꿔줌핵심듣는 입장에서의 단위말하는 방식, 악센트, 빠르기 등에 따라 포님 발음은 달라질 수 있음2. 비짐 (Viseme)정의: 말할 때 나타나는 입술, 혀, 턱 등 얼굴의 움직임의 시각적 단위쉽게 말하면, 보이는 발음여러 포님들이 같은 입 모양을 가질 수 있어서, 몇 개의 포님이 하나의 비짐으로 매핑예시:[p], [b], [m] → 입을 다물기 때문에 같은 비짐으로 보임핵심보는 입장에서의 단위 (입 모양)시각 정보로 음성을 인식할 때 사용 (예: 영상 속..