카테고리 없음

Phoneme vs Viseme

ZenoAhn 2025. 3. 22. 12:55

1. 포님 (Phoneme)

  • 정의: 사람이 말할 때 구분 가능한 소리의 최소 단위
  • 예시:
    • "cat"이라는 단어는 [k] + [æ] + [t] → 3개의 포님
  • 영어에는 약 44개의 포님
  • 음성 인식(Speech Recognition)은 이 포님을 구분해서 텍스트로 바꿔줌

핵심

  • 듣는 입장에서의 단위
  • 말하는 방식, 악센트, 빠르기 등에 따라 포님 발음은 달라질 수 있음

2. 비짐 (Viseme)

  • 정의: 말할 때 나타나는 입술, 혀, 턱 등 얼굴의 움직임의 시각적 단위
  • 쉽게 말하면, 보이는 발음
  • 여러 포님들이 같은 입 모양을 가질 수 있어서, 몇 개의 포님이 하나의 비짐으로 매핑
  • 예시:
    • [p], [b], [m] → 입을 다물기 때문에 같은 비짐으로 보임

핵심

  • 보는 입장에서의 단위 (입 모양)
  • 시각 정보로 음성을 인식할 때 사용 (예: 영상 속 인물의 립싱크, AI 아바타, 보청기 기술)

예시로 비교

단어포님 (Phonemes)비짐 (Visemes, 입 모양)
"bat" [b] + [æ] + [t] [입 다무는 모양] + [입 크게 벌림] + [치아 터치]
"mat" [m] + [æ] + [t] [입 다무는 모양] + [입 크게 벌림] + [치아 터치]

→ 여기서 [b]와 [m]은 소리는 다르지만, 입 모양(비짐)은 거의 같음

 

정리

항목 Phoneme (포님) Viseme (비짐)
기준 소리 입 모양
사용하는 분야 음성 인식, TTS 등 립 리딩, 애니메이션, 비디오 기반 음성 인식
관계 여러 포님 → 하나의 비짐으로 매핑 가능 시각적으로 유사한 소리들 묶음