1. 포님 (Phoneme)
- 정의: 사람이 말할 때 구분 가능한 소리의 최소 단위
- 예시:
- "cat"이라는 단어는 [k] + [æ] + [t] → 3개의 포님
- 영어에는 약 44개의 포님
- 음성 인식(Speech Recognition)은 이 포님을 구분해서 텍스트로 바꿔줌
핵심
- 듣는 입장에서의 단위
- 말하는 방식, 악센트, 빠르기 등에 따라 포님 발음은 달라질 수 있음
2. 비짐 (Viseme)
- 정의: 말할 때 나타나는 입술, 혀, 턱 등 얼굴의 움직임의 시각적 단위
- 쉽게 말하면, 보이는 발음
- 여러 포님들이 같은 입 모양을 가질 수 있어서, 몇 개의 포님이 하나의 비짐으로 매핑
- 예시:
- [p], [b], [m] → 입을 다물기 때문에 같은 비짐으로 보임
핵심
- 보는 입장에서의 단위 (입 모양)
- 시각 정보로 음성을 인식할 때 사용 (예: 영상 속 인물의 립싱크, AI 아바타, 보청기 기술)
예시로 비교
단어포님 (Phonemes)비짐 (Visemes, 입 모양)
"bat" | [b] + [æ] + [t] | [입 다무는 모양] + [입 크게 벌림] + [치아 터치] |
"mat" | [m] + [æ] + [t] | [입 다무는 모양] + [입 크게 벌림] + [치아 터치] |
→ 여기서 [b]와 [m]은 소리는 다르지만, 입 모양(비짐)은 거의 같음
정리
항목 | Phoneme (포님) | Viseme (비짐) |
기준 | 소리 | 입 모양 |
사용하는 분야 | 음성 인식, TTS 등 | 립 리딩, 애니메이션, 비디오 기반 음성 인식 |
관계 | 여러 포님 → 하나의 비짐으로 매핑 가능 | 시각적으로 유사한 소리들 묶음 |