Miso One – 감정 표현에 특화된 80억 파라미터 오픈‑웨이트 TTS 모델

출처: newsletter · 2026. 6. 4.

Miso Labs가 감정 표현을 자연스럽게 담아내는 **Miso One** 음성 합성 모델을 공개했다. 80억 파라미터 규모의 Text‑to‑Speech(TTS) 모델로, 기쁨, 망설임, 슬픔 등 다양한 감정을 실시간에 가깝게 구현한다. 응답 지연은 **110 ms** 로 인간 평균 대화 반응 속도(200‑250 ms)보다 빠르며, 쇼츠 내레이션, 팟캐스트, 교육 영상 등 즉시 활용 가능한 수준이다. GitHub에 모델 코드와 샘플이 공개돼 연구·산업 현장에서 자유롭게 적용 가능하다. 쉬운 설명: 보통 AI 목소리는 ‘똑같은 톤’에 가깝지만, Miso One은 “행복한 얘기”, “망설이는 얘기”, “슬픈 얘기” 등 감정을 입혀서 말해요. 그리고 말이 나오기까지 걸리는 시간이 0.11초라서, 사람과 대화할 때 딜레이가 거의 느껴지지 않아요. 그래서 유튜브 짧은 영상이나 팟캐스트 같은 곳에 바로 써먹을 수 있습니다. 관련분야: 음성 합성·텍스트‑투‑스피치, 감정 AI, 실시간 인터랙션, 멀티미디어 콘텐츠 제작 원문 보기 →