다음커뮤니케이션이 자체 개발한 국내 최초 음성 합성 API '뉴톤 톡(Newtone Talk)'을 지난 26일 공개했다.
입력된 글자를 사람처럼 자연스럽게 읽어 주는 것이 특징으로, 지난 2월 공개한 음성 인식 엔진 '뉴톤(NewTone)'의 API에 음성 합성 기능을 더해 만들어졌다.
기존 음성 합성 기술은 대부분 사람이 들어보고 운율과 발성상태를 표기한 후 이를 기반으로 학습하는, 수작업에 의존하는 형태였다. 하지만 뉴톤톡이 자체 개발한 운율 모델은 이 모든 과정을 자동으로 처리하며 다양한 운율을 예측하기 때문에 효율적이다.
또한 다음 검색으로 축적된 데이터를 활용해 가수 '2NE1', 'B1A4'의 이름과 같이 사전에 등록되지 않은 신조어도 '투애니원', '비원에이포'로 정확히 읽고 'ㅋㅋㅋ'은 '크크크'로, 'You&I'와 같이 특수문자가 포함된 경우에는 '유앤아이'로 읽는 등 유연한 대응이 가능하다.
특히 뉴톤 톡은 한 번에 최대 30초의 음성을 합성할 수 있어 입력된 글자를 분석해 음성으로 합성하기까지 0.1초면 된다. 문장을 입력하고 합성 요청을 하면 즉시 들을 수 있다. 뉴톤 톡에는 현재 남성과 여성 각 하나씩의 낭독 음색이 탑재돼 있으며 대화체나 밝은 낭독체 등 4개의 음색이 연내 추가될 예정이다.
활용 범위도 무한하다. 예를 들어 현재 '100미터 앞에서 우회전입니다'라는 형태로 음성 안내하는 내비게이션 앱을 '100미터 앞에서 다음커뮤니케이션 본사를 끼고 우회전입니다' 수준까지 안내 가능하도록 만들 수 있다. 뉴스나 문자, 책 구절 등을 읽어주거나 각종 안내 방송을 대신할 수 있고, 시각 장애인을 위한 생활형 앱 등을 개발할 때도 유용하다.
한편, 뉴톤과 뉴톤 톡은 안드로이드와 아이폰 모두를 지원한다. 다음 개발자 네트워크에서 제휴 신청을 하면 발급 받을 수 있으며 일 1만회까지 자유롭게 사용 가능하다. 이미 뉴톤 API를 발급 받았다면 별도의 재신청 절차 없이 뉴톤 톡 기능까지 이용할 수 있다.
이상호 다음 검색부문 부사장은 “음성 합성 기능의 추가로 입출력이 모두 가능한 음성 엔진이 완성됐다. 이를 통해 음성 기반의 새로운 감각과 메시지를 나눈다는 의미를 담아 음성 인식 엔진을 '뉴톤'으로 음성 합성 엔진을 '뉴톤 톡'으로 이름 지었다”며 “개발자 누구나 음성 인식 및 합성 기술을 자유롭게 활용해 혁신적인 모바일 서비스를 만들 수 있도록 완성된 엔진을 API로 먼저 공개했고 이런 시도가 장기적으로 음성 기술 영역 전반의 발전을 이끌 것이라 기대한다”고 말했다.
Copyright ⓒ 디지틀조선일보 - 디지틀조선TV