[한국공공정책신문=최진실 기자]
◇ 음성인식의 개념
음성인식(spech recognition)이란 컴퓨터에 인간의 의지를 전달하는 기법은 원래 키보드 등의 입력장치로 컴퓨터가 이해할 수 있는 형태로 입력된 문자(프로그램 등)대로 명령을 실행하는 흐름이 일반적이었다.
다양한 입력 방법을 생각할 수 있는 가운데, 하는 말도 이 입력의 하나로 이용하는 연구가 이루어져 왔다. 구어를 문자열로 변환하는 기능은 ‘음성입력’이라고 하고, 그리고 음성으로 어플리케이션의 조작을 ‘음성조작’이라고 한다. 또 이야기하고 있는 사람을 특정하는 기능을 ‘화자인식’이라고 하고, 각각을 크게 정리하여 '음성인식'이라고 한다.
◇ 음성인식의 특징과 기법
음성의 특징은 크게 두 가지로 나누어 다루어지는 경우가 많으며, 각각 음향적인 특징과 언어적인 특징이라고 한다. ① 음향적인 특징 : 인식대상의 음소(音素, 소리 파형의 일부를 일정한 특징을 보이는 부분에서 잘라낸 것)가 각각 어떠한 주파수 특성을 갖고 있는지를 나타낸 것으로 ‘음향모델’이라고 불린다. ② 언어적인 특징 : 음소(音素)의 정렬 방법에 관한 제약을 나타낸 것으로 언어모델이라고 불린다. 음성인식에서는 통계적 수법이 자주 이용되고 있다. 음향모델이든 언어모델이든 다양한 사람이 말하는 음성 데이터를 대량으로 축적하고, 학습데이터로써 음성의 특징을 축적하여 인식대상이 되는 입력 음성과 비교하면서 가장 가까운 인식 결과를 출력하게 된다.
초기의 음성인식 수법으로서 ‘동적 시간 신축법(Dynamic time warping, DTW)’이라고 하는 것이 있지만, 이것은 인간 보행의 패턴은 재빠르게 걸어도, 천천히 걸어도, 나아가서는 보행의 화상을 빨리 보내도 천천히 재생해도 일정한 패턴이 존재한다는 것이다. 음성인식 시스템에는 이 외에도 다양한 기술을 사용하고 있다. 어휘가 많은 시스템에서는 음소(音素)에 대해 문맥 의존성을 고려하거나 대화자 간의 차이나 녹음 상황의 차이를 정규화하기 위해 켑스트럼(cepstrum)의 정규화가 이뤄지기도 한다.
그 밖에도 ‘성도 길이 정규화(VTLN)’등의 방법이 있다. 음성인식의 정확도를 향상시키기 위해서는 매우 많은 음성 데이터가 필요하다. 초기 단계에서는 이 데이터는 각각의 연구자가 자력만으로 수집하고 있었지만, 곧 한계가 보인다. 그리고 이 데이터를 많은 연구자들이 공유하는 구조가 생겼다. 이렇게 함으로써, 보다 많은 음성 데이터로의 연구가 진행되어 왔지만, 그래도 역시 자력으로 수집이라는 것은 한계가 있다.
그래서 최근에는 이 ‘자력으로 수집한다’라고 하는 흐름에서, ‘마음대로 수집된다’라고 하는 흐름으로 바뀌어 왔다. 음성인식 시스템에는 빠른 처리능력과 메모리가 필요하다. 아무래도 이것을 가지고 다니는 것은 무리가 있지만, 현재의 휴대전화 네트워크는 매우 고속의 통신이 가능해져, Siri와 같은 클라우드 기반의 음성인식이 이용되는 경우가 많아졌다.
클라우드 기반으로 하면 이용측은 언제 어디서나 컴퓨터의 메모리나 처리능력을 신경 쓰지 않고 이용할 수 있고, 제공 측도 동시에 수만 명의 발성 데이터를 축적할 수 있다는 면도 있다. 또 회의의 회의록과 녹음 데이터 축적 등에 의해, 보다 인간이 하는 말에 가까운 학습이 가능해졌다. 말하는 도중에 ‘아~’라든가 ‘에~’ 등의 필러(filler) 부분이 어느 타이밍에 많이 사용되는지 등의 통계에도 도움이 되고 있다. 향후도 새로운 정밀도 향상을 기대할 수 있다.
이 규 철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG 코치 및 강사
∙ 100세대학 크리에이터 및 칼럼니스트
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27권
∙ 일본(와세다대),중국(복단대·화동정법대)








