감성을 읽는 AI 음성인식

보이스 퍼스트 시대

facebook twitter 카카오톡

시험인증_Moment

스마트 기기를 움직이는 기술의 패러다임이 터치에서 보이스로 변화하고 있다. 자판이나 터치보다 편리한 음성명령이 인공지능과 결합하면서 유수의 통신사는 물론 IT 기업이 음성 인공지능 제품 개발 전쟁에 뛰어들고 있다. AI 스피커로 날씨, 길 찾기, 맛집, 음악 등을 추천해주는가 하면 재미있는 이야기로 사용자에게 웃음을 선사하는 보이스 퍼스트 시대가 도래했다. 더 나아가 사람의 감정을 읽고, 대응하는 AI 음성비서 스마트폰 개발로 머지않아 감성을 읽는 인공지능 음성인식 체제가 우리 생활 속에 등장할 것으로 보인다.

AI, 음성인식의 현주소

“알렉사~ Turn on the kitchen light!” 몇 달 전 인기리에 방영되었던 한 TV 프로그램에서 배우 서민정이 뉴욕 집에서 아마존 인공지능 스피커 알렉사에게 던진 명령어이다. 이후 주방의 불이 자동으로 켜졌고, 집안의 기기를 목소리로 간편하게 제어하는 모습이 전파를 탔다. 가끔은 서민정의 영어 문법 오류로 명령어를 인식하지 못하는 해프닝도 있었지만, 이미 우리 생활 속에서 AI 음성인식 기술이 스마트홈으로 적용되고 있음을 보여주었다.

AI 음성인식은 음성을 기반으로 지능형 개인비서(Intelligent Personal Assistant, IPA) 또는 가상 개인비서(Virtual personal Assistants, VPA)로 불린다. 사용자와 소통하며 정보와 서비스를 맞춤형으로 제공하는 소프트웨어로 지난 2011년 애플이 스마트폰에 버튼을 누르지 않고, 음성으로만 작동시키는 음성제어 기술 ‘시리(Siri)’를 아이폰 4S에 적용해 대중들에게 사용됐다. 시리는 날씨 정보뿐만 아니라 교통수단, 맛집, 간단한 농담을 재치 있게 받아주는 기능으로 대중들을 놀라게 했다. 이후 2012년 구글의 ‘구글 나우’, 2014년 마이크로소프트 ‘코타나’, 2015년 페이스북 ‘엠’이 각사 플랫폼을 기반으로 연이어 음성인식 기능이 속속 등장했고, 스마트폰에 이어 스마트홈을 위한 지능형 개인비서 음성인식 스피커 제품의 시장도 확대됐다.

아마존은 2014년 IPA ‘알렉사(Alexa)’ 기반의 거치형 블루투스 스피커 ‘에코(Echo)’ 시리즈를 출시했는데 서두에 언급한 알렉사가 그 주인공이다. 이어 2016년 구글은 ‘구글 나우’의 새 버전으로 ‘구글 어시스턴트’를 탑재한 ‘구글홈(Google Home)’을 발표했고, 스마트홈 스피커 시장에 첫발을 내디뎠다. 마이크로소프트 역시 같은 해 음향기기제조사인 ‘하만카돈’과 함께 AI 홈 스피커를 공개했고, 애플도 지난 2017년 애플 뮤직과 연계된 ‘홈팟(Home Pod)’을 내놓으며, 인공지능 개인비서 스피커 시장에 합류했다.

이렇듯 통신사와 IT 기업들이 앞 다투어 내놓은 스마트홈 스피커는 집안 전체를 제어하고 작동시키며, 금융, 쇼핑, 의료뿐만 아니라 배달음식까지 주문할 수 있는 지능형 개인비서 역할을 톡톡히 하고 있다.

Amazon Echo Alexa Smart Speakers ⓒ www.shutterstock.com

음성인식, 어디까지 왔나?

불과 10년 전만 해도 AI 음성인식의 기능은 영화에서만 볼 수 있었다. 대표적으로 1980년대 인기를 끌었던 미국 액션 드라마 <전격 Z작전: 나이트 라이더>에서 주인공 키트가 곤경에 처해 있을 때 자신의 시계에 대고, “키트, 도와줘”라고 외치면 어디서든 음성인식 AI 자동차가 나타났다. 주인공과 음성인식 개인비서가 눈에 보이지 않은 교류가 그려진 것이다.

영화 <아이언맨>에서도 마찬가지다. 주인공 토니 스타크와 인간처럼 대화하는 ‘자비스’라는 인공지능 비서가 등장한다. 눈에 보이지 않지만, 주인공이 로봇 슈트를 만들 때 홀로그램 영상을 제시한다거나 농담을 주고받으며, 음성인식 개인비서의 역할을 톡톡히 보여주어 재미를 더했다.

그러나 언제부터인가 영화 속 기술들이 현실화하여 일상생활에 자리하면서 음성인식 기술의 성장 또한 무섭게 진행되고 있다. 최근 음성인식 스피커는 사람과 대화를 나누듯이 명령을 수행한다. 국내 음성인식 스피커는 통신사마다 재미있는 이야기를 들려주는 기능을 더해 선보였는데 일반인이 잘 알지 못했던 일반 상식이나 난센스, 아재 개그 등 서로 다른 스타일로 답변해 사용자에게 웃음과 재미를 더한다.

지난 5월 개최한 구글 개발자 콘퍼런스에서 소개한 구글 어시스턴트 스피커는 구글을 부르지 않아도 대화를 이어갈 수 있는 ‘컨티뉴드 컨버세이션(Continued Conversation)’, 연속적인 복수의 질문을 분리해 대답하는 ‘멀티플 액션(Multiple Action)’, 어린이가 스마트한 질문을 던지면 칭찬을 해주는 ‘프리티 플리즈(Pretty Please)’ 등 한층 업그레이드 한 기능을 소개해 관심을 모았다. 그중 프리티 플리즈는 끝에 플리즈를 붙여 공손함을 표하면 칭찬을 해주는 기능으로 미국에서 꾸준히 제기되어 온 인공지능 스피커와 아이들의 관계에서 발생하는 무례한 언행이 원만한 언어습관 형성에 도움이 될 것으로 관계자들은 기대했다. 이처럼 인공지능 음성인식이 사람의 행동을 제어할 수 있는 시점까지 이르고 있다.

구글 어시스턴트 스피커 ⓒ www.shutterstock.com

인간의 감성과 함께 하는
AI 음성인식

사람의 감성을 이해하는 음성인식의 대표적인 영화로 손꼽히는 <그녀(Her)>. 주인공 테오도르가 집에 있던 컴퓨터의 운영체제를 새로 업그레이드하면서 사람과 비슷한 운영체제 ‘사만다’를 만나 연인관계로 발전하는 내용으로, 사만다는 주인공 테오도르와 일상을 공유하며 많은 이야기를 나눈다. AI 음성인식이 우리의 물리적인 삶에만 도움을 주는 것이 아니라 감정적인 부분까지 진입하기 시작했음을 영화에서 극명하게 보여주고 있다.
이미 음성인식, 얼굴 인식 기술이 발달해 있는 4차 산업 시대에 영화 속 이야기는 더 이상 먼 미래가 아니다. 영화처럼 사용자의 얼굴표정을 읽고, 행동을 분석해 사용자의 기분을 파악하는 AI 음성인식이 머지않아 등장할 것으로 보인다.

그 대표주자가 중국의 모바일 브랜드 화웨이이다. 화웨이는 영화 <그녀>를 통해 AI비서 스마트폰에 대한 영감을 얻고, 사용자의 감정을 공유하는 감정 AI를 개발 중이라고 밝혔다. 이를 위해 첫 단계로 음성 비서에게 높은 수준의 IQ(지능지수)를 주고, 그다음 단계로 사람과 동일한 수준의 EQ(감성지수)를 주게 될 것이라고 전했다.

화웨이는 단순 명령에 대한 수행뿐만 아니라 사용자의 정서적 욕구를 충족시킬 수 있는 음성비서를 만들어 사용자들이 감정 모드에서 AI 음성 비서와 상호작용을 할 수 있기를 기대한다고 전했다.

아직은 개발 단계로 정서적 상태를 이해하여 대응하는 데까지 갈 길이 멀지만, 세계 최초의 시민권을 딴 로봇 ‘소피아’처럼 가까운 미래에는 운영체제와 대화하며 감정을 공유하는 광경이 머지않았음을 이제 누구도 부인할 수 없는 시대가 다가오고 있다.

세계 최초의 시민권을 딴 로봇 ‘소피아’