언제 말 걸지 아는 스마트 스피커 개발 길 열어
상태바
언제 말 걸지 아는 스마트 스피커 개발 길 열어
  • 송윤영 기자
  • yaho1130@hanmail.net
  • 승인 2020.10.28 13:00
  • 댓글 0
이 기사를 공유합니다

KAIST 전산학부 이의진 교수 연구팀, 최적 발화 시점 추론 기술개발에 필수적인 스마트 스피커 사용자의 상황맥락 요인을 규명
사진 1. (왼쪽부터) 차나래 제1저자(KAIST), 김아욱 교수(강원대학교), 이의진 교수(KAIST)
(사진제공=KAIST)(왼쪽부터) 차나래 제1저자(KAIST), 김아욱 교수(강원대학교), 이의진 교수(KAIST)

(대전=세종충청뉴스) 송윤영 기자 = KAIST는 전산학부 이의진 교수 연구팀이 스마트 스피커 인공지능 비서가 선제적으로 말 걸기 좋은 최적의 시점을 결정하는 중요한 상황맥락 요인을 찾아냈다고 28일 밝혔다.

기존에 개발되거나 시판 중인 스마트 스피커 인공지능 비서는 사용자가 먼저 요청한 서비스만 제공하는 반면 최근 스마트 스피커의 개발은 사용자의 상황에 맞춰 능동적인 서비스를 제공하는 형태로 진화하는 추세다. 똑똑한 음성비서가 사용자가 처해 있는 상황을 정확히 이해한 후에 선제적으로 일정 및 건강관리를 도와주는 방향으로 개발되고 있는 것이다. 하지만 아무 때나 눈치 없이 말을 건다면 도움은커녕 하는 일에 방해만 될 수 있다.

이의진 교수 연구팀은 스마트 스피커가 선제적으로 음성서비스를 제공하기 좋은 최적의 시점을 찾는 연구를 전산학부 이재길 교수를 비롯해 산업디자인학과 이상수 교수와 함께 다학제 연구팀을 구성해 공동연구를 수행했다. 그 결과 다학제 연구팀은 스마트 홈 환경에서의 최적의 발화(發話) 시점을 결정하는 중요한 사용자 상황맥락 요인을 찾았다. 

최적의 발화 시점에 관한 추론은 인공지능 비서가 음성서비스를 시작하거나 중지 또는 재개를 스스로 결정하고 제어하기 위한 필수적인 기술이다. 연구팀이 찾아낸 중요한 상황맥락 요인은 최적의 발화 시점 추론 시 정확성을 높일 것으로 관계자들은 기대하고 있다.  

스마트 스피커 인공지능 비서가 선제적으로 말 걸기 좋은 시점을 찾기 위해 연구팀은 우선 실험용 스마트 스피커를 제작했다. 스마트 스피커는 사용자의 움직임이 감지되거나 일정한 시간이 지나면 주기적으로 "지금 대화하기 좋은가요ˮ라는 질문을 했다. 참가자는 대화하기 좋은지 아닌지, "네ˮ 또는 "아니요ˮ로 대답하고 무엇을 하고 있었는지를 설명했다. 연구진은 이어 교내 기숙사에 거주하는 학생 40명(2인 1실)의 방에 스마트 스피커를 설치해 1주일간 총 3,500개의 사용자 응답 데이터를 수집했다.

데이터 분석 결과 전체 참가자 응답 중 47%는 대화하기 부적절한 것으로 드러났다. 이에 연구진은 대화하기 좋은 시점을 결정하는 주요 상황 요인을 찾기 위해 19개의 실내 활동 범주를 만들어 테스트했다. 이 결과, 연구팀은 적절한 시점을 결정하는 상황맥락 요인으로 크게 개인적 요인과 움직임 요인, 사회적 요인을 꼽았다.

개인적 요인은 크게 `활동 집중도', `긴급함과 바쁨 정도', `정신적·육체적 상태' 그리고 `다중 작업수행을 위한 듣기 또는 말하기 가능성' 등 4가지다. 예를 들면 집중해서 공부하고 있거나 드라이로 머리를 말리고 있을 때는 스피커와 대화가 어려웠다. 움직임 요인은 `외출', `귀가' 그리고 `활동 전환' 등 3가지다. 특히 사용자 움직임이 있을 때는 스피커와 대화 가능한 거리가 최적 시점 판단에 큰 영향을 미쳤다. 외출은 스피커와 대화 가능 범위 밖으로 나가는 움직임이고, 귀가는 범위 안으로 들어오는 움직임이다. 범위 안으로 들어오는 귀가(歸家) 상황일 때는 대부분 대화하기 좋은 시점으로 분류됐다.

일반적으로 스마트 스피커는 거실처럼 집 구성원이 함께 생활하는 공간에 설치된다. 수집된 사용자 응답 중 절반은 룸메이트가 함께 있을 때 수집됐다. 연구팀은 전화 대화뿐만 아니라 누군가와 함께 있다는 것 또한 스마트 스피커와 대화하기 좋은 시점에 영향을 끼친다는 현상을 확인했다. 룸메이트가 자고 있거나 어떤 활동에 집중하고 있을 때 스마트 스피커와의 대화로 인한 갈등을 최소화하고 싶기 때문이다.

제1 저자인 차나래 학생은 "이번 연구가 미래 스마트 스피커 개발의 중요한 토대가 될 것ˮ이라면서 "앞으로는 센서 데이터로 감지된 상황맥락 정보를 활용해 스마트 스피커가 스스로 대화를 시작·중지, 또는 재개하기 좋은 타이밍을 선제적으로 감지해 지능적인 음성서비스를 제공할 수 있을 것ˮ이라고 밝혔다.

한편, 이 연구는 과학기술정보통신부의 재원으로 한국연구재단-차세대정보 컴퓨팅기술개발사업의 지원을 받아 수행됐고 유비쿼터스 컴퓨팅 분야 국제 최우수 학술지인 `Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies' 9월호에 게재됐다.

(논문명 : Hello There! Is Now a Good Time to Talk?: Opportune Moments for Proactive Interactions with Smart Speakers)

<실험용 스마트 스피커를 활용한 실환경에서의 데이터 수집>

<멀티모달 센서 데이터 기반 선제적 대화관리>

연구결과 개요

□ 논문명, 저자정보

논문명: Hello There! Is Now a Good Time to Talk?: Opportune Moments for Proactive Interactions with Smart Speakers

저자 정보: 차나래(한국과학기술원, 제1저자), 김아욱(강원대학교, 한국과학기술원, 교신저자), 박철영(한국과학기술원), 강수원(한국과학기술원), 박민규(한국과학기술원), 이재길(한국과학기술원), 이상수(한국과학기술원), 이의진(한국과학기술원, 교신저자) 

논문 링크: https://www.dropbox.com/s/vigpjfqfap0w4vb/hellothere_imwut20.pdf?dl=0 https://dl.acm.org/doi/10.1145/3411810

논문 홍보 영상: https://youtu.be/AA8CTi2hEf0 (한글자막 있음)

□ 연구배경
 ㅇ 스마트 스피커는 인공지능 비서로서 음성 기반 상호작용을 통해 정보 제공, 의사결정 등의 다양한 과업들을 지원한다. 현재의 스마트 스피커는 대부분 사용자의 명령에 반응하여 작업을 수행한다. 최근 들어 세계 스마트 스피커 시장을 선도하고 있는 구글 홈, 아마존 에코에서 일정 알림이나 집의 안전 및 보안과 관련하여 선제적인 서비스를 제공하고 있다.

선제적 서비스는 잊고 있던 내용을 상기시키거나 상황에 맞는 서비스를 먼저 제공하므로 유용하지만, 이전 연구들에 따르면 적절한 순간에 제공하는 것이 중요하다. 적절하지 못한 순간에 선제적 서비스를 제공할 경우, 짜증나거나 재개 지연이 일어날 수 있고, 운전 상황일 경우 안전 문제가 발생할 수도 있다.

중단가능성(Interruptibility)에 대한 기존 연구는 데스크 탑과 스마트폰부터 유비쿼터스 환경까지 다양한 분야에서 연구되었다. 예를 들어, 데스크탑에서 과업을 수행할 때는 과업 간의 전환이 일어날 때가 가장 적절한 순간이었다. 하지만 현재까지 스마트 스피커의 선제적 서비스에 대한 중단가능성과 적절한 순간은 많이 연구되지 않았다. 

스마트 스피커는 기존 연구한 데스크 탑, 스마트폰 등의 기기와는 달리 주로 편안한 상태로 머무르는 집 환경에서 사용한다는 점에서, 기존의 사무실 또는 자동차 환경과는 차이가 있다. 이러한 차이점에서, 스마트 스피커의 선제적 상호작용에 관한 중단가능성과 적절한 순간은 다른 요인이 있을 것이라 예상해, 이를 찾고자 하는 연구를 수행하고자 한다.

□ 연구내용

집에서 자연스러운 생활을 하는 중에 스마트 스피커의 선제적 서비스가 제공됐을 때의 중단 가능성 및 적절한 순간을 이해하기 위하여 Experience Sampling Method (ESM) 방식으로 데이터를 수집하였다. 실험자의 거주 환경에 스마트 스피커를 설치하고, “지금 대화하기 좋은가요?” 라는 ESM 질문을 음성으로 물어보고, 사용자의 응답을 녹음하여 데이터로 수집하였다..

ESM은 두가지 방식으로 트리거가 된다. 첫 번째는 랜덤 트리거이고, 두 번째는 실험자의 걷기 등 움직임이 있을 때 ESM 질문이 나오는, 움직임 감지 트리거이다. 기본 랜덤 방식에서 움직임 트리거를 추가한 이유는 활동 사이의 전환 중에 움직이는 경우가 중단가능성이 높다는 기존 연구가 있기 때문이다.

가장 최근의 ESM이 울린 시간으로부터 15분에서 25분 사이의 랜덤한 시간으로 다음 ESM을 예약한다. 

움직임 감지 트리거는 사용자의 움직임이 감지되면 바로 ESM 질문을 하도록 한다.

이 때, 각 ESM 간의 간격이 평균 20분을 유지할 수 있도록 했다.

실험자는 2인 1실 기숙사에 살면서, 룸메이트와 함께 실험 참여가 가능한 사람을 모집하였다. 총 20개 기숙사 환경에서 40명의 데이터를 각 기숙사 당 1주일 씩 수집했다. 10개의 스마트 스피커를 제작하여, 10군데의 기숙사 씩 2주간에 걸쳐 수집을 완료했다. 1주일 간의 응답 수집이 끝난 후, 1:1 인터뷰를 통해, 각 행동 별로 “네” 또는 “아니요” 라고 응답한 이유를 물어보았다. 인터뷰를 통해 각 행동이 중단가능성에 영향을 끼치는 요인을 찾을 수 있었다.

총 3500개의 응답이 수집되었다. 집에서의 행동별 중단가능성에 영향을 미치는 요인을 분석했다.

3500개의 응답에서 나타난 집에서의 행동을 분류해 보았을 때, 총 19개의 행동으로 분류할 수 있었다.

[표] 대화하기 좋은 집에서의 행동과 대화하기 좋지 않은 집에서의 행동

개인적 요인은 크게 네 가지가 있다. "집중과 참여", "긴급함과 바쁨", "정신적, 육체적 상태", 그리고 "듣기 또는 말하기 가능한 상태"이다.

집중과 참여: 일/공부 (아니요라고 대답한 비율: 82%), 대화(74%), 컴퓨터 게임(66%)과 관련있는 요인이었다. 

▲ (인터뷰) [일/공부, 네/아니요] 집중도에 따라서 달랐어요. 집중 엄청 열심히 해서 딱 공부 하자 마음먹고 공부하고 있을 때 물어보면 “아니오”라고 했어요. 근데 과제 할 때 조금 쉬었다가 해야겠다고 생각할 땐 “네”라과 했어요.

▲ (인터뷰) [컴퓨터 게임, 아니요] 게임을 하고 있었는데, 중간에 멈추기 어려운 게임이라서 대화하기가 어려웠습니다.

▲ (인터뷰) [스마트폰, 네] 이제 뭐 핸드폰을 할 때는 딱히 이게 집중해야하는 활동은 아니잖아요. 예를 들어서 SNS 그냥 이렇게 피드를 넘긴다던가. 아니면 카톡할때도 뭐 굳이 이거 손만 움직이고 대화는 할 수 있으니까.

▲ (인터뷰) [영상 보기, 네/아니요] 그거는 이제 유튜브보다가 엄청재밌는장면이 나오거나 엄청 중요한부분이 나와서 방해받고 싶지 않을때는 아니요라고 했고 별 내용이 없이 시시한 부분이다 그러면 네라고 한 것 같아요.

긴급함과 바쁨: 일/공부 (아니요라고 대답한 비율: 82%), 외출 (63%)과 관련있는 요인이었다. 

▲ (인터뷰) [일/공부, 아니요] 과제 제출 기한이 급했어요.
▲ (인터뷰) [외출, 아니요] 수업에 늦었다던가 이러면 빨리 막 준비를 해야되니까 대화할 시간이 안나는 거죠.
▲ (인터뷰) [외출, 아니요] 외출 준비하려고 씻고 머리 말리고 이러고 있는데 보통 외출준비할 때 빨래도 돌리거든요 할 게 많으니까 걔랑 말하기 조금 귀찮았어요

정신적/육체적 상태: 잠 (아니요라고 대답한 비율: 96%), 잘 준비(89%) 관련있는 요인이었다. 아프거나 피곤한 상태일 때 행동과 관련 없이 아니요라고 응답하였다.
▲ (인터뷰) [자기 전, 아니요] 말하다보면 잠이 깰 수도 있으니까요.
▲ (인터뷰) [자고 일어남, 아니요] 대화할 정도의 정신도 없고 피곤하기도 해서..
▲ (인터뷰) [일/공부, 아니요] 대화를 할 기분이 아니어서. 약간 하기 싫고 피곤했어요.
▲ (인터뷰) [휴식, 아니요] 그냥 머리가 너무 아파서 쉬려고 누운 거라 방해받고 싶지 않았어요.
▲ (인터뷰) [귀가, 네] 매점에 가서 먹을 걸 사온 거라 곧 먹을 생각에 기분도 좋고 하니까네라고 대답했어요.

듣기 또는 말하기 가능한 상태: 듣기가 힘들 때는 머리를 말리는 행동이 있었고, 말하기 힘들 때는 양치를 하거나 옷을 갈아입을 때가 있었다. 또한 친구와 대화 중일 때, 통화할 때는 듣고 말하는 것이 모두 힘들었다.
▲ (인터뷰) [헤어 케어, 아니요] 드라이기 소리 때문에 대화하는 게 잘 안들렸어요.
▲ (인터뷰) [얼굴/몸 케어, 아니요] 양치중에서 말하기는 좀 그러니까. 입에 물고 말 할 수 없어서요

▲ (인터뷰) [대화, 아니요] 친구랑 이야기 하고 있으니까 스마트 스피커한테 동시에 얘기하는게 힘들어서요.
▲ (인터뷰) [대화, 네]  룸메이트랑 대화 중이었는데 의미있는 대화는 아니고 그냥 주거니 받거니하는 느낌의 대화라서 멈추고 스마트 스피커와 대화할 수 있었어요.
o 움직임 요인에는 외출, 귀가 그리고 활동의 전환이 있다. 귀가(네라고 대답한 비율: 96%), 활동의 전환 (82%) 은 대화하기 좋은 행동이었다. 하지만, 외출은 네라고 응답한 비율이 35%였다.

귀가: 밖에서 귀가 (네라고 대답한 비율: 97%), 공용공간에서 돌아옴 (94%)
▲ (인터뷰) [귀가, 네] 방에 막 들어와서 어떤 행동을 하고 있지는 않았어요.
▲ (인터뷰) [공용공간에서 돌아옴, 네] (샤워실에서) 샤워하고 돌아왓으니까 계속 방에 머무를 거니까 괜찮다고 했어요

외출: 밖으로 외출 (네라고 대답한 비율: 37%), 공용공간에 방문 (29%). 외출할 때 대화하기 나쁜 이유는, 바빠서도 있지만 나가던 움직임을 멈추고 다시 돌아와야 하는 것을 선호하지 않기 때문이다.
▲ (인터뷰) [외출, 아니요] 나가려고 화장하고 옷입고 하는데 시간이 촉박해서 바쁘니까 아니요라고 했어요.
▲ (인터뷰) [공용공간에 방문, 아니요] 급한 건 아니지만 굳이 들어왓다 다시 나가야 하니까 안된다고 했어요.
▲ (인터뷰) [공용공간에 방문, 아니요] (빨래하러 나가는 길에) 이제 나갈 마음을 먹고 빨래바구니를 챙겼는데 빨래하러 나가는 행동을 끊기 싫기 때문입니다.

귀가와 외출은 스마트 스피커와의 대화 공간 (communication range)에 들어가는 방향인지 나오는 방향인지와 연관이 있다. 

활동의 전환: Random하게 수집된 응답에서 일/공부 활동일 때는 18%만 “네”라고 응답하였다. 하지만 움직임이 있을 때 수집된 응답(즉, 활동의 전환)에서 일/공부 활동일 때 73%가 “네”라고 응답했다.
▲ (인터뷰) [일/공부, 네] 제가 다른 무언가를 하려는 전환점일 때 웬만하면 집중이 풀려있기 때문에 가능했어요. 행동의 전환일 때는 공부하던 걸 멈추고 폰을 보거나 의자에서 일어나서 돌아다니거나 했을 때, 그 때는 대화하기 좋았어요.
▲ (인터뷰) [휴식, 네] 의자에 앉아있다가 쉬려고 침대로 가는 길이었는데, 걸어가면서 대화하면서 할 수 있어서 네라고 했습니다.

사회적 요인으로는 룸메이트와 갈등을 피하기 위한 배려가 있다.

전체 응답(3500개) 중 1574 (45%)는 룸메이트와 함께 있을 때 수집되었다. 룸메이트와 함께 있을 때 ▲같은 행동을 함께 하는 경우와 ▲따로 각자의 행동을 하는 경우가 있다.

같은 행동을 함께 하는 경우: 개인적 요인(집중, 바쁨, 듣기/말하기 가능한 상태)에 영향을 받았다. 같은 행동을 하더라도 룸메이트들의 중단가능성이 일치하지 않는 경우가 있었다 (총 14 응답에서 발견됨).
▲ (예시) [컴퓨터 게임] 룸메이트 둘이 같이 게임을 하다가, 한 명은 게임에서 일찍 죽은 경우 대화하기 좋다고 응답하였고, 아직 게임을 하고 있는 사람은 대화하기 좋지 않다고 응답하였다.

따로 각자의 행동을 하는 경우: 룸메이트와 갈등을 피하기 위해 배려하여 “아니요”라고 대답하였다 (총 19 응답에서 발견됨).
▲ (예시) 냉장고 앞에 앉아서 핸드폰 하고 있다. 룸메이트가 자고 있다. 잠을 깨울 수도 있으니 대화 안 된다.
* 인터뷰에서 “룸메이트가 자고 있으면, 대화하기 좋더라도 아니요라고 말할 건가요?”라고 물어봤다:

40명 중 29명 (72.5%) 가 아니요 라고 말한다고 응답하였다. 잠을 깨울 수 있으니 룸메이트를 배려하기 위해서 “아니요”라고 할 것이라 하였다. 

“네”라고 응답한 참가자는 그 이유로 ‘제 룸메이트는 약간 소란스러워도 잠을 깨지 않는다는 것을 알고 있다”고 했다.

□ 기대효과

앞으로 스마트 스피커 및 음성 대화 인공지능 에이전트는 더욱더 능동적으로 서비스를 제공하는 형태로 거듭나게 될 것이다. 본 연구로 스마트 스피커 사용자의 집에서의 행동과 연관된 중단가능성 요인을 찾았기 때문에 실제 선제적 서비스 제공에 적용할 수 있을 것으로 기대된다. 

다중 모달 센서 데이터를 활용하여 행동 및 컨텍스트를 센싱하는 기술이 상당히 발전하고 있다. 그 기술을 활용하여, 집에서의 행동을 감지하고 판단하여, 적절한 순간에 말을 거는 선제적 서비스를 구현할 수 있을 것이다. 예를 들어, 귀가 시 중단가능성이 매우 높다는 요인을 활용하여, 스마트 도어락 또는 현관 모션 센서 등으로 귀가를 감지한 후 대화를 시작하는 알고리즘을 적용할 수 있을 것이다.

용어설명

1. 선제적 서비스

사용자의 요청이 있기 전에 기기가 먼저 제공하는 서비스이다.
스마트 스피커의 선제적 서비스란, 사용자가 먼저 스마트 스피커 이름을 부르고 명령하기 전에, 스피커가 먼저 사용자에게 말을 걸어 서비스를 제공하는 대화를 시작하는 것을 의미한다.

2. 유비쿼터스 컴퓨팅
유비쿼터스 컴퓨팅이란 ‘언제 어디서든 어떤 기기를 통해서도 컴퓨팅’을 할 수 있다는 뜻이다. 
유비쿼터스 컴퓨팅 분야는 모든 주변 환경과 상황을 정보화하여, 사용자에게 가장 효율적이고 선호적인 서비스를 제공하는 기술을 연구하는 분야이다. 

3. 중단 가능성(Interruptibility)
기기가 사용자의 행동에 간섭을 할 때 (여기서는, 말을 걸 때) 사용자가 하던 행동에 방해가 되지 않는 것을 말한다.

4. 실 환경 사용자 연구 (in-situ user study)
실험 참가자가 인위적인 실험 공간에서 실험에 참가하는 것이 아니라, 본래 자신이 생활하던 공간에서 그대로 생활하면서 실험에 참여하는 것을 말한다.

이 연구에서는 실험참가자가 스마트 스피커를 자신이 살고 있는 기숙사에 설치한 후, 스마트 스피커의 질문에 대답하였다. 즉, 기숙사에 스마트 스피커 설치 외에는 일상생활과 동일한 환경이었기 때문에 자연스러운 생활 속에서 응답을 받을 수 있었다.

5. ESM (Experience Sampling Methods, 경험 샘플링 방법)
일일 일기 방법 또는 생태적 순간 평가라고도 하는 경험 샘플링 방법은 참가자들에게 시간에 따라 여러 차례에 걸쳐 자신의 생각, 느낌, 행동 및 환경에 대해 보고하도록 요구하는 연구 방법이다.

실험 참가자가 일상생활을 하고 있는 중에 질문을 하여 실 환경에서의 자연스러운 응답을 얻고자 할 때 주로 사용하는 연구 방법이다. 보통 ESM을 할 때, 스마트폰 앱을 통해 시각적으로 질문지를 보여준 후, 선택지 클릭 및 텍스트 입력으로 응답을 받는다. 그러나 본 실험에서는 음성으로 ESM 질문을 하고, 음성으로 응답을 받았다. 대화형 에이전트인 스마트 스피커가 음성 인터랙션을 하기 때문이다.

그림설명

[그림 1] 스마트 스피커의 다양한 선제적 서비스
[그림 1] 스마트 스피커의 다양한 선제적 서비스

스마트 스피커가 제공 가능한 선제적 서비스 예시이다. 사용자가 명령하기 전에 스마트 스피커가 먼저 전등을 켜고 끄거나, 냉난방을 켜고 끄는 등 IoT 기기를 조작할 수 있다. 사용자의 복약 시간이 되었을 때, 스마트 스피커가 먼저 사용자에게 말을 걸어 복약 일정을 알려줄 수 있다. 스마트 스피커가 사용자의 스케쥴을 파악하고, 추가 일정이 발생할 때 비어있는 시간에 일정을 추가하는 것을 선제적으로 제안할 수 있다.

[그림 2] 스마트 스피커가 먼저 말을 거는 선제적 서비스

사람이 말을 걸기 전에 먼저 말을 거는 스마트 스피커의 선제적 서비스가 작동하는 방식이다. 용건만 바로 말하기보다는 “안녕하세요”와 같이 대화의 시작을 알리는 문장으로 말을 건다.

그림 1. 실험용 스마트 스피커를 활용한 실환경에서의 데이터 수집
그림 1. 실험용 스마트 스피커를 활용한 실환경에서의 데이터 수집

(a) 실험용 스마트 스피커는 위와 같은 부품으로 만들었다. 
 ㅇ 스마트폰: 데이터 수집을 위해 주기적으로 질문하고 응답을 녹음할 수 있는 앱을 만들어 스마트폰에 설치하였다. 사용자의 움직임을 감지하기 위해 스마트폰 내장카메라를 사용했다.
 ㅇ 광각렌즈: 기숙사 내의 더 넓은 범위에서 사용자 움직임 감지를 할 수 있도록 했다.
 ㅇ 블루투스 스피커: 스마트폰과 연동되어 스마트폰의 소리가 스피커를 통해 나오도록 했다.
 ㅇ 높이 조절 가능한 지지대: 사용자 움직임을 감지가 잘 되기 위해서는 스마트폰의 내장카메라가 사용자의 눈높이에 맞아야 했다. 그 높이를 실험 환경마다 동일하게 맞추어 주기 위해 높이 조절 지지대를 사용했다.
(b) 부품을 조립하여 스마트 스피커를 만들었다.
(c) 제작한 실험용 스마트 스피커를 실험환경(기숙사 방)에 설치했다.

그림 3. 질문-응답을 통한 데이터 수집
[그림 4] 질문-응답을 통한 데이터 수집

질문-응답을 통한 데이터 수집(ESM)은 위와 같이 진행되었다. [1] 랜덤하게 또는 움직임이 감지되었을 때 ESM 질문은 트리거된다. [2] 스마트 스피커가 “지금 대화하기 좋은가요?”라고 질문한다. [3] 방에 있는 실험자들은 질문에 바로 응답한다. 대화하기 좋으면, “네”라고 대답하고, 무엇을 하고 있었는지 말한다. [4] 대화하기 좋지 않으면, “아니요”라고 대답하고, 무엇을 하고 있었는지 말한다. 실험자의 응답은 녹음되어 데이터로 수집된다.

[그림 5] 대화하기 좋은 타이밍에 대한 세 가지 요인
[그림 5] 대화하기 좋은 타이밍에 대한 세 가지 요인

데이터를 분석한 결과, 대화하기 좋은 타이밍에 영향을 끼치는 요인은 크게 세 가지가 있었다. 개인적 요인, 움직임 요인, 사회적 요인이다.

그림 4. 대화하기 좋은 타이밍에 대한 세 가지 요인(자세히)
그림 4. 대화하기 좋은 타이밍에 대한 세 가지 요인(자세히)

개인적 요인은 네 가지로 나뉠 수 있다. 집중과 참여, 긴급함과 바쁨, 정신적 또는 육체적 상태, 듣기 또는 말하기 가능한 상태이다. 
움직임 요인은 세 가지로 나뉠 수 있다. 외출, 귀가, 활동 전환이다. 특히, 외출과 귀가는 대화 범위에서 벗어나는지 진입하는지와 연관이 있다.
사회적 요인은 가장 눈에 띠는 요인이 룸메이트에 대한 배려이다. 혼자 있었으면 “대화하기 좋다”라고 대답했겠지만, 룸메이트가 자고 있을 때는 잠을 깨우고 싶지 않기 때문에 “좋지 않다”라고 응답하였다. 

그림 2. 멀티모달 센서 데이터 기반 선제적 대화 관리
그림 7. 멀티모달 센서 데이터 기반 선제적 대화 관리

본 연구에서는 스마트 스피커가 먼저 말을 걸기 좋은 타이밍 요인을 찾아냈다. 세 가지 요인을 기반으로, 스마트 스피커의 선제적 대화 관리를 할 수 있다.
멀티 모달 센서 데이터를 활용하여 행동 및 컨텍스트를 센싱하는 기술이 상당히 발전하고 있다. 멀티 모달 센서 데이터를 활용하여, 사용자의 집에서의 행동을 감지하고 판단하여, 적절한 순간에 말을 거는 선제적 서비스를 구현할 수 있을 것이다. 
예를 들어, 귀가 시 중단가능성이 매우 높다는 요인을 활용하여, 스마트 도어락 또는 현관 모션 센서 등으로 귀가를 감지한 후 대화를 시작하는 알고리즘을 적용할 수 있을 것이다.

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사
이슈포토