사용성이 뛰어난 디자인은 평소에는 잘 알아차리지 못하지만, 사용성이 떨어지는 유사한 서비스를 사용하다 보면 얼마나 편리했는지 깨닫게 됩니다. 대부분의 플랫폼 비즈니스가 유의미한 지표로 고려하는 MAU(월간 활성 사용자), 이탈률을 생각하면 왜 사용성을 중요하게 여기고 디자인을 개선하려고 하는지 알 수 있습니다. 사용성이 좋은 서비스는 쉽게 이탈하지 않을뿐더러 이탈하더라도 사용성 때문에 다시 돌아올 가능성이 높습니다. 그렇다면 사용성은 어떻게 테스트할 수 있을까요? 또 얼마나 많은 사용자를 대상으로 테스트해야 할까요? 오늘은 두 가지 물음 중 후자에 대해서 말씀드립니다.
NNG 홈페이지에 접속하면 가장 눈에 띄는 것은 “World Leaders in Research-Based User Experience”라는 타이틀입니다. 세계에서 리서치 기반으로 사용자 행동을 분석하는데 가장 앞서있는 기업 중 하나이고 기업 실무자들도 NNG 리포트를 참고하고 있습니다. 오늘은 조금 다른 시각에서 “5명의 사용자로 충분할까?”에 대해 살펴보겠습니다. <Why You Only Need to Test with 5 Users>에는 ‘zero users give zeo insights’라는 굵은 글씨가 있는데요. 5명이든 10명이든 사용성 테스트를 실제 사용자를 대상으로 하고 사용성 이슈를 점검하는 것이 핵심입니다. 아무에게도 사용성 테스트를 하지 않으면 사용성 문제를 전혀 알 수 없기 때문이죠.
NNG가 5명으로 충분하다고 설명하면서 활용한 공식에는 한 가지 단서가 있습니다. “5명의 참가자는 사용자 3명 중 1명에게 영향을 주는 사용성 문제의 85%를 찾기에 충분하다”라는 것이죠. 즉, 3명 중 다른 2명에게 영향을 주는 사용성 문제를 확인하기 위해서는 5명으로 충분하지 않습니다. 한 가지 상황을 가정해보겠습니다.
한정판으로 발매된 신발을 중개하는 플랫폼이 있습니다. 구매하고 싶은 사용자는 마감 시한까지 가장 높은 가격을 입력해야 하는데요. 마감시한 전까지 가격을 총 3번 입찰할 수 있습니다. 프로토타입을 통해 사용성 테스트를 하는 상황입니다. 5명의 사용자를 섭외해서 사용성 테스트를 하며 관찰해보니 ‘희망 구매 가격’에서 5,000원을 증액하는데 슬라이더를 쉽게 활용하지 못하는 것을 발견했습니다. 작동방식을 금방 알아차리고 슬라이더로 금액을 조정하는 사용자도 있었죠. 5명을 대상으로 사용성 테스트를 진행해야 충분한 걸까요?
상황에 따라 답은 다르지만 얼마나 많은 참가자에게 영향을 미치느냐에 따라 참가자 규모를 조절해야 합니다. 누군가에게 사용성 이슈인 것이 누군가에게는 사용성 이슈가 아닐 수 있기 때문입니다. 실제로 사용성 테스트를 통해 발견한 문제가 모든 사용자에게 영향을 미치는 경우는 굉장히 드뭅니다. 참가자를 섭외해서 사용성 테스트를 하는 것은 동전을 던져서 앞면이 나오는 것과 비슷합니다. 예를 들어 3명을 대상으로 테스트를 진행한다고 하면 첫 번째 사용자와 사용성 테스트를 해서 문제를 발견할 수 있는 확률은 1/3입니다. 두 번째 사용자, 세 번째 사용자도 마찬가지이죠. 3명의 참가자를 대상으로 테스트를 했으니 3명 중 1명에게 나타날 수 있는 사용성 문제를 확인했다고 할 수 있을까요? 동전을 던져서 앞면이 나오려면 동전을 1번 던질 수도 있고, 2번 또는 3번 던질 수도 있습니다. 확률을 고려하면 3명 중 1명에게 나타날 수 있는 사용성 문제를 확인하기 위해서는 실제로 3명이 넘는 사람을 대상으로 사용성 테스트를 해야 합니다.
“5명이 아니라 10명이다”라고 말할 수는 없습니다. 확실한 건 5명의 참가자를 대상으로 테스트를 하면 사용자 3명 중 1명에게 영향을 주는 문제를 찾을 확률이 85%라는 겁니다. 5명을 섭외해서 테스트한다고 해서 일어날 수 있는 사용성 문제의 85%를 찾는다고 믿는 것은 아쉽지만 수학적 사실이 아닙니다.
사용성 테스트를 얼마나 많은 사용자를 대상으로 진행할 것인지는 결국 시간, 비용에 따른 비즈니스 의사결정입니다. 디자이너가 가져야 할 생각 중 하나는 몇 가지 중대한 사용성 문제가 90% 사용자에게는 이슈가 아니거나 쉽게 해결할 수 있는 사안이지만 누군가는 심각한 불편을 겪을 수 있다는 가정입니다. 실제로 사용자 스펙트럼이 넓은 서비스, 예를 들어 국세청 연말정산이나 백신 예약과 같은 정부 시스템을 디자인한다면 3명 중 1명에게 영향을 미치는 33%의 확률을 기준으로 사용성 테스트를 하는 대신 10명 중 1명에게 영향을 미치는 문제를 찾으려고 계획을 세워야 합니다. 이런 경우 18명을 테스트해야 85%의 확률로 문제를 찾을 수 있는 것으로 나타났습니다. 어떤 시스템에서는 5명을 테스트하고 전체 문제의 5%만 발견할 수도 있습니다. 나머지 95%는 사용자 4명 중 1명에게 영향을 미치기 때문이죠.
디자인 리서치에서 적용할 체크리스트
➊ 디지털 기기 사용에 미숙한 사용자를 포함해야 합니다
디지털 기술에 능숙한 사람이 사용자의 표준이라는 생각을 하면 안 됩니다. 새로운 기술에 서툰 사용자를 포함해서 적은 비율의 사용자에게 영향을 줄 수 있는 문제를 발견할 수 있습니다.
➋ 참가자에게 더 많은 과제 수행을 요청합니다
사용자가 시도하는 과제의 숫자가 늘어날수록 사용성 테스트에서 문제를 발견하는데 효과적입니다.
➌ UX 리서처 외에 다른 참관자가 테스트 결과를 별도로 기록하게 합니다
리서치에 따르면 다른 관찰자가 찾은 주요 사용성 문제를 놓칠 확률이 50%입니다. 즉, 모더레이터가 사용성 테스트를 진행하면서 스스로 기록할 경우에는 사용성 문제 중 절반을 놓칠 수 있습니다.
➍ 빠르게 시작하고 테스트를 반복합니다
현실적으로 출시 일정에 쫓기면서 많은 사용자를 대상으로 사용성 테스트를 진행하는 것이 어렵습니다. 소규모 표본이라도 빠르게 시작하고 여러 차례 사용성 테스트를 반복하는 것이 효과적입니다.