튜링 검사(Turing Test)는 유효한가? 튜링 검사를 통과했다고 주장되는 GPT-4의 경우

앨런 튜링(Alan Turing, 1912~1954)이 1950년에 발표한 논문 ‹계산 기계와 지능 (Computing Machinery and Intelligence)›에는 인간과 기계(인공지능)를 구별하기 위한 특별한 게임을 제안하는데, 이것이 훗날 ‘튜링 검사(Turing Test)’로 알려지게 된다. 튜링 평전에 기초한 영화 ‹이미테이션 게임(The Imitation Game)›의 제목이 여기서 왔다.

튜링 검사의 핵심은, 보이지 않는 곳에 있는 상대 플레이어가 인간인지 아닌지 판별하기 위해 심문자(interrogator)가 5분간 질의응답을 한 후 인간인지 기계인지 “바르게 식별할 기회가 70%를 넘지 않을 정도로” 컴퓨터가 발전할 것인가 하는 점이다(나의 책 《인공지능의 시대, 인간을 다시 묻다》(2017)의 1장에서 이 주제를 다루었고, 또 다른 책 《AI 빅뱅》(2023)의 부록에 튜링의 해당 논문은 유려하게 번역해 수록했다).

최근 챗GPT를 비롯한 초거대 언어모델(LLM) 인공지능이 튜링검사를 통과했다는 보고가 많이 나온다. 최근에 많이 공유되고 있는 아래 논문이 대표적이다.

Cameron R. Jones & Benjamin K. Bergen (2024), “People cannot distinguish GPT-4 from a human in a Turing test”

저자들은 앞서 언급한 튜링의 검사 방식을 적용해 인간 참가자가 ‘GPT-4 또는 인간’을 상대로 5분 간 대화를 나누도록 했고, 그 결과 GPT-4는 참가자의 54%가 인간이라고 답했고 진짜 인간은 참가자의 67%가 인간이라고 답했다. 사실상 튜링의 기준(30% 이상 틀림)에 따르면 GPT-4는 검사를 통과한 셈이다.

그렇다면 과연 이 실험은 적절한 것일까? 나는 이 실험에서 참가자의 33%가 진짜 인간을 인간이라고 맞추지 못했다는 점에 주목한다. 말하자면 진짜 인간도 겨우 튜링 검사를 통과했다.

원래의 튜링 검사 방식은 오늘날 변형되어 적용된다. 튜링은 피심문자(인간 혹은 기계)가 떨어져 있는 방에 있고, 타자된 문서로 답변을 받는 것으로 되어 있다. 오늘날에는 채팅 방식으로 심문 질의응답을 한다. 그렇기에 온라인으로 광범위하게 실험될 수 있다. 문제는 온라인에서 대화 상대가 인간인지 기계인지 여부는 훨씬 광범위한 주제일 수 있다는 점이다. 사람들은 온라인 대화 상대가 인간인지 아닌지 얼마나 잘 맞출까? 이 비율이 앞의 튜링 검사를 해석할 때 유의미하게 활용될 필요가 있다.

최근 논문과 달리 비교적 덜 알려졌지만 다행히도 이 주제를 다룬 논문이 있다.

Adrienn Ujhelyi, Flora Almosdi, and Alexandra Fodor (2022), “Would You Pass the Turing Test? Influencing Factors of the Turing Decision “

이 논문에 따르면 실험 참가자의42%가 대화 상대자인 진짜 인간을 챗봇이라고 판단했다. 요컨대 온라인에서 대화 상대가 진짜 인간인지 아니면 기계인지 구별하는 것은 오늘날 쉽지 않은 일이다.

소결: 오늘날 온라인에서 진짜 인간을 챗봇이라고 생각하는 사람이 이미 42%인 상황에서(둘째 논문), 54%가 GPT-4를 인간이라고 답하고 67%가 진짜 인간을 인간으로 답하는 일(첫째 논문)이 뭐 그리 특별한 일일까 하는 의문이 드는 것은 당연하지 않겠는가?

Comments

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.