인공지능을 활용한 글쓰기 (1) : 원리에 대한 이해

포스텍 학생들을 위한 《인공지능을 활용한 글쓰기》의 일부입니다.

1. 원리에 대한 이해

이 소책자는 다음과 같은 물음들에 대한 답을 추구한다. 인공지능이 이공계 글쓰기에 얼마나 도움이 될 수 있을까? 구체적으로 도움을 얻는 방법은 무엇일까? 유의해야 할 사항은 무엇일까?

하지만 본론에 들어가기에 앞서 인공지능을 둘러싼 개념, 정의, 원리를 이해하는 것이 우선 필요하다. 많은 학생이 자기 전공에 필요한 디지털 기술 혹은 인공지능을 사용하고 있겠지만, 여전히 큰 그림에는 취약하다. 기본기가 없을 때는 막연한 기대와 희망을 갖고 인공지능을 대할 우려가 있다. 과학적으로, 그리고 철학적으로, 중요한 것은 어떤 기술이 할 수 있는 일, 잘할 수 있는 일, 하기 어려운 일, 할 수 없는 일 등을 잘 구별하는 것이다.

지난 1년 반 넘게 세상을 떠들썩하게 했던 언어 생성 인공지능(챗GPT, 제미니, 클로드 등)은 이공계 학생 대부분이 취약하다고 느끼는 ‘글쓰기’를 대신 해주거나 도와준다는 강력한 매력을 전면에 내세우고 있다. 그러니 어찌 유혹당하지 않을 도리가 있겠는가? 하지만 ‘공짜 점심은 없다’는 말처럼, 무엇이 어떻게 작동하는지 알아야만 큰 비용을 치르는 일을 피할 수 없다.

이 소책자는 언어 생성 인공지능의 특성을 이해한 후, 글쓰기에 어떻게 사용하는 것이 좋을지 제안할 것이다. 아마도 책을 읽어가는 과정에서 어떻게 사용할지 스스로 깨닫게 된다면 더욱 바람직할 것이다.

 

1.1 개념 정의부터: 인공지능이 있을 뿐 인공지능은 없다

가장 흔한 오해를 제거하면서 시작하겠다. ‘인공지능’은 ‘그 무엇’이 아니다. 인공지능이라는 어떤 하나의 거대한 것은 없다. 이런 의미에서라면 ‘인공지능이라는 것은 없다(There does not exist AI in general)’고 말할 수 있다. 여러 개의 인공지능이 있다(There are AI’s). 조금 더 정확하게 말하면, 인공지능은 여러 가지 제품과 서비스들의 묶음이다. 인공지능이라는 추상적 실체가 있는 것이 아니라 인공지능이라는 기술과 연관된 여러 기술이 있다는 것이다. 이 둘을 구분하는 게 필요하다. 그런데 오늘날 그냥 ‘인공지능 어쩌고’ 하고 말하는 경우가 매우 많다. 사실은 세밀하게 들여다보면 굉장히 많은 인공지능들의 다발이 있다. 이를 명심해야 한다.

 

먼저 위의 그림을 보자. 윗줄에는 챗GPT 유형의 언어 생성 인공지능, 바둑 두는 알파고, 네비게이션, 아랫줄에는 차례로 번역기 딥엘(DeepL), 음성을 텍스트로 바꿔주는 클로바노트, 동영상 생성, 그림 생성 인공지능이 있다. 이것들을 ‘인공지능’이라는 이름으로 한데 묶는 것은 사실 별로 의미가 없다. 각각 서로 다른 인공지능이다. 인공지능이라는 것이 있는 것이 아니다. 우리가 ‘인공지능’이라는 말을 쓸 때는 굉장히 다양한 것들이 있고, 그 다양한 것들이 뭉뚱그려져서 인공지능이라고 불린다는 것을 꼭 기억해야 한다.

조금 더 들어가 보자. 인공지능 이야기를 할 때면 항상 당시에 가장 유행하는 인공지능을 떠올리며 그것을 대표 주자로 삼는 경향이 있다. 가령 요즘은 챗GPT가 대세다. 근데 7년 전에 어땠나? 2016년 무렵에는 알파고가 인공지능 그 자체나 다름없었다. 이런 인식이 크게 틀리지는 않지만, 이로부터 아주 결정적인 오해가 나오게 된다. 환기하자. 알파고라는 인공지능은 바둑을 엄청 잘 두고 챗GPT라는 인공지능은 문장 생성에 특화돼 있다. 바둑 두기와 문장 생성은 완전히 다른 기능이다. 챗GPT는 바둑을 전혀 못 둔다. 바둑에 대한 ‘설’은 잘 풀지 몰라도 바둑 두기는 알지 못한다. 반대로 알파고는 문장을 하나도 못 만든다. 심지어 바둑돌도 못 놓고 길도 못 찾는다. 그 둘 사이에는 ‘인공지능’이라는 명칭 빼고는 공통점이 없다. 예전에 한 철학자가 말했듯, 멍멍 짓는 개와 하늘에 떠있는 별자리 개가 ‘개’라는 명칭으로 불린다고 그 둘을 혼동하는 것은 어리석은 일이다. 알파고와 챗GPT는 인공지능이라고 불리긴 하지만 완전히 다른 일을 하는 존재들이다. 마치 스마트폰에 깔려 있는 개별적인 앱들이 다른 기능을 수행하는 것과 흡사하다. 하는 일도 다르고 기능이 다르니까 목적도 다르다.

이 상황을 다음과 같이 이해하면 제일 좋다. 우리 스마트폰이나 PC에 깔려 있는 개별 앱 하나하나가 다 서로 다른 인공지능이다. 길 안내, 영상 생성, 그림 생성, 번역기 등 다 개별적인 앱들이고 다 인공지능이라고 불린다. 우리가 일일이 구동해야 한다(이 점에서 인공일반지능(Artificial General Intelligence, AGI는 갈 길이 멀어도 한참 멀다). 인공지능은 그렇게 여러 다른 기능을 갖고 있는 앱들의 집합이고 모임이다. 우리가 추상적으로 막연하게 ‘인공지능’이라는 말로 얘기를 시작하면 혹시 뭔가 초점을 놓치는 거 아닐까, 뭔가 잘못된 생각으로 진입하는 게 아닐까 이런 의심을 가져야 한다. 각각 다른 인공지능들이 있고 서로 다른 기능을 수행할 뿐이다.

그래서 ‘인공지능의 미래’ 같은 건 말이 안 된다. 가령 알파고의 미래는 어떨까? 그것이 바둑 두는 인공지능을 지칭한다면, 미래는 없다. 이미 발전할 만큼 발전했다는 뜻이다. 길 찾는 ‘네비게이션’ 인공지능의 미래는 어떨까? 짐작할 수 있겠지만, 아직 갈 길이 멀다. 챗GPT 혹은 (2024년 8월 현재) 그 최신 버전인 GPT-4o의 미래는 어떨까? 논란의 여지는 있지만, 메타의 수석과학자 얀 르쿤(Yann LeCun)의 견해를 따르면 한계에 임박했다. 우리는 ‘인공지능의 미래’를 묻는 대신 ‘어떤’ 인공지능의 미래인지 물어야 한다.

 

1.2 언어 모델 인공지능 : 원리와 기능

그렇다면 언어 모델은 무엇을 위해 만들어졌을까? 언어 모델이 실제로 하는 일은 무엇일까? 이를 챗GPT를 예로 이해해 보겠다. 제미니나 클로드 등도 작동 원리는 같다.

초거대 언어모델(Large Language Model, LLM)은 우선 법률, 행정, 백과사전, 시와 소설, 역사, 철학, 신문 기사 등 인터넷에서 수집할 수 있는 모든 텍스트를 데이터로 삼아 학습했으며, 개별 단어(정확히는 그걸 컴퓨터가 처리할 수 있는 단위로 쪼갠 언어 ‘토큰’)들 간의 관계를 파악했다. 수많은 토큰을 학습했기 때문에 ‘초거대(large)’라는 수식어를 붙인다. 공개된 바에 따르면 챗GPT는 1,750억 개의 관계, 즉 매개변수(parameter)를 파악했다. 학습이라는 표현을 썼지만 통계적 빈도를 추출해 활용한다고 이해하면 더 좋다.

 

위의 그림과 함께 보면 좋은데, 학습을 마치고 나면 어떤 단어(‘나는’) 다음에 올 수 있을 법한 단어(‘너를’)가 추천되고, 어떤 단어들(‘나는 너를’) 다음에 올 수 있을 법한 단어(‘사랑해’)가 추천되고, 또 어떤 미완성 문장 다음에 어떤 단어들이 올지 추천되며, 문장 중간중간 구멍이 뚫린 곳에 어떤 단어가 들어갈지도, 나아가 한 문장 혹은 몇 개 문장 뒤에 어떤 문장 혹은 문장들이 올지도 추천될 수 있다. 초거대 언어모델에 기반한 언어 생성은 이런 식으로 이루어진다. 새 문장들의 생성은 철저하게 통계와 확률 그리고 여기에 가미되는 변이의 미세한 편향(bias)과 가중치(weight)에 따라 이루어진다.

질문을 하면 줄줄 글을 써주는, 혹은 잠시 멈췄다가 순식간에 글을 내놓는, 그런 인공지능은 이런 원리로 작동한다. LLM은 에세이와 뉴스 기사를 쓰고 시험 답안과 과학 논문도 쓴다. 이 능력이 사람들에게 충격을 주었다. 어지간한 사람은 글쓰기를 무척 어려워한다. 그런 글쓰기를 기계가 척척 해내다니! 매료된 것도 당연하다.

 

1.3 언어모델 인공지능은 데이터베이스검색 엔진이 아니다

하지만 LLM에게는 치명적인 약점이 있다. LLM은 말이 되는 문장을 만드는 데 특화되어 있지만, 만들어진 문장의 진위는 전혀 고려하지 않는다. 원래부터 진위는 개의치 않도록 설계되었기 때문이다. 아래 챗GPT가 생성한 문장들을 보자.

이런 결과에 놀랄 필요는 없다. LLM은 데이터베이스도 아니고 검색 엔진도 아니기 때문이다. 운이 좋으면 정확한 문장을 생성하지만, 대부분의 경우에는 오류, 허위, 거짓, 가짜인 문장을 ‘반드시’ 지어낸다. LLM이 생성한 문장은 보증된 데이터베이스에서 인출한 것도 아니고 검색 엔진에서 찾아온 정보와도 성격이 다르다. 앞에서 설명했듯, 어떤 단어(들) 다음에 어떤 단어(들)이 나올지 추천하는 연쇄 과정을 통해 일정한 길이의 문장들을 출력할 뿐이다.

이런 특성은 상당한 문제를 유발한다. LLM이 써준 글을 도무지 신뢰할 수 없다는 점이다. 아마도 많은 학생이 위에서 본 챗GPT의 답변을 보고 웃었을 것이다. 왜냐하면 BTS 멤버에 대한 시사적 상식, 낙성대에 대한 역사적 지식 등 사전 지식이 있었기 때문이다. 하지만 사전 지식이 없는 사람이 위의 답변을 읽는다면 그것을 ‘진실’로 받아들이기 쉽다. 이는 초등학생(물론 무시하자는 건 아니다)이 어른이 하는 말을 곧이곧대로 믿는 상황과 다를 바 없다. 혹은 시사적, 역사적 지식이 없는 외국인이 위의 진술을 ‘진실’로 받아들이는 것과도 같다.

그렇다면 LLM이 써준 글을 대할 때 어떤 태도를 취하는 것이 현명할까? 나 자신이 저 초등학생 혹은 외국인의 위치에 있지 않은지 돌아봐야 한다. 유려한 문장의 겉모습에 현혹되지 말고 진실성을 의심해 봐야 한다. 이제 학술적인 글쓰기에 LLM을 사용한다는 것이 어떤 뜻인지 조금은 감이 잡히지 않았을까 한다.

철학을 연구하는 나는 챗GPT가 나의 글쓰기에 큰 도움이 되지 않는 판단이 들어 2개월 사용하고 유료 구독을 멈췄다. 지금은 여러 LLM과 그림 생성 인공지능을 모아 놓은 서비스인 POE를 유료 구독하면서 이것저것 오가며 필요에 따라 사용하고 있다. 단, 글쓰기가 아닌 다른 목적으로 사용한다. 물론 POE 말고도 유료 구독하는 인공지능 서비스가 더 있다. 번역 인공지능 딥엘, 책 사진을 찍으면 텍스트 파일로 쉽게 변환해 주는 vFlat이 대표적이다. 각각 내 업무에 맞게 잘 활용하고 있으며, 만족도도 높다. 왜 이런 이야기를 하느냐면, 내가 인공지능을 배척하는 사람도 아니고 내게 맞는 인공지능 서비스를 적절히 활용하고 있다는 점을 강조하고 싶어서다. LLM을 글쓰기 용도로 사용하지 않는 것은 LLM이 ‘나의’ 글쓰기에 도움이 되지 않는다는 판단 때문일 뿐, 필요하다면 나는 얼마든지 인공지능을 활용하고 있다. 나는 반기술주의자가 아니다.

Comments

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.