문과도 알기 쉬운 생성형 AI와 LLM 이야기

문과도 알기 쉬운 생성형 AI와 LLM 이야기

생성형 AI와 LLM은 서로 다른 것임에도 불구하고 여러 맥락에서 뒤섞여서 사용되고 있습니다. 그래서 이런 개념을 처음 접하는 분들은 시작부터 개념을 잘못 이해할 위험이 있죠. 개념이 잘 안잡힌 상태에선 이후 학습도 올바르게 진행하기 어렵습니다. 그래서 이 두 개념부터 잘 잡고 시작을 해야 합니다. 여러분은 생성형 AI와 LLM에 대해 얼마나 알고 계셨나요?

생성형 AI란

생성형 AI, 즉 Generative AI는 단어 그대로 새로운 콘텐츠를 만들어내는 인공지능 기술입니다. 의미가 굉장히 포괄적이죠. 이 넓은 범주 안에 LLM이 들어갑니다. LLM은 생성형 AI의 한 종류에요. 이에 대해서는 아래쪽에서 조금 더 자세하게 다루려고 합니다.

생성형 AI가 만들어내는 컨텐츠는 일반적으로 모델이 사전 학습한 데이터에 기초하죠. 텍스트, 이미지, 음악, 비디오를 잘 학습해서 새로운 텍스트, 이미지, 음악, 비디오를 만들어내는게 지금 우리가 접하고 있는 기술 수준입니다. 예를 들어 이런 것들이 가능해요.

  • 텍스트로 주어진 지시에 맞는 문장을 생성하는 것
  • 주어진 텍스트를 기반으로 그림을 그리는 것 (이건 멀티모달이라고 합니다)

기존 AI와 간단 비교

우리가 지금까지 사용해왔던 AI는 데이터를 학습해서 이것에 대한 분석을 내어놓는 역할을 주로 해왔거든요. 이런 것들이죠.

  • 예측(prediction) - 추천 엔진, 날씨예보, 광고 클릭율이나 전환율, 시즈널리티
  • 분류(classification) - 이미지 분류, 스팸 메일 필터링, 신용평가, 광고 지면 컨텍스트 구분, 광고 타겟팅을 위한 오디언스 세분화

생성형 AI와 무엇이 다른지 느낌이 오시죠? 예측과 분류를 넘어, 생성형 AI는 새로운 창작물을 만들어낼 수 있는 능력이 있다고 할 수 있습니다.

LLM을 제외한 주요 생성형 AI 모델들

생성형 AI도 모델이 상당히 다양합니다. 오랫동안 연구되어 왔으니까요. 그런데 LLM이 등장한 후에는 거의 모든 연구가 그쪽에 집중되면서 아래 모델 중 일부는 더 이상 관심을 받지 못하는 것 같아요. 뭐 어쩔 수 없는 현상이지만, 이런 것들이 있다 정도는 알고 있어야 왜 LLM이 그렇게 좋은지가 와닿을 거라서 이 설명을 덧붙입니다.

  • Generative Adversarial Networks (GANs): 이미지 생성, 비디오 생성 등에 사용되고 성능이 좋습니다. 특히 생성자와 판별자가 경쟁한다는 발상이 정말 창의적이죠. 여전히 여러 딥 페이크나 이미지 생성 서비스에 사용되는 모델입니다.

30초 이후에 GAN으로 딥 페이크가 만들어지는 과정을 볼 수 있어요

  • Diffusion Models: 이미지 생성에 사용되고 GAN 보다 성능이 좋은 경향이 있습니다. 이 모델은 멀쩡한 이미지에 점진적으로 노이즈를 추가하고 이를 다시 제거해서 원래 이미지를 복원하는 과정을 학습합니다. 이 과정에서 모델은 뭔가 깨달음을 얻는 것인지, 우리가 텍스트로 뭔가를 요구하면 완전한 노이즈 상태에서 시작해 점진적으로 요구에 맞는 이미지를 만들어냅니다. Stable Diffusion이 확산 모델을 사용하고, Midjourney와 DALL-E도 확산 모델을 사용할 것이라는 짐작들이 많습니다.
diffusion model, noise
source - dzdata.medium.com , 노이즈로부터 이미지가 만들어짐
  • Variational Autoencoders (VAEs): GAN이나 Diffusion 모델에 비해 주목도가 낮아졌지만 이미지 생성 분야에서 사용됩니다. 의료 등 특정 도메인에서는 주류인 것 같으며 학습 목적으로 여전히 연구실에서 다뤄지고 있기도 하고요.
  • Recurrent Neural Networks (RNNs) and Long Short-Term Memory (LSTM): 시퀀스 데이터를 처리하는데 성능이 좋았던 모델이고 그래서 텍스트 생성, 음악 생성, 시계열 데이터 예측 등에 활용합니다.

위 모델들의 단점을 알아보세요. 그래야 LLM과 비교를 해보면서 서로를 더 잘 이해할 수 있거든요.

생성형 AI의 급격한 발전

놀랍게도 생성형 AI의 개념 - 그러니까 새로운 데이터를 만들어 내는 인공지능 - 자체는 아주 옛날부터 있었습니다. Markov chain 모델(링크)은 1906년, ELIZA 프로그램(링크)은 1964년 산입니다. 스마트폰이 문제가 아니라 개인용 PC도 보급되기 전이죠. 당연히 학습에 사용할만한 데이터도 연산 능력도 지금에 비해 택도 없습니다. 제대로된 연구가 될리가 없었겠죠.

2010년대에 들어서면서 머신러닝과 딥러닝 기술이 진보하고, 대규모 데이터셋과 강력한 하드웨어가 등장하면서 생성형 AI의 포텐셜이 터지기 시작했다고 보는 것 같습니다. 특히 트랜스포터 아키텍쳐가 등장하면서 지금 수준의 생성형 AI가 가능해졌죠.

2017년 Attention is All You Need 발표

논문 제목치고는 도발적이죠? Attention is All You Need는 트랜스포머 아키텍쳐가 세상에 처음 알려지게 된 계기입니다. 이 제목이 의미하는 바는 바로 어텐션 메커니즘이 트랜스포머의 핵심이라는 것입니다. 기존 모델들이 필요로 했던 복잡한 구조 없이, 어텐션만으로도 더 뛰어난 성능을 발휘할 수 있다는 혁신적 주장이었죠. 트랜스포머 아키텍쳐 덕분에 AI는 마치 커피를 마신 후의 인간처럼 더 효율적이고 빠르게 일할 수 있게 되었습니다.

트랜스포머 아키텍쳐가 있기에 GPT와 같은 LLM이 있는 것입니다. 트랜스포머 아키텍쳐의 강력함은 어디에서 나오는지 짧게만 정리하면

  • Attention & Multi-head Attention - 모델의 이름이 트랜스포머(변환기)인 이유가 여기에 있어요. 입력되는 자연어의 문맥을 전역적(global)이면서 다각도로 이해하고 더 나은 해석을 내놓을 수 있게 합니다. 문장의 복잡한 구조를 더 잘 처리할 수 있게 만들고요, 결과적으로 모델이 더 효과적이고 효율적으로 작동합니다. 트랜스포머 이전에 사용되던 RNN은 데이터를 순차적으로 처리했습니다. 이는 직전 단어에 대한 맥락은 잘 보존하지만, 긴 문맥을 고려하는 데 한계가 있었어요. 반면 트랜스포머의 어텐션 메커니즘은 모든 단어가 다른 모든 단어와의 관계를 동시다발적으로 고려하므로 긴 맥락을 더 잘 이해하고 처리할 수 있습니다. 이로 인해 더 나은 최종 아웃풋을 제공하게 되는 것이죠.
  • Positional Encoding - 같은 단어라도 문장에서 어디에 위치하느냐에 따라 의미가 다르거든요. 멀티헤드 어텐션은 병렬 처리의 특성상 문장의 순서를 직접적으로 고려하지 않습니다. 이때 필요한 것이 바로 위치 인코딩입니다. 위치 인코딩은 단어의 위치 정보를 모델에 제공하여 모델이 단어들의 순서에 따른 의미를 학습하게 합니다. 이를 통해 트랜스포머는 문장의 구조적 정보를 이해하고, 문맥을 더 정확하게 파악할 수 있습니다.
multi-head attention
source - http://jalammar.github.io/ , 멀티헤드 어텐션을 시각적으로 표현한 것입니다

트랜스포머 아키텍처는 기존의 모델들이 처리하지 못했던 긴 문맥을 이해하고, 복잡한 구조의 문장도 효율적으로 처리할 수 있습니다. 이것의 등장이 AI가 사람의 언어를 이해하는 능력을 비약적으로 키웠고요.

이렇게 컴퓨터가 인간의 언어를 알아듣는 능력이 생기면서 누구나 컴퓨터에게 일을 시키기가 쉬워진거에요. 지금까지는 컴퓨터 언어를 제2외국어 처럼 할 수 있는 엔지니어들 즉 개발자들이 컴퓨터에게 일을 잘 시킬수 있었죠. 이제는? 프로그래밍 언어를 모르는 사람도 코드를 쓸 수 있어요, 생성형 AI를 이용해서. 이렇게 작성한 코드는 컴퓨터가 일을 하게 만들죠. 제가 괜히 창세기적 사건이라고 말한 것이 아닙니다.

2022년 ChatGPT 발표

ChatGPT가 서비스를 시작한 것은 트랜스포머 아키텍쳐를 채용한 LLM이 우리의 생산성을 어떻게 높일 수 있는지 많은 사람들이 체험하기 시작한 계기라고 생각합니다. GPT는 Generative Pre-trained Transformer의 약자에요. 생성형 사전학습 트랜스포머 정도로 번역하면 될 것 같은데요, 말 그대로 사전 학습된 데이터에 기초해 새로운 출력을 생성하는 AI인데 트랜스포머 아키텍쳐를 채용했다는 것이죠.

앞의 Attention is All You Need에서 제안한 구조에서 인코더를 빼고 디코더만 사용하도록 변형을 주었다는게 GPT의 특징입니다. 한 부분이 빠진 만큼 구조가 단순해 졌고, 텍스트 생성이라는 목적을 잘 달성하는데는 문제가 없다고 하네요. 이건 제가 이해할 수 있는 범위를 벗어난 내용입니다. 그냥 탑 티어 연구자들이 알아서 잘 하겠거니 생각합니다.

chatgpt meme
내가 짜는건 프로그램이 아니라 대화 ㅎㅎ

ChatGPT의 가장 큰 임팩트는 LLM을 위시한 생성형 AI의 힘이 연구실을 벗어나 대중들에게 전해진 것이라고 생각해요. 위 밈에 공감하는 이유도 저게 정말 씁쓸하지만 현실이거든요. 생성형 AI가 생산성에 상당한 도움이 되고 있어요. 저는 제 모자란 코딩과 이미지 제작 스킬을 ChatGPT가 채워줍니다. 어떤 사람들은 이 모델을 영어 대화를 연습하는데 쓰기도 하고, 수학 문제를 해결하는데 활용하죠. 이뿐 아니라 반도체, 에너지, 파운데이션 모델, 응용 소프트웨어, 로보틱스 등등 엄청난 규모의 산업적 가치가 있기도 하구요.

여러가지 윤리적 법적 논란, 특히 환각 현상에 대한 불만이 따라붙긴 하지만 ChatGPT의 탄생으로 산업과 시장이 새로운 성장의 계기를 찾은 것은 분명합니다. 미래는 혁신에 의해 빚어지고, 혁신은 돈이 될 것 같은 곳에서 탄생하죠. 네, 제 시야에는 이 방향이 미래입니다.

LLM이란

앞에서는 생성형 AI를 훑어 보았고 이제 Large Language Model을 설명할게요. 중요한 부분만 정리를 먼저 해보죠.

  • LLM은 생성형 AI의 한 유형이면서 현 시점 주류를 이루는 모델입니다.
  • 텍스트로 된 언어 데이터를 거대한 규모로 학습시켰습니다. 학습시키는 데이터의 양 자체도 거대하고, 이 데이터에서 다각도로 패턴을 찾아서 의미를 발견하는 역할을 하는 파라미터의 개수가 수십억개가 넘도록 거대합니다.
  • LLM은 여러분이 친구와의 대화를 통해 새로운 아이디어를 얻는 것과 비슷합니다. 텍스트 데이터를 학습해 새로운 지식을 창출해내니까요.

잘 학습되고 일반화 성능이 좋은 거대언어모델은 주어진 텍스트의 문맥을 이해하는데 탁월하고요, 이해를 잘 했으니까 그 지시에 따라 적절한 응답을 생성하거나 텍스트를 예측하는 데도 뛰어납니다. GPT-4o, Claude 3.5 Sonnet 써보셨다면 이해가 되실거에요. Llama 3 처럼 높은 성능을 가진 오픈 소스 모델을 가지고 놀아보는 것도 재미있습니다.

LLM이 주류인 이유

생성형 AI에서 LLM이 많이 보이는데는 그만한 이유가 있습니다.

  1. 활용할 수 있는 데이터셋 자체가 많아요 - 텍스트 데이터는 수집, 저장, 가공이 가장 수월한 데이터 유형입니다. 널려있고 저렴하죠.
  2. 트랜스포머 아키텍쳐가 일을 쉽게 만들었어요 - 거대한 텍스트 데이터를 학습하여 문맥을 깊이 있게 이해하는 모델이 있어야 하는데 트랜스포머 아키텍쳐가 더 빠르고 효율적인 학습과 추론을 가능케합니다.
  3. 수요 자체가 클 수 밖에 없어요 - 물건을 판다고 했을때, 프로그래머만을 대상으로 하는 시장 vs 언어를 구사할 수 있는 모든 사람을 대상으로 하는 시장 중 어디가 큰가요? LLM은 언어 능력이 있는 모두가 쉽게 접근할 수 있어요.
  4. 사람을 대체할 수 있어요 - 다양한 작업에서 사람을 대체할 수 있는 능력을 가지고 있습니다. 챗봇에 붙어서 24시간 고객 지원을 제공하거나, 자동 번역기에 붙어서 빠르고 정확한 번역을 내놓을 수 있죠. 이런 태스크를 낮은 수준으로만 해도 되는 비즈니스는 LLM으로 인건비를 아낄 수 있습니다.

3번과 4번이 핵심입니다. LLM은 사람 말을 컴퓨터가 이해하는 모델이에요. 내가 지금 무슨 사업을 하고 있든, LLM을 도입하면 수요 측면과 비용 측면에서 임팩트 있는 레이어를 만들 수 있는 잠재력이 생깁니다.

gpt-4o api pricing
싸다 싸

OpenAI의 최신 모델인 GPT-4o API를 사용해 챗봇으로 상담을 처리한다고 가정해보죠. 조건은 다음과 같습니다.

  • 상담 1건당 인풋 토큰 1,000개 아웃풋 토큰 2,000개 사용.
  • 하루에 1,000건 상담 처리.

비용은 $35, 한화로 48,000원 정도입니다. 상담 천개 처리하는데 5만원이 안됩니다. 게다가 GPT-3.5 turbo 모델은 이것보다 십분의 일 가격이니 뭐 어쩌란건지 모르겠네요.

LLM은 멀티모달리티의 축, 그리고 AGI

ChatGPT-3.5에게 텍스트 입력을 주면 텍스트 출력을 내죠. 이에 비해 DALL-E에게 텍스트 입력을 주면 이미지 출력을 냅니다. 이렇게 DALL-E 처럼 한 모델이 텍스트, 이미지 등 하나 이상의 데이터 유형을 다룰 수 있다면 이 모델은 멀티모달 모델입니다. GPT-4, Gemini 도 대표적인 멀티모달 모델입니다.

LLM은 입력된 텍스트에서 의미를 잘 읽어내기 때문에 다른 모달리티에게 더 풍부한 정보를 제공하는 역할을 합니다. 결국 멀티모달 모델이 데이터를 더 잘 이해하고 더 효과적으로 생성할 수 있게 촉진한다고 볼 수 있죠. 인간이 모델을 사용하는 한 텍스트는 모든 데이터 유형에서 중요한 역할을 합니다. 왜냐하면 인간을 위해 이미지에는 설명이 필요하고, 오디오와 비디오는 자막이나 대본이 있어야 하니까요. 텍스트는 그 자체로 다양한 유형의 데이터를 연결하는 다리 역할을 합니다.

멀티모달리티는 여러 유형의 데이터를 처리하는 것을 넘어 AGI(Artificial General Intelligence)로 가는 마일스톤이라고 생각합니다. AGI는 인간과 유사한 수준의 일반 지능을 가진 인공지능을 목표로 하죠. 그러니까 인간이 그렇듯이 여러가지 작업을 고루 할 수 있는 능력이 있는 인공지능인 것입니다. (게이머 관점으로 보자면 D&D 룰에서의 인간과 딱 맞아 떨어지는게 AGI일지도, A Broad Spectrum & Variety in All Things)

human race in D&D world, dall-e
D&D 스타일로 해달랬더니, 콘트라베이스는 왜 튀어나오는데

멀티모달 모델이 AGI로 가는 길목에서 중요한 이유는요

  1. 종합적인 이해 능력: AGI는 다양한 형태의 데이터를 통합적으로 이해하고 처리할 수 있어야 하니까요. 텍스트, 이미지, 오디오 등 여러 데이터를 결합하여 더 풍부하게 이해하고 분석할 수 있는 멀티모달 모델이 있어야 AGI가 됩니다.
  2. 복잡한 상호작용: AGI는 결국 인간처럼 다양한 상황에서도 복잡한 상호작용을 다룰 수 있어야 합니다. 특히 어려운 태스크, 예를 들어 의사가 환자를 문진한다는 것은 시각 청각 촉각 다양한 감각을 동시에 모두 동원하는 것이죠. 이것을 처리할 수 있는 멀티모달 모델이 나온다면 AGI가 이미 나와있는 상황일지도요.
  3. 강화된 학습 능력: 인간이 지구상에서 가장 우세한 종이 된 이유. 학습능력 아닐까요? AGI라면 스스로 학습하고 발전할 수 있는 능력이 있어야 할 것입니다. 멀티모달 모델은 다양한 데이터 유형을 다루니까 더 많은 것을 학습할 수 있겠죠. 이게 갖춰져야 AGI로도 진전이 생길 것입니다.

멀티모달 모델은 LLM의 기능을 확장하여 더 풍부하고 복잡한 정보를 처리할 수 있습니다. 이는 산업이 AGI를 향해 나아가는 중요한 단계 중 하나로, 다양한 산업과 응용 분야에서 파괴적 혁신을 이끌어낼 잠재력이 있다고 생각합니다.

마치며

여기까지 읽으셨군요. 생성형 AI와 LLM을 이해하는데 도움이 되었나요? 이 기술들은 단순한 트렌드가 아니고 우리의 삶과 일하는 방식, 그리고 산업을 알게 모르게 근본적으로 바꾸고 있습니다. ChatGPT나 다른 AI 툴을 직접 사용해보고, 여러분만의 아이디어를 조금씩이라도 실현해보면서 이 변화에 발을 맞춰 보세요. 해봐야 느끼고 느껴야 알게 되는 것들이 있는 거니까요.

이 기술들이 우리의 일상을 얼마나 편리하게 만드는지 느껴보세요. 아무리 생각해도 AI의 미래는 밝습니다. 생성형 AI와 LLM은 그 여정의 시작입니다.