요즘 생성형 AI 분야의 기술 발전이 너무 빨라서... 불과 1년 전에는 먼 미래의 일이라고 생각했거나, 달성 가능 여부조차 불분명했던 기술들이 오늘은 상용화되어 삶을 바꾸고 있다. 근 몇년간의 변화는 특히 정말 급진적이었는데(이 또한 미래에 돌아본다면 정말 아무것도 아니었던 것으로 보일 정도로 기하급수적인 기술 발전이 일어날까봐 무섭다) 이러한 기술 발전에 대한 나의 단상을 기록으로 남기고자 한다.
2020년
- (학교 동아리에서 수능 영어를 푸는 AI를 만들어보자는 아이디어를 보며) 와 이거 진짜 어렵겠다... 정답률 한 40%만 달성해도 정말 혁신적이겠는걸?
- (OpenAI라는 회사에서 GPT-3라는 언어모델을 발표했는데, 성능이 엄청 좋다는 뉴스를 보며) 오... 이젠 AI가 어느 정도 글도 자연스럽게 쓸 수 있구나... (이때만 해도 GPT3의 진짜 potential을 몰랐다.)
2021년
- (군대에서 DALL-E와 같은 이미지 생성 모델들의 뉴스, 그리고 저작권 논란을 접하며) 이젠 간단한 프롬프트로 그림을 쉽게 그릴 수 있게 되었구나. 앞으로 일러스트 같은 그림은 AI를 사용해 쉽게 만들 수 있겠는걸?
- GPT-3 기반 GitHub Copilot이 출시되었다. '아니 AI가 코드를 예측해서 완성해준다고? 엄청 못하는 것 아니야?'라는 생각을 했다. 써볼 생각은 하지 않았다. 직접 짜는게 훨씬 나을 것이라고 생각했다...
2022년
- 'Minerva'라는 quantitative reasoning AI를 접했다. "Solving Quantitative Reasoning Problems with Language Models : Minerva"라는 논문과 함께 발표되었는데, 수학, 물리, 화학 등 분야의 다양한 질문들에 대한 AI의 답변을 볼 수 있는 사이트에서 답변들의 수준을 보고 경악했다. 물론 오답들이 꽤 섞여있긴 했지만... AI가 자연어로 문제를 읽고 단계별로 풀 수 있다는 것이 충격이었다.
- ChatGPT가 연말에 출시되었다. 그런데 이때까지만 해도 써볼 생각은 하지 않았다.
2023년
- ChatGPT가 점점 더 유명해지고, 주변에서도 써봤다는 이야기가 들려오기 시작한다. 특히 UROP로 UMATO 논문을 쓰면서, 같이 일하는 사람들이 GPT의 놀라운 성능에 대해서 이야기했다.
- 3월에 ChatGPT에 회원가입해서 처음 사용해본다. 말이 안된다. 과장하자면 거의 AGI가 구현된 수준이라고 생각한다.
- 소개원실의 LLVM pass 코딩을 거의 GPT에 전적으로 의존해서 작성한다. 프롬프트를 어떻게 써야 GPT를 잘 구슬려서 코드를 잘 얻을 수 있는지 알게 된다. 학기가 거의 끝나갈 때 즈음에서야 친구의 추천으로 ChatGPT Plus 구독을 시작하며 GPT-4를 접한다. 진작에 구독했어야 한다.
- 모든 수업에서 GPT를 켜놓고 공부한다. 모든 과제에서 GPT를 사용한다. 모든 작문과 코딩 작업에 GPT를 동원한다. 많은 구글링을 GPT로 대체한다.
- 음성인식 모델 Whisper가 결합된 모바일 앱을 쓰기 시작한다. ChatGPT에 DALL-E, 웹 서핑 능력, 이미지 입력 기능 등이 추가되며 포텐셜이 더욱 상승한다. 슬슬 인간보다 뛰어난 모습들을 많이 보여준다.
- Copilot이 학생에겐 무료인지 처음 알았다. 이것 또한 진작에 썼어야 한다. 이미 GPT를 쓰던 입장에선 혁신적인 수준까지는 아니지만, 코딩 시간이 적당히 단축이 된다. 때때로 내 생각을 읽듯이 작동한다.
- AI가 바꿀 가까운 미래가 두렵기 시작한다.
- (12월) Google Deepmind에서 발표한 Gemini의 multimodal 성능은 압도적이다. 또 Gemini 기반 AlphaCode 2는 Codeforces에서 나와 유사한 퍼포먼스를 보인다. 우울할 만큼 충격적이다. 더 이상 LLM이라는 용어가 이 AI들을 설명하기에 적절하지 않은 것 같다. AGI가 가능할 것만 같다. 이런 AI들에 의해 변화할 가까운 미래 사회를 그려보려고 노력한다. 나는 뭘 하고 살고 있을까?