한국GPT협회
home
기관 소개
home

ChatGPT 기초 이해하기

카테고리
ChatGPT

History

GPT Versions

2017 Transformer 모델 by Google
2018 GPT-1 (파라미터 1억1700만개) by Open AI, 샘 알트먼
2019 GPT-2 (파라미터 15억개)
2020 GPT-3 (파라미터 1750억개)
2021 GPT-3.5 (파라미터 1750억개), 인간 피드백을 통한 자료 검증
2022.12.1 ChatGPT (GPT-3.5기반) (파라미터 1750억개) - 출시 5일만에 사용자 100만명 돌파 - 출시 2개월만에 사용자 1억명 돌파 - 2021년 9월까지의 data만 학습 → 이후 사건에 대한 ‘데이터’ 없음
2023. 3.14 GPT-4 (파라미터 수 미공개, 5천억?)
출처 : 서울디지털재단

Features : Chat+G+P+T

■ 특징

■ Chat

우리의 질문에 대답하는 대화형 인터페이스

구글에서 검색하면 사이트, 사전, 블로그, 유튜브, 브런치 등 여러 사이트에서 텍스트, 이미지, 영상 등 여러 형태의 결과가 나옵니다. 이걸 다 읽어보고 필요한 정보를 선택하고 통합해서 정리하는 것은 우리의 몫이죠.
구글 매출의 절반 이상이 검색광고 매출입니다. 사람들이 검색어를 넣고 결과를 읽어보고 페이지 넘기고 다음 문서 열고 그 모든 과정에서 광고를 노출시키고 있습니다.
ChatGPT는 우리의 질문에 직접적인 하나의 대답을 해줍니다.
이런 특징 때문에 ChatGPT가 구글을 위협한다는 말이 나옵니다. 검색하고 읽어보고 문서간에 이동하는 모든 과정이 다 사라지고 질문과 대답이라는 대화 형식으로만 끝나버리면 광고를 노출시킬 자리가 없습니다.

■ Generative

생성형

ChatGPT는 알고리듬을 사용하여 패턴을 학습하고 해당 학습을 기반으로 텍스트, 이미지, 음악, 비디오와 같은 새로운 출력을 "생성"합니다.
출처: 미드저니
CNN·뉴욕타임스(NYT) 보도에 따르면 지난달 ‘콜로라도 주립 박람회 미술대회’의 디지털아트 부문에서 게임 기획자인 제이슨 M. 앨런(39)이 AI로 제작한 작품 ‘스페이스 오페라 극장'(Theatre D’opera Spatial)이 1위에 올랐다.
출처: 포브스
챗GPT와 여러 생성형 AI 친구들은 글도 생성하고 이미지도 생성하고 코딩도 생성합니다. 예전의 AI들이 대부분 인간이 준 기존의 정답들을 학습해서 Rule을 만들고, 이 Rule에 따라서 새로운 문제에 대해서 Pass다 Fail이다 정도를 판정을 해주는 수준이었습니다.
하지만 요즘 활용되고 있는 생성형 AI들은 정답을 알려주기 보다는 사람에게 새로운 대안을 제시합니다. 이 대안이 너무나 그럴 듯 해서 우리를 너무 놀래키고 있습니다.
인간이 하는 지식노동의 대부분이 '생성' 입니다. 자료를 조사해서 결론을 내리고, 이 내용과 저 내용을 종합해서 추론을 하고, 지금까지 이렇게 해왔는데 다음에는 저렇게 하면 어떨까 상상의 대안을 만들고 하는 일이죠.
수십년전에 자동화 기계가 나와서 정해진 자리에서의 인간의 육체노동을 대체 했듯이, 요근래 로봇들이 나와서 돌아다니면서 하던 인간의 육체노동을 대체하고 있듯이, 이제 생성형 AI들이 인간의 정신노동을 빠르게 대체할 것으로 생각됩니다.

■ Pre-trained

사전 학습

ChatGPT를 만든 사람들이 미리 학습을 시켜놨다는 의미입니다. ChatGPT는 거대언어모델(LLM, Large Language Model)이라고 합니다. 엄청나게 많은 언어를 공부했다는 뜻입니다.
GPT-3를 만들기 위해 753 기가바이트의 문서를 학습시켰다고 합니다. 여기에는 위키피디아, 책, 저널, 레딧 등을 포함합니다.

사전 학습을 시킨 과정

더 많은 데이터를 공부시킬수록 똑똑해집니다. 우리가 쓰는 언어를 더 비슷하게 사용할 줄 알게 됩니다. 하지만 무조건 데이터만 많다고 해서 무조건 똑똑해지는건 아닙니다. 실수도 지적해주고 잘하면 칭찬도 해주며 “잘” 가르치면 더 똑똑해집니다.

학습 1단계. Pre-training language model

인터넷에 있는 문서를 사람이 선별해서 적당한 데이터만 추린다

학습 2단계. Reward model training

언어 모델에 질문하고 GPT가 대답한 결과에 대해 사람이 평가하고 피드백을 준다

학습 3단계. Fine-tuning with Reinforcement learning

학습에 사용한 데이터가 아닌 새로운 질문을 하고 GPT가 대답하면 사람이 지적을 하고 조정을 한다

학습 4단계. 최종성능평가

이거도 사람이 유용성(질문에 대한 대답이 맞냐), 진실성(True만 대답했냐), 무해성(대답에 차별, 언어폭력 없었냐) 평가함

■ Transformer

트랜스포머라고 하는데, 딱 대입되는 한글번역이 없습니다. 문장 속에서 단어와 같은 순차 데이터 내의 관계를 추적해서 맥락과 의미를 학습하는 신경망입니다.
구글이 2017년에 발표한 논문에서 트랜스포머라는 말이 처음 등장했고, 파운데이션 모델이라고도 불립니다.
“나는 어제 부산에 _____.”라는 문장이 있다고 했을 때 GPT가 학습한 수많은 문장들을 참고해 보면 아마 밑줄 부분에는 “갔다”라는 단어가 나오는 것이 적합한 것 같다라고 추론을 합니다. 이런 추론을 반복해서 전체 문장과 이야기를 만들어냅니다.
말 그대로 추론이기 때문에 빈칸에 와야 하는 정확한 정답을 맞추기는 어려워 합니다. 엉뚱한 대답을 스스로 믿고 강력하게 주장하는 환상(할루시네이션)을 보이곤 합니다.
정답 맞추기 보다는 새로운 이야기 창작하기에 훨씬 탁월한 능력을 보여주고 있습니다.

Achievements

빠른 확산

출시 5일 만에 사용자 100만명 (페이스북 10개월, 인스타그램이 2개월)
출시 2개월만에 사용자 1억명

시험 합격

ChatGPT의 능력

언어능력

GPT-4 영어(85.5%) > GPT-4 한글(77%) > GPT-3.5 영어(70.1%)
더 많고 정확한 대답을 원한다면 영어 선택
편안한 블로그 글, 문어체를 쓰려면 한글 선택

영어로 사용하는 방법

프롬프트에서 번역을 지시
구글 자동 변역
파파고 수동 번역
크롬확장프로그램 - 프롬프트지니

특장점

API

ChatGPT API key 생성하기

우측 상단에 계정 정보 Personal > View API keys
create new secret key 클릭
딱 한번만 보여줌. 복사 & 저장 필수

한계점

숫자에 약함
2021년 9월 이전 자료만 학습함
할루시네이션 (틀린 말도 그럴듯하게 뻔뻔하게)