※ 흥미본위의 단순 메모이며, 전문적인 지식을 담고있지 않음.
1_Transformer 자연어 처리 모델?
- 2017년 등장, 번역 목적으로 설계됐으나 성능이 우수해서 번역과 무관한 분야에도 널리 사용된다.
- '다음에 올 내용은?'이라는 질문을 해결하는 것이 주된 역할
- 쉽게 말하면 아래와 같은 빈 칸 채우기를 수행하는 프로그램이라고 할 수 있음. 빈 칸에 대한 답을 추론하기 위해
사전정보(=배경비식)가 필요한데, 그 사전정보를 다루는 것이 그 전까지의 언어모델에서 가장 어려운 부분이었다.
1-1_Transformer모델의 Attention mechanism
- 주목도 개념 : Transformer모델의 독창적인 사전정보 처리 방법
1. Attention score : 각각의 단어는 다른 단어들에게 자신과의 관계를 의미하는 '주목도 점수'를 부여함
2. Cross attention : 질의와 응답 사이에서도 주목도 점수를 계산한다
3. Multi-head attention : 이 작업을 중첩하여 수행한다 - 주목도 점수를 부여하기 위해, 각각의 단어는 세 종류의 정보로 분화된다
1. 내 자신이 가진 정보의 성질
2. 다른 단어들이 가진 정보의 성질
3. 내 자신이 가진 정보의 크기(1.과 2.를 비교해서 주목도가 높은 다른 단어만을 추려서 저장)
1-2_Transformer모델과 ChatGPT
- Transformer모델은 이 주목도 정보를 바탕으로 '가장 적합한' 다음 정보를 출력하는 방식으로 동작하며, 다음과 같은 장단점을 갖는다
장점 :
1. 주목도를 분석해서 정보로 갖기에, 사전정보가 멀리 있더라도 주목도가 희석되지않음
2. 데이터를 쌓으면 쌓을수록 정보의 깊이가 깊어짐
3. 주목도만 분석할 수 있다면 서로 다른 정보영역의 교차도 가능(ex.음성↔텍스트↔사진)
단점 :
1. 정확도를 높이기 위해서 많은 학습시간과 메모리가 필요하며, 계속해서 증가함
2. 주목도를 기반으로 '가장 적합한' 답을 추론해서 출력하기에 논리적인 사고가 불가능하고, 옳고 그름에 대한 판단도 존재하지 않음. (엉뚱한 질문을 해도 답은 출력하지만, 역시 엉뚱한 대답이 나올 뿐..) - ChatGPT는...?
★. 위 과정에 더해서, 출력된 답에 대해 인간이 직접 점수를 매기는 과정을 거쳐서 데이터를 축척
★. 이 '인간의 점수 부여 기준'을 다시 학습 시켜서 채첨모델로 만듦(=강화학습)
1-3_요약
- 주목도 개념을 사용하여 '가장 그럴듯한' 다음 단어를 반복해서 출력하는 방식으로 문장을 구성한다
- 아직까지는 번역과 같이 기존의 정보를 가다듬거나 전형적인 질문에 대한 답을 작성하는 정도에서만 정확성을 보장하는 수준이지만 결과물의 퀄리티가 매우 높다
'Memo' 카테고리의 다른 글
배포방법 고민 (0) | 2023.03.14 |
---|---|
[Git&GitHub] 깃 & 깃허브 사용법 총정리 (0) | 2023.03.08 |
[Memo] 코테용 정리 (0) | 2023.02.22 |
[Memo] HTML의 개념 (0) | 2023.02.09 |
[Memo] JDBC란? (0) | 2023.01.28 |