🏃🏻

Introduction

OpenAI의 텍스트 생성 모델(일반적으로 "GPT" 모델이라 불리는 생성 사전 학습 변환기), 예를 들어 GPT-4와 GPT-3.5는 자연어와 공식 언어를 이해하도록 훈련되었습니다.

GPT-4와 같은 모델은 입력에 대한 응답으로 텍스트 출력을 제공합니다. 이러한 모델의 입력은 "프롬프트"라고도 합니다.

프롬프트를 설계하는 것은 GPT-4와 같은 모델을 "프로그래밍"하는 것과 본질적으로 동일하며, 일반적으로 작업을 성공적으로 완료하는 방법에 대한 지침이나 예제를 제공합니다.

GPT-4와 같은 모델은 콘텐츠 생성, 코드 생성, 요약, 대화, 창의적 글쓰기 등 다양한 작업에 사용할 수 있습니다.

어시스턴트는 OpenAI API의 경우 GPT-4와 같은 대형 언어 모델로 구동되는 엔터티(객체)를 의미하며, 사용자에게 작업을 수행해줄 수 있습니다.

이러한 어시스턴트는 모델의 컨텍스트 윈도우 내에 포함된 지침을 기반으로 작동합니다.

컨텍스트 윈도우(context window)란?

어시스턴트는 코드 실행이나 파일에서 정보 검색과 같은 더 복잡한 작업을 수행할 수 있는 도구에 접근할 수 있습니다.

임베딩은 데이터(예: 텍스트)의 의미 또는 내용을 보존하려는 벡터 표현입니다.

어떤 면에서 유사한 데이터 조각들은 서로 가까운 임베딩을 가지는 경향이 있으며, 관련이 없는 데이터는 멀리 떨어져 있습니다.

OpenAI는 텍스트 문자열을 입력으로 받아 임베딩 벡터를 출력하는 텍스트 임베딩 모델을 제공합니다.

임베딩은 검색, 클러스터링, 추천, 이상 탐지, 분류 등 다양한 용도로 유용합니다.

텍스트 생성 및 임베딩 모델은 토큰이라고 불리는 청크로 텍스트를 처리합니다.

토큰은 일반적으로 발생하는 문자 시퀀스를 나타냅니다.

예를 들어, 문자열 "tokenization"은 "token"과 "ization"으로 분해되며, "the"와 같은 짧고 일반적인 단어는 단일 토큰으로 표현됩니다. 문장에서 각 단어의 첫 번째 토큰은 일반적으로 공백 문자로 시작합니다.

특정 문자열을 테스트하고 토큰으로 변환되는 방법을 확인하려면 토크나이저 도구를 확인하세요.

대략적인 규칙으로, 영어 텍스트에서 1 토큰은 약 4자 또는 0.75 단어에 해당합니다.

한 가지 제한 사항은 텍스트 생성 모델의 경우 프롬프트와 생성된 출력이 결합되어 모델의 최대 컨텍스트 길이를 초과해서는 안 된다는 것입니다. 임베딩 모델의 경우(토큰을 출력하지 않음) 입력이 모델의 최대 컨텍스트 길이보다 짧아야 합니다.

각 텍스트 생성 및 임베딩 모델의 최대 컨텍스트 길이는 모델 인덱스에서 확인할 수 있습니다.