일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 컴퓨터공학
- 자바스크립트
- 빅데이터
- 2
- 파이썬
- 자료구조
- 데이터과학
- 클라우드컴퓨팅
- 데이터분석
- 웹개발
- 버전관리
- I'm Sorry
- 컴퓨터과학
- 네트워크보안
- 인공지능
- 사이버보안
- 프로그래밍언어
- 데이터구조
- 딥러닝
- 머신러닝
- 네트워크
- 데이터베이스
- 코딩
- Yes
- 프로그래밍
- 소프트웨어
- 소프트웨어공학
- 알고리즘
- 컴퓨터비전
- 보안
- Today
- Total
스택큐힙리스트
문서 모음에서 OpenAI GPT-3 모델의 세부 조정하기 본문
문서에 따르면 OpenAI GPT3 모델을 세밀하게 조정하기 위한 교육 데이터는 다음과 같이 구성되어야 합니다.
{prompt:
{prompt:
{prompt:
저는 내부 지식 베이스에서 가져온 문서 모음이 있습니다. 이들은 이와 같은 형식의 JSONL 파일로 전처리되었습니다.
{ id: 0, name: Article Name, description: Article Description, created_at: timestamp, updated_at: timestamp, answer: { body_txt: An internal knowledge base article with body text, }, author: { name: First Last}, keywords: [], url: A URL to internal knowledge base}
{ id: 1, name: Article Name, description: Article Description, created_at: timestamp, updated_at: timestamp, answer: { body_txt: An internal knowledge base article with body text, }, author: { name: First Last}, keywords: [], url: A URL to internal knowledge base}
{ id: 2, name: Article Name, description: Article Description, created_at: timestamp, updated_at: timestamp, answer: { body_txt: An internal knowledge base article with body text, }, author: { name: First Last}, keywords: [], url: A URL to internal knowledge base}
그 다음 문서는 명령어 openai api fine_tunes.create -t
이를 실행하면 다음과 같은 결과가 나옵니다.
에러: 파일은 프롬프트/완료 키를 가진 JSONL 형식을 가지고 있어야합니다. 첫 번째 줄에 prompt 키가 없습니다. (HTTP 상태 코드: 400)
위에서 언급한 문서화된 파일 구조를 고려한다면 예상치 않은 것은 아닙니다. 실제로 openai tools fine_tunes.prepare_data -f training-data.jsonl 을 실행하면 다음과 같이 알림이 나옵니다.
당신의 파일에는 490개의 프롬프트-완성 쌍이 포함되어 있습니다.
필요한 열 검증기에서 오류 발생: prompt 열/키가 누락되었습니다. 열/키 이름을 적절하게 지정한 후 다시 시도하십시오.
문서 컬렉션에서 GTP3 모델을 미세 조정하여 나중에 그 내용에 관한 질문을 할 수 있도록 하는 것이 올바른 접근 방식인가요? 가능한 질문과 이상적인 답변이 있는 컬렉션이 없는 상황에서 이 경우 prompt 및 completion 필드에 무엇을 넣어야 할까요?
GTP3 모델을 조정하는 데 사용되는 메커니즘을 근본적으로 오해한 건가요? GTP3가 가능한 질문과 대답으로 훈련되어야 한다는 것은 옳다고 생각합니다. 그러나 베이스 모델은 이미 훈련되었고 이러한 프로세스는 추가 데이터셋을 제공함으로써 공개 도메인에 없는 질문을 더 많이 할 수 있도록하는 것이므로 내가 달성하고자하는 것이 가능할 것이라고 생각합니다. 작동 예로, 나는 실제로 https://chat.openai.com/로 가서 다음과 같이 이 문서에 대한 질문을 할 수 있습니다:
다음 문서가 제공됩니다:
[문서 중 하나의 텍스트 내용을 붙여넣으세요]
당신은 XXX를 말해 줄 수 있나요?
그리고 실제로 그것은 종종 정확한 답변을 내놓습니다. 지금 저는 이러한 문서 중 약 500개에 대해 모델을 맞추는 것을 시도하고 있습니다. 이렇게 하면 질문이 제기될 때마다 전체 단일 문서를 붙여넣을 필요가 없고, 모델은 사용자가 제공한 단일 문서뿐만 아니라 모든 ~500의 내용을 고려할 수도 있습니다.
답변 1
파인튜닝은 특정 작업에 맞게 사전 학습 된 기계 학습 모델을 수정하는 과정입니다. 이는 모델에 내부 지식 베이스를 제공하는 것이 아니라는 것입니다. 모델을 파인튜닝하는 대신, 지식 베이스에서 데이터 청크에 대한 임베딩 데이터베이스를 생성할 수 있습니다. 이 데이터베이스는 쿼리에 대한 의미론적 검색을 수행하여 가장 관련성 높은 정보를 찾을 때 사용할 수 있습니다. 쿼리를 수신하면, 데이터베이스에서 쿼리와 가장 유사한 데이터 청크를 찾기 위해 검색할 수 있습니다. 이 정보는 GPT-3에 전달되어 답변을 제공합니다. 이 방법을 사용하면 데이터베이스에 새로운 데이터 청크를 추가하여 지식을 쉽게 업데이트 할 수 있습니다.
답변 2
오픈AI GPT-3 모델을 문서 모음에서 세밀하게 조정하기최근에 인공지능 기술은 급속하게 발전하며, 기계 학습과 자연 언어 처리(NLP) 등의 분야에서 놀라운 결과를 보이고 있습니다. 그 중에서도, 오픈AI GPT-3 모델은 가장 뛰어난 모델 중 하나로 꼽힙니다. 이 모델은 다른 기술과 결합하여 프로젝트의 성공에 큰 기여를 할 수 있습니다.
하지만 이러한 모델은 미리 훈련된 모델이기 때문에, 특정 도메인에서 정확한 결과를 내기에는 한계가 있습니다. 따라서, 이러한 모델을 세밀하게 조정하는 것이 중요합니다.
이를 위해, 문서 모음을 사용하여 GPT-3 모델을 세밀하게 튜닝할 수 있습니다. 문서 모음은 특정 도메인에서의 전문 지식과 산업 경험을 제공합니다. 이러한 문서 모음을 사용하여 모델을 주로 사용하는 문제 영역에 대해 잘 이해하고 구체적인 결과를 추출하도록 조정할 수 있습니다.
이러한 모델 튜닝은 특정 도메인에서 높은 정확도의 결과를 제공하기 위해 중요합니다. 예를 들어, 의료쪽에서 모델을 튜닝하면, 정확한 진단에 대한 결과를 얻을 수 있습니다. 또한, 재무 분석에서도 모델을 튜닝하면 정확한 예측 결과를 얻을 수 있습니다.
따라서, 문서 모음을 사용하여 GPT-3 모델을 세밀하게 조정하는 것은 모델이 전문 지식을 가진 문제 영역에서의 성능을 향상시키는 좋은 방법 중 하나입니다. 이를 통해 프로젝트의 성공 확률이 크게 증가할 수 있습니다.
이러한 지식을 활용하여, 오픈 AI GPT-3 모델을 문서 모음에서 세밀하게 조정하여 특정 도메인에서 높은 정확도를 보이는 결과를 얻을 수 있습니다.