일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- ChatGPT 잘 쓰는 법
- 딥러닝
- 프롬프트 잘 쓰는법
- 프롬프트 엔지니어링
- 인공지능
- TabNet
- 악성댓글
- 프롬프트 잘 쓰는 법
- GPT
- LLM
- AI
- SOTA
- 빅데이터
- 강화학습
- mergekit
- IT
- 경진대회
- ChatGPT
- 머신러닝
- GPT3
- 프롬프트
- 모델링
- 거대언어모델
- 컴퓨터 비전
- 비전러닝
- chatgpt 꿀팁
- 프롬프트 페르소나
- Transformer
- GaN
- LLM 성능 개선
Archives
- Today
- Total
목록DPO (1)
빅웨이브에이아이 기술블로그
RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?
빅웨이브에이아이 이원석 님의 리뷰입니다. LLM 모델인 GPT-4, PaLM, LLama 등은 범용적인 목적에 맞게, 매우 큰 모델 사이즈와 매우 방대한 양의 데이터로 사전 학습이 수행됨 일반적인 LLM의 경우 방대한 양의 데이터로 부터 매우 다양한 도메인 지식을 습득 But, 사전 학습 데이터에서 욕설, 편향적인 정보, 부정확한 정보를 담은 문서 등 적절치 못한 데이터를 다수 포함 데이터 클렌징 및 필터링 등 방대한 양의 데이터를 사람이 전부 처리하는 것은 한계가 존재 이에 따라, 모델이 부적절한 문장이나 단어를 선택하여 다음 문장을 생성하는 일이 빈번하게 발생 생성 모델 자체도 Next-token prediction 방식으로 학습 되기 때문에 최대한 확률적으로 높은 문장을 생성하는 것, 이로인한 환각..
기술 블로그
2024. 1. 24. 16:25