-
The FACTS Grounding Leaderboard:Benchmarking LLMs’ Ability to GroundResponses to Long-Form Input카테고리 없음 2025. 1. 15. 10:28반응형
LLM이 장문의 문서를 입력할 경우 얼마나 사실적으로 정확한 응답을 생성하는 능력을 평가
테스트용 질문은 860개의 공개 및 859개의 비공개 샘플 등 모두 1719개▲제공된 맥락에 따라서만 대답하라는 일반 지침과 명령이 포함된 시스템 프롬프트
▲답변할 구체적인 질문
▲필요 정보가 포함된 긴 문서 등이 포함
https://arxiv.org/pdf/2501.03200
https://www.kaggle.com/facts-leaderboard
FACTS Leaderboard | Kaggle
A novel benchmark from Google DeepMind designed to evaluate the factual accuracy and grounding of AI models
www.kaggle.com
https://www.aitimes.com/news/articleView.html?idxno=167087
구글의 새로운 LLM '팩트 체크' 벤치마크서 '제미나이' 1~3위 차지...'o1'은 8~9위 - AI타임스
구글 딥마인드가 대형언어모델(LLM)의 응답 정확도와 환격 여부를 체크하는 새로운 벤치마크를 선보였다. 동시에 이를 근거로 리더보드도 공개했는데, 구글의 \'제미나이\' 시리즈가 1~3위를 차지
www.aitimes.com
Jacovi, Alon, et al. "The FACTS Grounding Leaderboard: Benchmarking LLMs' Ability to Ground Responses to Long-Form Input." arXiv preprint arXiv:2501.03200 (2025).
반응형