카테고리 없음

The FACTS Grounding Leaderboard:Benchmarking LLMs’ Ability to GroundResponses to Long-Form Input

minty_y 2025. 1. 15. 10:28
반응형

LLM이 장문의 문서를 입력할 경우 얼마나 사실적으로 정확한 응답을 생성하는 능력을 평가


테스트용 질문은 860개의 공개 및 859개의 비공개 샘플 등 모두 1719개

 

▲제공된 맥락에 따라서만 대답하라는 일반 지침과 명령이 포함된 시스템 프롬프트

▲답변할 구체적인 질문

▲필요 정보가 포함된 긴 문서 등이 포함


 

https://arxiv.org/pdf/2501.03200

https://www.kaggle.com/facts-leaderboard

 

FACTS Leaderboard | Kaggle

A novel benchmark from Google DeepMind designed to evaluate the factual accuracy and grounding of AI models

www.kaggle.com

 

https://www.aitimes.com/news/articleView.html?idxno=167087

 

구글의 새로운 LLM '팩트 체크' 벤치마크서 '제미나이' 1~3위 차지...'o1'은 8~9위 - AI타임스

구글 딥마인드가 대형언어모델(LLM)의 응답 정확도와 환격 여부를 체크하는 새로운 벤치마크를 선보였다. 동시에 이를 근거로 리더보드도 공개했는데, 구글의 \'제미나이\' 시리즈가 1~3위를 차지

www.aitimes.com

 

Jacovi, Alon, et al. "The FACTS Grounding Leaderboard: Benchmarking LLMs' Ability to Ground Responses to Long-Form Input." arXiv preprint arXiv:2501.03200 (2025).

 

 

반응형