CoTAR: Chain-of-Thought Attribution Reasoning with Multi-levelGranularity :: just do it

ABOUT ME

-

Today: -

Yesterday: -

Total: -

CoTAR: Chain-of-Thought Attribution Reasoning with Multi-levelGranularity

논문 리뷰 2024. 5. 22. 13:36

논문 요약: "CoTAR: Chain-of-Thought Attribution Reasoning with Multi-level Granularity"

저자:

Moshe Berchansky, Daniel Fleischer, Moshe Wasserblat, Peter Izsak (Intel Labs)

연구 배경 및 목표:

최신 질문 응답(QA) 시스템은 대형 언어 모델(LLM)을 사용하여 최고의 성능을 달성하지만, 이러한 모델은 응답에서 정보를 허구화하는 경향이 있습니다.
본 연구는 입력에서 출력으로의 귀속을 포함하여 생성 프로세스를 향상시키는 접근 방식에 초점을 맞춥니다.
CoTAR(Chain-of-Thought Attribution Reasoning) 방법을 도입하여 귀속의 정확성을 높이는 것을 목표로 합니다.
CoTAR는 귀속 중심의 출력을 생성하도록 모델의 사고 과정을 집중시키는 방식입니다.

방법론:

귀속 중심의 질문 응답:
- 주어진 질문과 관련된 문맥 자료를 바탕으로 정확한 답변을 제공하고, 특정 부분 또는 전체 답변을 적절한 문맥 소스에 귀속하는 작업입니다.
- 세 가지 귀속 수준을 정의합니다: 스팬, 문장, 문단.
사고 연쇄(CoT) 귀속 추론:
- CoT 방식으로 다양한 귀속 수준에서 다단계 추론을 수행합니다.
- 입력 문맥의 가장 중요한 측면을 식별하고, 참조된 부분에 직접적인 인용을 포함시킵니다.
- 세 가지 수준의 귀속 지침:
  - 스팬 지침: 각 문단별로 관련 정보를 생성.
  - 문장 지침: 각 문단이 질문에 어떻게 답하는지 요약.
  - 문단 지침: 질문에 대한 관련 문단을 명시.

평가 지표:

응답 품질: 예측된 답변과 정답의 유사성을 측정합니다.
- n-그램 기반 ROUGE-L (RL)
- 의미론적 유사성을 측정하는 BERTScore (BERT)
- 헛소리 평가를 위한 HEM1 모델
인용 품질: 인용된 텍스트와 정답의 유사성을 평가합니다.
- SEM-F1 지표: n-그램 토큰 수준 유사성
- 인용 정밀도/재현율: ALCE F1
- DOC F1: 인용된 문단과 기대된 답변에서 인용된 문단 간의 일치 여부
- CSCA: 예측된 스팬이 귀속된 문단에서 직접적인 스팬인지 여부

실험 설정:

데이터셋:
- QuoteSum (QSUM) 데이터셋: 자연 질문과 생성된 질문에 대한 반추출적 답변 포함.
- MS MARCO: Bing의 쿼리에 대한 답변을 포함한 크라우드 소싱 데이터셋.
모델:
- GPT-4
- Mistral 7B 디코더 모델
- Flan-T5 XXL 인코더-디코더 모델

실험 결과:

CoT 방법을 사용한 경우 응답 품질과 인용 품질이 향상되었습니다.
특히 스팬 수준에서 CoT 방법을 사용한 경우, 모델이 더 정확한 인용을 생성했습니다.
작은 모델(예: Mistral 7B)이 미세 조정된 경우, GPT-4를 능가하는 성능을 보였습니다.
다양한 귀속 수준과 CoT 방법 조합에 대한 상세 결과는 표 1 및 표 2에 제시되어 있습니다.

결론:

CoTAR 방식은 모델이 더 나은 품질의 답변과 정확하고 신뢰할 수 있는 인용을 생성하도록 돕습니다.
미세 조정된 작은 모델이 GPT-4와 경쟁하거나 일부 경우에는 능가할 수 있음을 보여줍니다.
다양한 귀속 수준과 CoT 방법을 통해 다양한 모델에서 일관된 성능 향상을 확인했습니다.

한계 및 미래 연구:

Slobodkin et al. (2024)의 연구와 직접 비교하지 않았습니다.
향후 연구에서는 유사한 구조와 내용을 가진 데이터셋을 추가하여 평가할 계획입니다.

기존 데이터셋 사용: 주로 QuoteSum (QSUM)과 MS MARCO 데이터셋을 사용하여 CoTAR 방법을 학습하고 평가했습니다.
새로운 데이터 생성: 특히 MS MARCO 데이터셋에 대해, 기존 문단 기반 레이블을 스팬 기반 인용 레이블로 변환하는 알고리즘을 통해 새로운 데이터를 생성했습니다.

'논문 리뷰' 카테고리의 다른 글

From Matching to Generation: A Survey on Generative Information Retrieval (1) (1)	2024.05.22
Biases in Large Language Models: Origins, Inventory, andDiscussion (0)	2024.05.22
Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance (1)	2024.05.22
Learning to Plan and Generate Text with Citations (0)	2024.05.22
Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data (1)	2024.04.15

관련글 관련글 더보기

인기포스트

ABOUT ME

LINK

ADMIN

티스토리툴바