ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • CoTAR: Chain-of-Thought Attribution Reasoning with Multi-levelGranularity
    논문 리뷰 2024. 5. 22. 13:36
    반응형

    논문 요약: "CoTAR: Chain-of-Thought Attribution Reasoning with Multi-level Granularity"

    저자:

    Moshe Berchansky, Daniel Fleischer, Moshe Wasserblat, Peter Izsak (Intel Labs)

    연구 배경 및 목표:

    • 최신 질문 응답(QA) 시스템은 대형 언어 모델(LLM)을 사용하여 최고의 성능을 달성하지만, 이러한 모델은 응답에서 정보를 허구화하는 경향이 있습니다.
    • 본 연구는 입력에서 출력으로의 귀속을 포함하여 생성 프로세스를 향상시키는 접근 방식에 초점을 맞춥니다.
    • CoTAR(Chain-of-Thought Attribution Reasoning) 방법을 도입하여 귀속의 정확성을 높이는 것을 목표로 합니다.
    • CoTAR는 귀속 중심의 출력을 생성하도록 모델의 사고 과정을 집중시키는 방식입니다.

    방법론:

    1. 귀속 중심의 질문 응답:
      • 주어진 질문과 관련된 문맥 자료를 바탕으로 정확한 답변을 제공하고, 특정 부분 또는 전체 답변을 적절한 문맥 소스에 귀속하는 작업입니다.
      • 세 가지 귀속 수준을 정의합니다: 스팬, 문장, 문단.
    2. 사고 연쇄(CoT) 귀속 추론:
      • CoT 방식으로 다양한 귀속 수준에서 다단계 추론을 수행합니다.
      • 입력 문맥의 가장 중요한 측면을 식별하고, 참조된 부분에 직접적인 인용을 포함시킵니다.
      • 세 가지 수준의 귀속 지침:
        • 스팬 지침: 각 문단별로 관련 정보를 생성.
        • 문장 지침: 각 문단이 질문에 어떻게 답하는지 요약.
        • 문단 지침: 질문에 대한 관련 문단을 명시.

    평가 지표:

    • 응답 품질: 예측된 답변과 정답의 유사성을 측정합니다.
      • n-그램 기반 ROUGE-L (RL)
      • 의미론적 유사성을 측정하는 BERTScore (BERT)
      • 헛소리 평가를 위한 HEM1 모델
    • 인용 품질: 인용된 텍스트와 정답의 유사성을 평가합니다.
      • SEM-F1 지표: n-그램 토큰 수준 유사성
      • 인용 정밀도/재현율: ALCE F1
      • DOC F1: 인용된 문단과 기대된 답변에서 인용된 문단 간의 일치 여부
      • CSCA: 예측된 스팬이 귀속된 문단에서 직접적인 스팬인지 여부

    실험 설정:

    • 데이터셋:
      • QuoteSum (QSUM) 데이터셋: 자연 질문과 생성된 질문에 대한 반추출적 답변 포함.
      • MS MARCO: Bing의 쿼리에 대한 답변을 포함한 크라우드 소싱 데이터셋.
    • 모델:
      • GPT-4
      • Mistral 7B 디코더 모델
      • Flan-T5 XXL 인코더-디코더 모델

    실험 결과:

    • CoT 방법을 사용한 경우 응답 품질과 인용 품질이 향상되었습니다.
    • 특히 스팬 수준에서 CoT 방법을 사용한 경우, 모델이 더 정확한 인용을 생성했습니다.
    • 작은 모델(예: Mistral 7B)이 미세 조정된 경우, GPT-4를 능가하는 성능을 보였습니다.
    • 다양한 귀속 수준과 CoT 방법 조합에 대한 상세 결과는 표 1 및 표 2에 제시되어 있습니다.

    결론:

    • CoTAR 방식은 모델이 더 나은 품질의 답변과 정확하고 신뢰할 수 있는 인용을 생성하도록 돕습니다.
    • 미세 조정된 작은 모델이 GPT-4와 경쟁하거나 일부 경우에는 능가할 수 있음을 보여줍니다.
    • 다양한 귀속 수준과 CoT 방법을 통해 다양한 모델에서 일관된 성능 향상을 확인했습니다.

    한계 및 미래 연구:

    • Slobodkin et al. (2024)의 연구와 직접 비교하지 않았습니다.
    • 향후 연구에서는 유사한 구조와 내용을 가진 데이터셋을 추가하여 평가할 계획입니다.

     

    더보기
    • 기존 데이터셋 사용: 주로 QuoteSum (QSUM)과 MS MARCO 데이터셋을 사용하여 CoTAR 방법을 학습하고 평가했습니다.
    • 새로운 데이터 생성: 특히 MS MARCO 데이터셋에 대해, 기존 문단 기반 레이블을 스팬 기반 인용 레이블로 변환하는 알고리즘을 통해 새로운 데이터를 생성했습니다.
    반응형
Designed by Tistory.