-
Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance논문 리뷰 2024. 5. 22. 16:25반응형
논문 요약: "Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance"
저자:
Ziqi Yin, Hao Wang, Kaito Horio, Daisuke Kawahara, Satoshi Sekine
연구 배경 및 목표:
이 논문은 프롬프트의 예의 수준이 대형 언어 모델(LLM)의 성능에 미치는 영향을 조사합니다. 인간 간의 소통에서 예의 바른 언어는 더 많은 순응과 효과를 가져오는 반면, 무례한 언어는 반감을 일으켜 응답의 질에 영향을 미칠 수 있습니다. LLM이 인간의 커뮤니케이션 특성을 반영할 수 있다고 가정하고, 영어, 중국어, 일본어 작업에서 프롬프트의 예의가 LLM의 성능에 미치는 영향을 평가합니다.
주요 내용:
- 연구 동기:
- 인간의 사회적 상호작용에서 예의와 존중은 기본적인 예절로, 이는 우리의 언어와 행동에 반영됩니다.
- 다른 문화와 언어에서는 예의와 존중의 표현이 다를 수 있으며, 이는 LLM의 성능에도 영향을 미칠 수 있습니다.
- 무례한 프롬프트는 모델 성능 저하를 초래할 수 있으며, 최적의 예의 수준은 언어마다 다를 수 있습니다.
- 실험 설정:
- 언어: 영어, 중국어, 일본어.
- 모델: GPT-3.5-Turbo, GPT-4, Llama2-70B, ChatGLM3-6B, Swallow-70B.
- 프롬프트 예의 수준: 각 언어에 대해 8개의 프롬프트 템플릿을 설계하고, 이를 기반으로 실험을 수행.
- 실험 및 결과:
- 요약: CNN/DailyMail(영어) 및 XL-Sum(중국어, 일본어) 데이터셋을 사용하여 요약 작업 수행.
- 결과: 예의 수준이 낮아질수록 생성 길이가 감소하지만, 극도로 무례한 프롬프트에서는 다시 길어지는 경향을 보임.
- 언어 이해 벤치마크: MMLU(영어), C-Eval(중국어), JMMLU(일본어)를 사용하여 평가.
- 결과: 영어에서는 예의 수준이 높을수록 성능이 향상되며, 중국어에서는 과도한 예의도 성능 저하를 초래할 수 있음. 일본어에서는 중간 수준의 예의가 가장 좋은 성능을 보임.
- 고정 관념 편향 탐지: 편향 지수(Bias Index)를 사용하여 고정 관념 편향을 평가.
- 결과: GPT-3.5와 GPT-4는 예의 수준이 낮을수록 편향이 높아지는 경향을 보였으며, Llama2-70B는 낮은 예의 수준에서 편향이 가장 높음.
- 요약: CNN/DailyMail(영어) 및 XL-Sum(중국어, 일본어) 데이터셋을 사용하여 요약 작업 수행.
- RLHF와 SFT의 영향:
- **지도 학습 미세 조정(SFT)**과 **인간 피드백을 통한 강화 학습(RLHF)**의 역할을 고려하여, 예의 수준이 모델 성능에 미치는 영향을 비교.
- RLHF와 SFT를 적용한 모델이 예의 수준에 덜 민감하게 반응하며, 편향 지수도 더 낮음.
결론:
- 프롬프트의 예의 수준은 LLM의 성능에 중요한 영향을 미칩니다. 무례한 프롬프트는 모델 성능 저하와 편향 증가를 초래할 수 있으며, 과도한 예의도 항상 좋은 결과를 보장하지 않습니다.
- 중간 수준의 예의가 대부분의 조건에서 더 나은 성능을 보이지만, 언어와 모델에 따라 최적의 예의 수준은 다를 수 있습니다.
- 문화적 배경을 고려한 LLM 개발과 코퍼스 수집이 필요합니다.
https://arxiv.org/pdf/2402.14531
참고 블로그
https://medium.com/@nathanbos/do-i-have-to-be-polite-to-my-llm-326b869a7230
Do I have to be polite to my LLM?
It won’t change results much, but it might be good for you
medium.com
반응형'논문 리뷰' 카테고리의 다른 글
- 연구 동기: