분류 전체보기
-
-
Do Language Models Know When They’re Hallucinating References?논문 리뷰 2024. 5. 27. 16:46
https://aclanthology.org/2024.findings-eacl.62.pdf ChatGPT 논문 요약:배경 및 문제 제기:최신 언어 모델(LM)은 종종 사실에 기반하지 않은 정보를 생성하는 '환각' 현상을 보입니다. 이는 특히 중요한 도메인(예: 의료, 금융, 법률)에서 모델의 신뢰성을 저하시켜 오용 및 허위 정보의 위험을 증가시킵니다. 본 연구는 언어 모델이 생성하는 참고 문헌의 환각 문제를 집중적으로 조사합니다.연구 목표:언어 모델이 참조를 생성할 때 저자 및 내용과 같은 충분한 정보를 가지고 있어야 한다는 가정 하에 환각된 참조를 식별하는 방법을 제안합니다.언어 모델이 생성한 참조에 대해 직접적 또는 간접적인 질문을 통해 일관성 검사를 수행하여 환각된 참조를 식별합니다.주요 기여:환..
-
Rethinking STS and NLI in Large Language Models논문 리뷰 2024. 5. 27. 16:28
연구 배경 및 목적:최근 몇 년 동안, 대규모 언어 모델(LLM)의 등장으로 다양한 작업에서 효과적인 성능을 보였습니다. 그러나, 의미적 텍스트 유사성(STS) 및 자연어 추론(NLI)에 적용했을 때, 저자들은 LLM의 효율성이 저자원 도메인 정확도, 모델의 과신, 그리고 인간 판단 사이의 불일치를 포착하는 데 한계가 있음을 발견했습니다. 본 연구는 LLM 시대에서 STS 및 NLI 과제를 재고하고자 하며, 임상 및 생의학 도메인에서의 성능을 평가하고, LLM의 예측 신뢰도 및 집합적인 인간 의견을 포착하는 능력을 평가합니다.주요 발견:BERT 기반 모델 대비 성능:BERT-base로 미세 조정된 모델이 10개의 STS 및 NLI 데이터셋 중 9개에서 zero-shot ChatGPT보다 우수한 성능을 보..
-
Learning High-Quality and General-Purpose Phrase Representations카테고리 없음 2024. 5. 27. 16:12
Abstract구문 표현은 데이터 과학과 자연어 처리에서 중요한 역할을 하며, 엔터티 정렬(Entity Alignment), 레코드 연결(Record Linkage), 퍼지 조인(Fuzzy Joins), 그리고 패러프레이즈 분류(Paraphrase Classification)와 같은 다양한 작업에 유용합니다. 현재 최신 기법은 대조 학습을 사용하여 사전 학습된 언어 모델을 구문 임베딩에 맞게 미세 조정하는 것을 포함합니다. 그러나 우리는 몇 가지 개선점을 확인했습니다. 첫째, 이러한 사전 학습된 모델은 불필요하게 복잡하고 문맥 문장이 포함된 코퍼스에서 사전 학습이 필요합니다. 둘째, 구문의 유형과 형태론을 활용하면 더 정밀하고 유연한 구문 표현을 생성할 수 있습니다. 우리는 문맥이 필요 없는 방식으로 구..
-
What makes Chain-of-Thought Prompting Effective? A Counterfactual Study논문 리뷰 2024. 5. 27. 11:28
Abstract체인-오브-생각(Chain-of-Thought, COT) 프롬프트의 효과는 널리 인정받고 있지만, 그 성공의 근본적인 메커니즘, 즉 왜 다양한 작업에서 효과적인지에 대한 이유는 여전히 미해결된 질문으로 남아 있습니다. 이를 조사하기 위해, 우리는 반사실적 프롬프트 접근법을 사용하여 몇 개의 예시에 사용된 요소들을 체계적으로 조작하고, 모델 행동에 미치는 영향을 테스트했습니다. 이를 통해 심볼(숫자, 엔티티)과 패턴(방정식, 문장 구조)과 같은 프롬프트 요소들이 인-컨텍스트 학습에 기여하는 상대적인 영향을 이해할 수 있었습니다. 세 가지 다른 대규모 언어 모델(LLM)로 실험한 결과, 여러 주요 발견사항이 드러났습니다. 첫째, 프롬프트에 사용된 특정 심볼은 모델 성능에 크게 영향을 미치지 않..
-
-
Source-Aware Training Enables Knowledge Attribution in Language Models카테고리 없음 2024. 5. 23. 21:45
ChatGPT 요약더보기서론대형 언어 모델(LLM)은 사전 학습 중에 방대한 양의 지식을 습득하지만, 종종 해당 지식의 출처를 인식하지 못합니다. 본 논문에서는 LLM이 생성한 응답을 뒷받침하는 사전 학습 소스를 인용하는 '내재적 출처 인용' 문제를 조사합니다. 내재적 출처 인용은 LLM의 투명성, 해석 가능성 및 검증 가능성을 향상시킬 수 있습니다. 이러한 능력을 LLM에 부여하기 위해, 각 문서의 지식을 고유한 출처 문서 식별자와 연결하는 교육을 포함하는 '출처 인식 교육' 방법을 제안합니다. 이 방법은 기존의 사전 학습 및 미세 조정 프레임워크에서 크게 벗어나지 않으며, 실험을 통해 모델 품질에 큰 영향을 미치지 않으면서도 사전 학습 데이터에 대한 신뢰할 수 있는 인용이 가능함을 입증합니다. 관련 ..