From Matching to Generation: A Survey on Generative Information Retrieval (2)

논문 리뷰 2024. 5. 23. 14:56

5. 평가

이 섹션에서는 생성적 정보 검색 방법(GR)을 평가하기 위한 다양한 평가 지표와 벤치마크를 제공하고, 이들의 성능에 대한 분석과 논의를 제공합니다.

5.1 생성적 문서 검색 평가

5.1.1 지표

이 섹션에서는 GR 방법을 평가하기 위한 핵심 지표들에 대해 논의합니다. 여기에는 Recall, R-Precision, Mean Reciprocal Rank (MRR), Mean Average Precision (MAP), 그리고 Normalized Discounted Cumulative Gain (nDCG)이 포함됩니다. 이러한 지표들은 GR 시스템의 정확성, 효율성, 결과의 관련성 등을 다양한 관점에서 평가합니다.

Recall: 검색 시스템이 검색한 관련 문서의 비율을 측정하는 지표입니다. 주어진 컷오프 포인트 k에 대한 Recall@k는 다음과 같이 정의됩니다:여기서 |Q|는 쿼리 집합의 수, ret_{q,k}는 q번째 쿼리에 대해 상위 k개의 결과 내에서 검색된 관련 문서의 수, rel_{q}는 q번째 쿼리에 대한 총 관련 문서 수를 나타냅니다.
Recall@k=1∣Q∣∑q=1∣Q∣retq,krelqRecall@k = \frac{1}{|Q|} \sum_{q=1}^{|Q|} \frac{ret_{q,k}}{rel_{q}}Recall@k=∣Q∣1q=1∑∣Q∣relqretq,k
R-Precision: 주어진 쿼리 q에 대한 관련 문서 수에 해당하는 랭크 위치 R에서의 정밀도를 측정합니다. 이는 다음과 같이 계산됩니다:여기서 ret_{q,R}은 상위 R 위치 내에서 검색된 관련 문서의 수이고, R은 rel_{q}와 같습니다.
R−Precision=retq,RrelqR-Precision = \frac{ret_{q,R}}{rel_{q}}R−Precision=relqretq,R
MRR: 검색 결과에서 첫 번째 관련 문서의 평균 랭크 위치를 반영합니다. 이는 다음과 같이 계산됩니다:여기서 rank_{q}는 q번째 쿼리에 대해 반환된 첫 번째 관련 문서의 랭크입니다.
MRR=1∣Q∣∑q=1∣Q∣1rankqMRR = \frac{1}{|Q|} \sum_{q=1}^{|Q|} \frac{1}{rank_{q}}MRR=∣Q∣1q=1∑∣Q∣rankq1
MAP: 여러 쿼리에 걸친 평균 정밀도를 계산합니다. 이는 모든 관련 문서의 정확한 위치를 고려하며, 다음과 같은 공식으로 계산됩니다:여기서 P@k는 컷오프 k에서의 정밀도이고, I(q, k)는 k 위치의 문서가 q 쿼리에 관련이 있는 경우 1, 그렇지 않은 경우 0인 지시 함수입니다.
MAP=1∣Q∣∑q=1∣Q∣1relq∑k=1nqP@k×I(q,k)MAP = \frac{1}{|Q|} \sum_{q=1}^{|Q|} \frac{1}{rel_{q}} \sum_{k=1}^{n_{q}} P@k \times I(q, k)MAP=∣Q∣1q=1∑∣Q∣relq1k=1∑nqP@k×I(q,k)
nDCG: 반환된 문서의 관련성뿐만 아니라 결과 목록 내의 위치도 고려하는 지표입니다. 이는 다음과 같이 정의됩니다:nDCG@k=DCG@kIDCG@knDCG@k = \frac{DCG@k}{IDCG@k}nDCG@k=IDCG@kDCG@k
여기서 rel_{i}는 i번째 문서의 등급 관련성을 나타내며, DCG@k는 할인 누적 이득, IDCG@k는 최대 가능한 DCG@k를 나타냅니다.
DCG@k=∑i=1k2reli−1log⁡2(i+1)DCG@k = \sum_{i=1}^{k} \frac{2^{rel_{i}} - 1}{\log_{2}(i + 1)}DCG@k=i=1∑klog2(i+1)2reli−1

5.1.2 벤치마크

GR 방법의 효과를 평가하려면 고품질의 도전적인 벤치마크 데이터셋이 필요합니다. 다음은 이 분야에서 널리 사용되는 몇 가지 벤치마크 데이터셋입니다:

MS MARCO: 웹 검색 시나리오에서 기계 읽기 이해, 검색 및 질문 응답 능력을 평가하기 위한 대규모 데이터셋입니다. 3.2백만 개의 문서와 8.8백만 개의 패시지를 포함합니다. Microsoft Bing의 검색 로그에서 추출된 실제 사용자 쿼리로 구성됩니다.
NQ (Natural Questions): Google에서 도입한 질문 응답 데이터셋으로, Wikipedia를 코퍼스로 사용합니다. 3.2백만 개의 문서를 포함하며, Google 검색 결과에서 추출된 자연스러운 사용자 쿼리와 해당 답변이 포함되어 있습니다.
TriviaQA: Wikipedia 및 웹 기반 QA 포럼 등 다양한 출처의 많은 사실 질문과 답변을 포함하는 QA 데이터셋입니다. 약 0.66M개의 증거 문서를 포함합니다.
KILT (Knowledge Intensive Language Tasks): 사실 확인, 엔티티 링크, 슬롯 채우기, 오픈 도메인 QA, 대화 등 5가지 지식 집약적인 작업 범주를 통합하는 종합 벤치마크 데이터셋입니다.
TREC Deep Learning Track 2019 & 2020: 정보 검색의 효율성을 향상시키기 위해 딥 러닝을 사용하는 것에 중점을 둔 평가 캠페인입니다. 주된 작업으로 문서 및 패시지 랭킹이 포함됩니다.

일부 GR 모델은 대규모 문서 코퍼스를 색인화하는 어려움 때문에, 10K에서 300K 범위의 문서 소집합에서 검색 성능을 평가하는 접근 방식을 채택하였습니다.

DynamicIR: 동적 코퍼스 내에서 IR 모델을 평가하기 위한 태스크 프레임워크를 제안합니다. 실험 분석을 통해 DynamicIR은 GR 시스템이 변화하는 지식에 적응하고, 시간에 민감한 데이터를 처리하며, 메모리, 색인화 시간 및 FLOPs 측면에서 밀집 검색 시스템보다 우수함을 보여주었습니다.
ExcluIR: 사용자가 쿼리에서 특정 정보를 원하지 않는다고 명시적으로 표시하는 배제 검색 작업을 위한 평가 벤치마크와 교육 세트를 제공합니다.

5.1.3 분석

GR 방법의 성능을 평가하기 위한 벤치마크와 지표 외에도, GR 모델의 동작을 연구하기 위한 자세한 분석과 논의를 수행한 연구들이 있습니다.

Generative Retrieval 이해: Chen et al.는 텍스트 검색에서 DSI의 성능을 이해하기 위해 독창성, 완전성 및 관련성 정렬을 조사합니다. 이는 시스템이 서로 다른 문서를 구별하고, 모든 관련 문서를 검색하며, 관련성에 따라 문서를 정확하게 랭킹하는 능력을 반영합니다.
생성적 검색과 밀집 검색의 연결 탐구: GR과 밀집 검색의 연결을 탐구하여, 생성적 검색이 밀집 검색에서 바이엔코더로 간주될 수 있음을 보여줍니다. 예를 들어, 생성적 검색 과정에서의 점곱 계산이 밀집 검색에서 쿼리 벡터와 문서 벡터 간의 점곱 계산과 유사하다는 것을 분석합니다.
대규모 실험 분석: Pradeep et al.은 MS MARCO와 같은 대규모 문서 세트를 대상으로 GR 기술에 대한 첫 번째 종합 실험 연구를 수행하였습니다. 모든 기술 중 생성된 의사 쿼리를 사용하여 훈련 데이터를 보강하는 방법이 대규모 문서 코퍼스에서 유일하게 효과적인 방법임을 발견했습니다.
Out-of-distribution 관점: Liu et al.는 GR 모델의 out-of-distribution(OOD) 강인성을 조사하여 쿼리 변형, 새로운 쿼리 유형 및 새로운 작업에 대해 연구했습니다. 모든 유형의 검색 모델이 쿼리 변형으로 인해 성능 저하를 겪는다는 것을 보여주었고, 새로운 쿼리 유형 및 작업을 처리할 때 GR 모델이 다양한 수준의 적응성을 나타냄을 발견했습니다.

이 연구는 실시간 정보 소스 처리에 필요한 GR 모델의 OOD 강인성의 중요성을 강조합니다.

5.2.1 평가 지표

생성된 응답의 품질을 평가하는 것은 정확성, 유창성, 관련성 등 여러 측면을 포함합니다. 이 섹션에서는 신뢰할 수 있는 응답 생성을 평가하기 위한 주요 지표들을 규칙 기반, 모델 기반, 인간 평가 지표로 나누어 소개합니다.

(1) 규칙 기반 지표

Exact Match (EM): 모델의 출력이 참조 답변과 단어 수준에서 완전히 동일해야 하는 엄격한 평가 방법입니다. 이는 NQ, TriviaQA, SQuAD와 같은 질문 응답 시스템에서 사용됩니다. EM은 완전히 일치하는 인스턴스의 비율을 전체 인스턴스 수로 나누어 계산합니다.
BLEU: 기계 번역 품질을 평가하기 위해 처음 사용된 일반적인 지표입니다. 모델의 출력과 참조 텍스트 세트 간의 n-그램 중첩을 계산하여 점수를 도출합니다. 높은 품질의 생성물은 레이블된 답변과 높은 어휘 중첩을 가져야 한다는 가정입니다.
METEOR: 단어의 정확한 일치뿐만 아니라 동의어와 어근 일치도 고려하는 정렬 기반 지표입니다. METEOR는 단어 순서와 문법 구조도 고려하여 생성된 텍스트의 유창성과 일관성을 평가합니다.
ROUGE: 더 긴 텍스트를 평가하는 데 사용되며, 생성된 텍스트와 참조 텍스트 간의 단어, 문장, n-그램 등의 중첩 정도를 측정합니다. ROUGE는 리콜을 중시하여 참조 텍스트의 정보가 생성된 텍스트에 얼마나 포함되었는지를 평가합니다.
Perplexity (PPL): 언어 모델의 성능을 평가하는 지표로, 평균 부정 로그 우도의 지수화를 통해 주어진 텍스트 시퀀스에 대한 모델의 예측 능력을 반영합니다. PPL 값이 낮을수록 모델의 예측 능력이 강함을 나타냅니다.

(2) 모델 기반 지표

BERTScore: BERT의 문맥적 임베딩을 활용하여 단어 간의 심층 의미적 유사성을 평가합니다. BERTScore는 그리디 매칭 전략을 사용하여 단어 수준의 매칭을 최적화하며, 중요 단어를 강조하기 위해 선택적 역문서빈도 가중치를 사용합니다.
BLEURT: 다양한 신텍틱 트레이닝 쌍을 사용하여 텍스트의 차이를 인식하는 모델의 능력을 강화한 지표입니다. BLEURT는 자동 평가 지표, 역번역 가능성, 텍스트 함의 등을 포함한 여러 사전 학습 작업을 설계하여 모델의 텍스트 생성 품질을 평가합니다.
BARTScore: BART 기반으로 생성된 텍스트 평가를 텍스트 생성 문제로 처리합니다. BARTScore는 생성된 텍스트와 참조 텍스트 간의 전환 확률을 기반으로 텍스트 품질을 평가합니다.
FActScore: 긴 텍스트의 각 독립 정보 포인트의 사실 정확성에 중점을 둡니다. 텍스트를 원자적 사실로 분해하고 이러한 사실이 신뢰할 수 있는 지식 소스에 의해 지원되는지를 확인하여 점수를 계산합니다.
GPTScore: 자연어 지시를 사용하여 텍스트를 평가할 수 있는 유연한 다면 평가 도구입니다. GPTScore는 과제 사양과 측면 정의를 통해 평가 프로토콜을 동적으로 구성하고, 제로샷 능력을 활용하여 텍스트 품질을 평가합니다.

(3) 인간 평가 지표

인간 평가는 복잡한 작업에서 언어 모델의 성능을 평가하는 중요한 방법입니다. 인간 평가는 실제 응용에서 더 정확하고 신뢰할 수 있는 평가를 제공합니다. 인간 평가는 전문가, 연구자 또는 일반 사용자가 모델 생성 콘텐츠를 직관과 지식에 기반하여 종합적으로 평가합니다.

정확성 (Accuracy): 정보의 정확성과 사실과의 일치성을 평가합니다.
관련성 (Relevance): 모델의 출력이 특정 맥락과 사용자 쿼리에 적합한지를 평가합니다.
유창성 (Fluency): 텍스트가 일관되고 자연스러우며 사용자가 이해하기 쉽게 작성되었는지를 평가합니다.
안전성 (Safety): 콘텐츠가 잠재적 부정적 결과나 해로움을 초래할 가능성이 있는지를 평가합니다.

5.2.2 벤치마크와 분석

이 섹션에서는 언어 모델이 신뢰할 수 있는 응답을 생성하는 성능을 평가하기 위한 다양한 벤치마크를 탐구합니다. 이러한 벤치마크는 언어 이해, 사실 정확성, 신뢰성 및 적시성 정보를 제공하는 능력을 평가합니다.

(1) 일반 평가

MMLU [179]: 광범위한 시나리오에서 언어 모델의 이해 능력을 종합적으로 평가하기 위해 사용됩니다. 57개의 서로 다른 과제를 다루며, 기초 수학부터 미국 역사, 컴퓨터 과학 및 법학까지 다양한 분야를 포함합니다. 인문학, 사회과학, 과학, 기술, 공학 및 수학(STEM) 분야에서 포괄적이고 도전적인 테스트를 제공하여 최근 몇 년간 대형 언어 모델(LLM)의 평가에 널리 사용되고 있습니다.
BIG-bench [180]: LLM의 능력과 한계를 측정하고 이해하기 위해 고안된 대규모 다각적 벤치마크입니다. 132개 기관의 450명의 저자가 기여한 204개의 작업을 포함하며, 언어학, 수학 및 상식 추론과 같은 영역을 다룹니다. 모델 성능 및 사회적 편향이 규모와 복잡성과 함께 어떻게 진화하는지를 탐구합니다.
LLM-Eval [181]: 개방형 도메인 대화의 LLM을 위한 통합 다차원 자동 평가 방법을 제공하여 수동 주석의 필요성을 없앱니다. 다양한 데이터 세트에서의 LLM-Eval 성능은 기존 평가 방법을 개선하면서 그 효과, 효율성 및 적응성을 입증합니다. 연구는 또한 평가 결과에 대한 다양한 LLM 및 디코딩 전략의 영향을 분석하여 적절한 LLM 및 디코딩 전략 선택의 중요성을 강조합니다.
C-Eval [341]: 중국어 컨텍스트에서 LLM의 고급 지식 및 추론 능력을 종합적으로 평가하기 위해 고안되었습니다. 4개의 난이도 수준과 중등 학교부터 전문 수준까지 52개의 다양한 학문 분야를 다루는 객관식 형식을 기반으로 합니다. C-Eval은 또한 모델의 고급 추론 능력을 테스트하기 위해 매우 도전적인 주제를 포함하는 C-Eval Hard를 도입합니다. 최첨단 영어 및 중국어 LLM을 평가하여 현재 모델이 복잡한 작업을 처리하는 데 여전히 부족한 부분을 밝혀내어 중국어 LLM 개발 및 최적화를 안내합니다.

(2) 도구 평가

API-Bank [182]: 언어 모델이 도구를 활용하는 능력을 평가하기 위한 종합 평가 프레임워크로, 73개의 API와 314개의 도구 사용 대화를 포함합니다. 1,000개의 도메인을 다루는 1,888개의 대화로 구성된 풍부한 교육 데이터 세트를 제공하여 LLM의 도구 사용 능력을 향상시킵니다. 실험 결과는 다양한 LLM이 도구 사용에서 다르게 수행되며, 이들의 강점과 개선 영역을 강조합니다.
ToolBench [140]: 16,000개 이상의 실제 API를 사용하여 LLM의 능력을 촉진하고 평가하기 위한 데이터 세트 및 평가 도구를 포함한 포괄적 프레임워크를 개발했습니다. 깊이 우선 검색을 기반으로 하는 의사 결정 트리를 도입하여 다양한 지침 및 API 사용 시나리오 경로를 자동으로 생성함으로써 추론 능력을 향상시킵니다. ToolBench는 LLM의 복잡한 지침 실행 및 미보유 API에 대한 일반화 능력을 크게 향상시킵니다. LLaMA [64]에서 미세 조정된 LLM인 ToolLLaMA는 주목할만한 제로샷 능력과 ChatGPT [3]와 같은 최첨단 LLM과 견줄만한 성능을 보입니다.

(3) 사실성 평가

TruthfulQA [183]: 언어 모델이 질문에 답하는 진실성을 측정합니다. 건강, 법률, 금융 및 정치 등 38개의 범주를 다루는 817개의 질문으로 구성되어 있습니다. 이 평가는 최적의 조건에서도 모델 응답의 진실성이 58%에 불과하며, 인간 성능(94%)과 큰 차이를 보인다는 점을 밝혔습니다. 또한 GPT-3 [62] 모델을 미세 조정하여 답변의 진실성을 분류하는 자동 평가 지표인 GPTjudge를 제안하여 인간 평가 예측에서 90-96%의 정확도를 달성했습니다.
HaluEval [184]: 대형 언어 모델의 환각을 평가하기 위한 벤치마크로, 자동 생성 및 수동 주석을 결합한 35K 환각 샘플로 구성된 데이터 세트를 사용합니다. 이를 통해 대형 언어 모델의 환각 식별 및 감소 능력을 평가하고 향상시키는 효과적인 도구 및 방법을 제공합니다. 중국 시나리오에서는 HalluQA [342]가 중국 문화와 역사를 반영하며, 여러 도메인을 다루는 450개의 정교하게 선택된 적대적 질문을 설계하여 중국 LLM의 환각 현상을 평가하고 모방된 허위 및 사실 오류라는 두 가지 주요 유형의 환각을 식별합니다.
ALCE [150]: 인용된 텍스트로 답변을 생성하는 LLM의 능력을 평가하기 위해, 관련 텍스트 단락을 검색하고 인용과 함께 답변을 생성하는 엔드 투 엔드 시스템을 구축합니다. ALCE는 서로 다른 유형의 질문을 다루는 세 가지 데이터 세트를 포함하며, 생성된 텍스트의 품질을 '유창성', '정확성', '인용 품질' 차원에서 평가하며, 인간 평가를 결합하여 평가 지표의 효과를 검증합니다. 실험 결과에 따르면 LLM은 유창한 텍스트 생성에는 뛰어나지만, 사실 정확성과 인용 품질 보장에는 상당한 개선 여지가 있으며, 특히 ELI5 데이터 세트에서는 최고의 모델이 절반의 시간 동안 인용 지원이 불완전한 것으로 나타났습니다.

(4) 실시간 평가

RealTime QA [185]: 정기적으로 질문을 발표하고 시스템을 매주 평가하여 최신 이벤트나 정보에 관한 질문과 답변을 제시하는 동적 질문-답변 플랫폼을 생성했습니다. 이는 전통적인 QA 데이터 세트의 정적 가정을 도전하며, 즉각적인 응용을 목표로 합니다. GPT-3 및 T5와 같은 LLM을 기반으로 한 실험에서는 모델이 새로 검색된 문서를 기반으로 생성된 결과를 효과적으로 업데이트할 수 있음을 발견했습니다. 그러나 검색된 문서가 충분한 정보를 제공하지 못할 때 모델은 오래된 답변을 반환하는 경향이 있었습니다.
FreshQA [59]: 시간에 민감하고 잘못된 전제 질문을 포함하는 도전 과제를 다루는 대형 언어 모델의 성능을 평가하기 위해 새로운 벤치마크를 생성했습니다. 이러한 성격의 질문을 포함하는 FreshQA에서 다양한 개방형 및 폐쇄형 LLM을 평가한 결과, 빠르게 변화하는 지식과 잘못된 전제를 다루는 데 상당한 제한이 있음을 밝혔습니다. 이러한 발견을 바탕으로 간단한 인컨텍스트 학습 방법인 FreshPrompt를 제안하여 검색 엔진에서 소싱한 관련 최신 정보를 프롬프트에 통합함으로써 FreshQA에서 LLM의 성능을 크게 향상시켰습니다.

(5) 안전성, 윤리 및 신뢰성

SafetyBench [186]: LLM의 안전성을 포괄적으로 평가하기 위해 다국어(중국어 및 영어)로 7개의 안전 범주에 걸친 11,435개의 객관식 질문을 통해 효율적이고 정확한 평가를 구현합니다. 질문 유형의 다양성과 광범위한 데이터 소스는 다양한 안전 관련 시나리오에서 LLM을 엄격하게 테스트합니다. 25개의 인기 있는 LLM의 성능을 비교한 결과, GPT-4의 큰 장점을 드러내고 현재 모델이 더 안전한 LLM의 빠른 개발을 촉진하기 위해 개선해야 할 영역을 지적했습니다.
TrustGPT [60]: 독성, 편향 및 가치 정렬 세 가지 주요 차원에서 LLM의 윤리적 성능을 평가하는 것을 목표로 합니다. 사회적 규범에 기반한 사전 정의된 프롬프트 템플릿을 사용하여 LLM이 콘텐츠를 생성하도록 안내하고, 이러한 콘텐츠의 독성, 편향 및 가치 일관성을 정량적으로 평가하는 여러 메트릭을 사용합니다. 실험 분석은 가장 진보된 LLM조차도 이러한 윤리적 고려 사항에서 여전히 상당한 문제와 잠재적 위험이 있음을 밝혔습니다.
TrustLLM [61]: 신뢰성, 안전성, 공정성, 견고성, 프라이버시 및 기계 윤리를 포함한 여섯 가지 차원에서 진실성, 안전성, 공정성, 견고성, 프라이버시 및 기계 윤리를 포함하는 원칙과 벤치마크를 탐구합니다. 16개의 주류 LLM의 30개의 데이터 세트에 대한 성능을 평가하는 광범위한 실험을 통해 신뢰성은 기능적 효율성과 일반적으로 양의 상관관계가 있음을 발견했습니다. 독점 모델이 일반적으로 신뢰성 면에서 오픈 소스 모델보다 뛰어나지만, Llama2와 같은 일부 오픈 소스 모델도 비교적 높은 성능을 보였습니다.

이러한 벤치마크는 언어 모델의 능력을 평가하고 개선하기 위한 중요한 도구와 지표를 제공하며, 보다 정확하고 신뢰할 수 있으며 안전하고 적시성 있는 정보 생성 시스템의 개발에 기여합니다. 평가 작업에 대한 자세한 이해를 위해 [58, 336, 343, 344]는 더 자세한 소개를 제공합니다.

6 과제와 전망

이 섹션에서는 생성형 문서 검색 및 신뢰할 수 있는 응답 생성 분야에서 직면한 주요 과제와 향후 연구의 잠재적 방향에 대해 논의합니다.

6.2 신뢰할 수 있는 응답 생성의 과제

6.2.1 정확성과 사실성 향상

GenIR 시스템에서는 콘텐츠의 정확성과 사실성을 보장하는 것이 중요합니다. 이를 위해, 섹션 4에서 언급된 두 가지 주요 개선 영역이 있습니다:

내부 지식 암기: 강력한 생성 모델을 훈련하는 것이 신뢰할 수 있는 GenIR 시스템을 구축하는 데 중요합니다. 다양한 상업적 LLM은 방대한 훈련 데이터와 계산 자원을 활용하여 계속 발전하고 있지만, 더 나은 모델 구조를 탐구하는 것도 가치가 있습니다. 최근의 연구는 Retentive Networks [347], Mamba [348] 등이 Transformer [199]의 성능과 효율성에 도전할 가능성을 보여주었습니다. 그러나 이러한 모델들이 정말로 Transformer 기반 LLM을 생성 품질에서 능가할 수 있는지 여부는 여전히 미지수입니다. 또한, 어떤 유형의 훈련 데이터와 방법이 일관되게 고품질의 신뢰할 수 있는 텍스트를 생성할 수 있는 모델을 생산할 수 있는지도 철저한 조사와 요약이 필요합니다. 언어 모델이 추론 중에 지식을 기억하는 메커니즘은 아직 명확하지 않으며, 사용자의 정보 요구를 더 잘 충족시키기 위해 완전히 이해되어야 합니다.
외부 지식 향상: 섹션 4.2.1에서 설명한 바와 같이, 검색 증강 생성은 LLM에 널리 적용되는 효과적인 방법입니다. 그러나 여전히 개선의 여지가 있습니다. 예를 들어, 검색된 문서를 프롬프트를 통해 생성 모델에 직접 삽입하는 것이 최선의 방법인지, 아니면 임베딩을 입력하는 것과 같은 더 나은 방법이 있는지 탐구할 필요가 있습니다 [349]. 또한, 모델이 자율적으로 검색을 수행할지 여부 [72, 350] 및 생성 과정 중 언제 검색을 수행할지 [76]에 대해서도 추가 탐구가 필요합니다.
도구 증강 생성: 섹션 4.2.2에서 논의된 바와 같이, 세분화된 세계 지식을 부여하고 복잡한 작업을 수행하기 위해 LLM에 도구를 사용하는 방법도 인기를 끌고 있습니다. 최근 연구에서는 "도구를 항상 사용해야 하는가?" [351]와 같은 질문을 제기합니다. 특히, 도구 사용이 가져오는 성능 향상이 모델 훈련 중에 발생하는 추가 계산 비용이나 테스트 중의 추론 비용을 정당화하는지 여부가 중요합니다. 기존 연구는 주로 작업의 정확성에 초점을 맞추고 있지만, 이러한 방법의 비용 효율성을 연구하는 것도 가치 있는 주제입니다.

6.2.2 GenIR 시스템의 실시간 특성

GenIR 시스템 및 전통적인 IR 시스템은 사용자에게 최신 정보를 제공하기 위해 시의적절함이 중요합니다. 그러나 사전 훈련된 생성 모델의 지식은 훈련 후 고정되므로 새로운 외부 지식을 획득하기 위해 검색 및 도구 증강과 같은 방법이 필요합니다. 실시간 지식 획득에 대한 연구는 제한적이며, 이는 가치 있는 연구 영역입니다.

또한, 언어 모델에서 구식 지식에 지속적으로 의존하는 것은 불충분합니다. 모델이 주어진 컨텍스트나 배경의 중요성을 이해할 수 없으므로 생성된 콘텐츠의 신뢰성이 감소합니다. 따라서 지속적 학습 [241, 352], 지식 편집 [243, 253, 353, 354] 등을 통해 언어 모델의 정보를 업데이트하면서 기존 지식을 잊지 않도록 하는 방법을 탐구하는 것이 가치 있는 연구 주제입니다.

6.2.3 편향성과 공정성

LLM은 종종 대규모의 필터링되지 않은 데이터셋에서 훈련되므로 GenIR 시스템은 데이터에 존재하는 인종, 문화 및 기타 측면에 대한 고정관념과 편향을 전파할 수 있습니다 [355]. 연구자들은 훈련 데이터 선택, 훈련 방법, 생성 기법, 재작성 단계에서 생성된 콘텐츠의 공정성을 향상시키기 위한 다양한 방법을 탐구해왔습니다. 그러나 편향은 여전히 존재하며, 생성 모델이 편향을 생성하는 메커니즘을 철저히 이해하고 이를 해결하기 위한 방법을 설계하여 실용적인 GenIR 시스템을 구축하는 것이 필요합니다.

6.2.4 개인정보 및 보안

GenIR 시스템이 생성하는 콘텐츠는 표절 위험이 있습니다 [356, 357]. 예를 들어, [358, 359]와 같은 연구는 사전 훈련된 언어 모델이 훈련 데이터의 큰 부분을 재현할 수 있음을 나타내어 비의도적인 표절을 일으키고 학문적 부정직이나 저작권 문제를 초래할 수 있습니다. 한편으로, AI 생성 콘텐츠의 저작권에 관한 법적 규정이 점차 등장하고 진화할 것입니다. 다른 한편으로는, 정확한 인용을 통해 텍스트를 생성하는 것과 같은 표절을 줄이기 위한 기술적 연구가 신뢰할 수 있는 GenIR를 위한 유망한 연구 방향으로 최근 몇 년간 증가하는 관심을 받고 있습니다 [16, 288, 360].

또한, 사전 훈련된 언어 모델의 기억 및 생성 메커니즘이 명확하지 않기 때문에, GenIR 시스템은 불가피하게 안전하지 않은 콘텐츠를 반환할 수 있습니다. 예를 들어, [358, 361]은 LLM이 공격을 받을 때 훈련 데이터에서 본 사용자의 개인 정보를 반환할 수 있음을 보여줍니다. 따라서 LLM이 훈련 데이터를 기억하는 메커니즘을 이해하고 보안을 향상시키기 위한 효과적인 방어 메커니즘을 설계하는 것이 GenIR 시스템의 광범위한 사용을 위해 중요합니다. 또한, LLM이 생성한 콘텐츠를 효과적으로 감지하는 방법을 개발하는 것도 GenIR 시스템의 보안을 향상시키는 데 필수적입니다 [362].

6.3 통합 프레임워크

이 문서에서는 생성형 문서 검색과 신뢰할 수 있는 응답 생성의 두 가지 주류 형태를 다룹니다. 그러나 각각의 접근 방식에는 장단점이 있습니다. 생성형 문서 검색은 여전히 문서 목록을 반환하는 반면, 신뢰할 수 있는 응답 생성 모델 자체는 문서 수준의 관계를 효과적으로 포착할 수 없습니다. 따라서 이 두 가지 접근 방식을 통합하는 것이 유망한 연구 방향입니다.

6.3.1 검색 및 생성을 위한 통합 프레임워크

생성형 검색과 다운스트림 생성 작업이 모두 생성형 언어 모델을 기반으로 할 수 있다는 점에서, 단일 모델이 검색 및 생성 작업을 모두 수행할 수 있을까요? 그렇습니다.

현재 UniGen [115]과 같은 시도는 공유 인코더와 각각 GR 및 QA 작업을 위한 두 개의 디코더를 사용하여 소규모 검색 및 QA 데이터셋에서 뛰어난 성능을 보여주었습니다. 그러나 이러한 시도는 여러 다운스트림 작업에서 일반화하는 데 어려움을 겪고 강력한 LLM과 통합되지 않습니다. 또한, CorpusLM [42]은 멀티태스크 훈련 접근 방식을 사용하여 GR, QA 및 RAG를 위한 범용 모델을 얻었습니다. 그러나 훈련 데이터를 단순히 병합하는 것만으로는 검색 및 생성 성능이 크게 향상되지 않으며, CorpusLM은 여전히 Wikipedia 코퍼스에 한정됩니다. 더 넓은 인터넷 코퍼스를 다루는 것은 큰 도전 과제입니다.

미래에는 LLM이 DocID와 신뢰할 수 있는 응답을 자율적으로 생성할 수 있는 큰 검색 모델(LSM)을 구축할 수 있을까요? LSM은 필요한 지식을 액세스하기 위해 DocID를 생성한 후에 생성을 계속할 시점을 결정할 수 있습니다. [363]에서 정의된 LSM과 달리, 우리는 첫 번째 단계의 검색(재랭킹, 스니펫 및 응답 모델과 같은 모델을 통합하는 것)을 통합하여 LSM이 검색의 의미와 다양한 다운스트림 생성 작업과의 연결을 완전히 이해할 수 있도록 하는 것을 목표로 합니다.

6.3.2 다양한 IR 작업을 위한 엔드투엔드 프레임워크로

Metzler 등 [16]에 의해 제안된 전문가 수준의 코퍼스 모델은 언어 능력뿐만 아니라 문서 수준의 DocID를 이해하고 자신의 지식 출처를 아는 모델을 제안합니다. 이러한 모델은 전통적인 언어 모델에서 흔히 발생하는 환각 문제를 해결할 뿐만 아니라 소스 문서를 가리키는 참고 문헌을 포함한 텍스트를 생성하여 신뢰할 수 있는 엔드투엔드 GenIR 모델을 달성할 수 있습니다. DocID와 지식 출처를 이해함으로써, 이 엔드투엔드 시스템은 DocID가 주어진 문서의 주요 내용을 반환하거나 관련 문서 DocID를 반환하는 것과 같은 추가 IR 작업을 수행할 수 있으며, 다국어 및 다중 모드 검색도 가능해집니다.

이 GenIR 설문 조사에서 논의된 현재 방법은 주로 생성형 문서 검색(GR)과 응답 생성을 별개의 엔터티로 다룹니다. GR 모델은 문서 수준의 문서 식별자를 이해하는 데 뛰어나며, 다운스트림 모델은 강력한 작업 생성 능력을 보여줍니다. 그러나 기존 방법은 이 두 가지 생성 능력을 효과적으로 통합하는 데 어려움을 겪어 GenIR 시스템의 전체 성능과 효율성을 제한합니다. 이러한 생성 능력을 원활하고 효율적으로 통합하는 것은 이 분야의 주요 과제입니다.

미래에는 지식과 DocID를 정렬하는 훈련 방법을 설계하고 참조를 포함한 답변을 생성하기 위한 고품질 훈련 데이터셋을 구축하여 이러한 엔드투엔드 GenIR 모델을 훈련할 수 있습니다. 이 목표를 달성하는 것은 도전적이며 연구자들이 다음 세대의 GenIR 시스템 구축에 기여하기 위해 협력할 필요가 있습니다.

'논문 리뷰' 카테고리의 다른 글

Attribute First, then Generate:Locally-attributable Grounded Text Generation (1)	2024.05.23
1-PAGER: One Pass Answer Generation and Evidence Retrieval (1)	2024.05.23
Challenges and Applications of Large Language Models (2)	2024.05.22
A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT (0)	2024.05.22
Large Language Models for Qualitative Research in Software Engineering: Exploring Opportunities and Challenges (4)	2024.05.22

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

just do it just do it

5. 평가

5.1 생성적 문서 검색 평가

5.1.1 지표

5.1.2 벤치마크

5.1.3 분석

5.2.1 평가 지표

(1) 규칙 기반 지표

(2) 모델 기반 지표

(3) 인간 평가 지표

5.2.2 벤치마크와 분석

6 과제와 전망

6.2 신뢰할 수 있는 응답 생성의 과제

6.2.1 정확성과 사실성 향상

6.2.2 GenIR 시스템의 실시간 특성

6.2.3 편향성과 공정성

6.2.4 개인정보 및 보안

6.3 통합 프레임워크

6.3.1 검색 및 생성을 위한 통합 프레임워크

6.3.2 다양한 IR 작업을 위한 엔드투엔드 프레임워크로

'논문 리뷰' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

인기포스트

ABOUT ME

5. 평가

5.1 생성적 문서 검색 평가

5.1.1 지표

5.1.2 벤치마크

5.1.3 분석

5.2.1 평가 지표

(1) 규칙 기반 지표

(2) 모델 기반 지표

(3) 인간 평가 지표

5.2.2 벤치마크와 분석

6 과제와 전망

6.2 신뢰할 수 있는 응답 생성의 과제

6.2.1 정확성과 사실성 향상

6.2.2 GenIR 시스템의 실시간 특성

6.2.3 편향성과 공정성

6.2.4 개인정보 및 보안

6.3 통합 프레임워크

6.3.1 검색 및 생성을 위한 통합 프레임워크

6.3.2 다양한 IR 작업을 위한 엔드투엔드 프레임워크로

'논문 리뷰' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역