ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • From Matching to Generation: A Survey on Generative Information Retrieval (1)
    논문 리뷰 2024. 5. 22. 17:01
    반응형


    Timeline of the Generative Retrieval methods



    Generative document retrieval

    • directly generate document identifiers (DocIDs) related to the documents
      • GENRE: Autoregressive entity retrieval
      • DSI: Transformer memory as a differentiable search index
      • NCI: A neural corpus indexer for document retrieval
      • Ultron: An ultimate retriever on corpus with a model-based indexer
      • GLEN

    .

    .

    .

     


    https://arxiv.org/pdf/2404.14851

     

     

    Training and Inference

    1) 훈련 데이터셋의 중복을 제거를 위하 연구

    • 접미사 배열 [228]과 MinHash [229] 기법을 결합하여 Lee 등 [65]은 동일한 출처에서 유래한 중복 콘텐츠를 식별하기 위한 근사 매칭 알고리즘을 설계하여 모델이 훈련 데이터에서 직접 재생산하는 답변의 비율을 줄였습니다.

    2) Training Methods Optimization

    3) Prompt engineering

    • CoT (Chain-of-Thought [232]) 프롬프트 방법
      • 모델이 디코딩 과정에서 명시적으로 질문을 추론 체인으로 분해하고, 추론 체인에 따라 단계별로 답을 도출하도록 안내
    • CoT-SC [233]는 여러 답변을 샘플링하여 가장 일관된 답변을 최종 답변으로 선택하여 이를 확장
    • Tree of Thoughts [234]는 CoT의 단일 추론 경로를 여러 경로로 확장하고, 이러한 경로의 추론 결과를 종합하여 최종 답변을 도출
    • CoVE (Chain-of-Verification [235]) 는 LLM의 프롬프트 내에서 자기 반성 메커니즘을 도입
      • LLM이 초안을 생성하고, 응답 내 각 진술에 대해 사실적 부정확성을 확인하는 검증 계획을 수립하게 하여, 오류가 발견되면 수정함으로써 응답의 사실 정확성을 효과적으로 높입니다.
    • RECITE [125]와 GenRead [124]는 모델이 특정 관련 지식 조각을 출력하도록 샘플링 방법을 사용하고, 이를 질문-응답 과정에 활용

     

    4) Decoding

    • 누클리어스 샘플링(Nucleus sampling) [236]
      • 토큰에 대한 확률 범위 내에서 샘플링하여 각 생성된 토큰의 다양성을 보장하고, 다양성과 신뢰성의 균형을 맞춘 결과를 도출
    • Factual-Nucleus Sampling) [237]
      • 후속 토큰에 대한 동적 임계값을 사용하여 생성된 문장의 후반부가 사실적 콘텐츠가 부족한 초기 부분에 의해 부정적인 영향을 받지 않도록
    • Wan 등 [238]은 빔 검색 접근 방식을 개선하기 위해 사실성 인식 디코딩 방법을 제안
      • 랭커를 통합하여 생성된 빔 시퀀스를 재정렬하고, 앞으로의 생성에서 사실성이 결여될 수 있는 토큰 선택을 피하는 전망적 방법을 사용하여 결과의 사실성을 향상시킴
    • 디코딩 방법을 직접 수정하는 것 외에도, 많은 연구가 숨겨진 층의 정보를 사용하거나 수정하여 모델의 디코딩 분포에 영향을 미쳤습니다.
      • DoLa [67]는 숨겨진 층과 출력 층 간의 분포 차이를 다음 토큰에 대한 분포로 사용하여, 기본 네트워크에 비해 출력 층에서 새로 학습한 사실 지식이나 주요 용어를 포착하여 이러한 용어를 생성할 가능성을 높입니다
      • 추론 시 개입(ITI) [239]은 응답의 정확성과 높은 상관성을 가진 주의 헤드를 식별하고, 그 방향을 조정한 다음, 이러한 주의 헤드의 활성화를 조절합니다. 이 방법은 모델에 최소한의 간섭으로 더 진실된 생성을 달성
      • Shi 등 [240]은 추가 정보 추가 전후의 출력 분포를 비교하는 CAD 방법을 제안하여 모델의 자체 지식에 가중치를 줄여 사실 부정확성을 초래할 수 있는 두 정보 간의 충돌을 피합니다.

    4.1.3 Knowledge Updating

    최신 지식을 지속적으로 습득해야함.

    (1) Incremental Learning

    증분 학습은 기계 학습 모델이 이전에 습득한 지식을 유지하면서 새로운 기술과 작업을 지속적으로 학습할 수 있는 능력을 의미 [241-244]. GenIR 시스템에서는 언어 모델이 최신 정보를 기억하면서 이전 지식을 잊지 않도록 하는 것이 중요.

     

    • Incremental Pre-training

     

    • Incremental Fine-tuning
      • Progressive Prompts [248]는 각 새로운 작업에 대해 새로운 소프트 프롬프트를 생성하고 발생 순서대로 이를 연결하여 지식을 효과적으로 전이하고 망각을 완화
      • DynaInst [126]는 파라미터 정규화와 경험 재생을 사용하여 사전 훈련된 언어 모델의 지속적 학습 성능을 향상시킴
      • Jang 등 [249]은 개별 작업에 대한 전문가 언어 모델을 미세 조정하여 전통적인 멀티태스크 프롬프트 미세 조정 방법에 도전
      • Suhr 등 [250]은 지침을 따르는 에이전트에 적용 가능한 피드백 기반 지속적 학습 접근 방식을 채택
        • 인간-에이전트 상호 작용에서, 사용자는 자연어를 사용하여 에이전트를 제어하고 피드백을 문맥적 밴딧을 통해 즉각적인 보상으로 변환하여 학습 과정을 최적화
      • O-LoRA [251]는 낮은 순위 하위 공간에서 새로운 작업을 학습하면서 이러한 하위 공간 간의 직교성을 유지하여 작업 간 간섭을 크게 줄임으로써 지속적 학습 분야에서 우수성을 입증
      • Peng 등 [252]는 다양한 작업 요구에 따라 파라미터를 동적으로 조정하여 새로운 작업 학습 동안 이전 작업 지식의 망각을 효과적으로 줄이는 확장 가능한 언어 모델을 제안

     

    (1) Knowledge Editing

    언어 모델 내 기존 지식을 수정하고 업데이트하는 과정. 

    모델의 가중치나 레이어를 편집하여 잘못된 사실을 수정하고 새로운 지식을 통합

    • 학습 가능한 파라미터 추가:
      • 이는 T-Patcher [254]와 CaliNET [66]과 같이 최종 FFN 레이어에 새로운 단일 뉴런(패치)을 통합하여 이루어.
      • 이러한 뉴런은 새로운 오류를 도입하고 모델의 행동을 조정하는 학습 가능한 파라미터로 작용합니다.
      • 또는, GRACE [255]에서와 같이 언어 모델의 중간 레이어에 이산 코드북 모듈을 도입하여 정보를 조정하고 수정할 수 있음.
    • 찾아서 편집:
      • 이 방법은 먼저 특정 지식에 해당하는 파라미터를 식별한 다음, 이러한 타겟 파라미터를 직접 업데이트
      • 일반적인 기술로는 FFN 매트릭스의 키-값 쌍, 이른바 '지식 뉴런'을 식별하고 이를 업데이트하는 것이 있습니다 [256].
      • ROME [70]과 같은 기술은 원인을 분석하여 편집이 필요한 영역을 찾아내며,
      • MEMIT [257]은 ROME을 기반으로 다양한 시나리오에서 동기화된 편집을 구현합니다.
      • 또한, PMET [258]과 같은 방법은 편집을 위해 주의 메커니즘을 사용하며,
      • BIRD [259]는 양방향 역 관계 모델링 접근 방식을 도입했습니다.
    • 메타 학습:
      • 또 다른 패러다임인 메타 학습은 하이퍼 네트워크를 사용하여 모델 편집에 필요한 업데이트를 생성
        • KE (Knowledge Editor) [127]는 하이퍼 네트워크를 사용하여 각 데이터 포인트에 대한 가중치 업데이트를 예측합니다.
        • MEND [128]는 저차원 분해의 그래디언트를 입력으로 받아 언어 모델을 신속하게 편집하여 성능을 향상시킵니다.
        • 또한, MALMEN [260]은 하이퍼 네트워크와 언어 모델의 계산을 분리하여 제한된 메모리 예산 내에서 여러 사실을 편집할 수 있도록 합니다. 이러한 메타 학습 메커니즘은 모델이 새로운 지식과 작업에 신속하게 적응하고 필요한 편집을 수행할 수 있도록 합니다.

    4.2.1 검색 증강

    (1) Sequential RAG

    검색기가 먼저 관련 정보를 검색하고 생성기가 이 정보를 사용하여 응답 생성 과정을 완료 
    "Retrieve-Read" 프레임워크 [129]

    • In-Context RALM [266]은 검색 문서를 직접 입력으로 사용하여 모델의 맥락 학습 능력을 활용하여 훈련 없이 문서를 이해
    • AAR 방법 [267]은 생성 모델의 정보 습득 선호에 맞추기 위해 일반 검색기를 미세 조정
    • LLM-embedder [268]는 검색 증강을 위해 임베딩 모델을 훈련하기 위해 LLM이 생성한 보상을 사용
    • ARL2 [130]는 LLM을 활용하여 훈련 세트에서 관련성 점수를 주석으로 달고 대조 학습을 통해 검색기를 훈련
    • 순차적 파이프라인에 사전 검색 및 사후 검색 프로세스를 도입하여 전체 효율성을 높였습니다 [263].
    • 사전 검색 프로세스에서는 RRR 모델 [129]이 검색기 전에 리라이터 모듈을 도입
    • 사후 검색 프로세스에서는 정보 압축기를 도입하여 문서에서 관련 없는 콘텐츠를 필터링하여 생성기의 응답을 오도하는 것을 방지합니다 [269–271].
    • RECOMP [272]는 검색된 문서에 대한 간결한 요약을 생성하기 위해 추상적 및 추출적 압축기를 도입했습니다.
    • LLMLingua [273]는 생성 모델이 제공한 당혹감을 기반으로 각 토큰의 중요성을 계산하고 중요한 토큰을 유지합니다.
    • 또한, LongLLMLingua [274]는 쿼리 인식 압축을 도입하고 계산된 중요성 점수를 기반으로 검색된 문서를 재정렬하여 중간 손실 현상을 완화합니다 [269].
    • PRCA [275]는 강화 학습을 통해 텍스트 압축기를 훈련하여 블랙박스 LLM 및 다양한 검색기에 적응 가능한 다목적 플러그인으로 작동합니다.

    (2) Branching RAG

    • 분기형 RAG 프레임워크에서는 입력 쿼리가 여러 파이프라인을 통해 처리되며, 각 파이프라인은 순차적 파이프라인의 전체 프로세스를 포함할 수 있습니다. 모든 파이프라인의 출력은 최종 응답을 형성하기 위해 병합됩니다. 순차적 RAG 프로세스와 비교하여, 이 접근 방식은 쿼리 또는 검색 결과를 더 세밀하게 처리할 수 있습니다.
    • 사전 검색 단계에서는 TOC [131]가 몇 샷 프롬프트를 적용하여 복잡하고 모호한 질문을 명확하고 명확한 하위 질문으로 재귀적으로 분해합니다. 이러한 하위 질문은 트리 구조로 구성되며, 각 질문 노드에 대해 관련 문서를 검색합니다. 모든 유효한 질문 노드를 사용하여 모든 하위 질문을 포괄하는 장문의 답변을 생성합니다.
    • BlendFilter [132]는 내부 및 외부 지식을 통해 원래 쿼리를 강화하기 위해 프롬프트를 활용합니다. 강화된 쿼리는 관련 문서를 검색하는 데 사용되며, 이러한 문서는 후속적으로 병합됩니다. 사용자로부터 복잡한 질문을 받을 때, 이 유형의 방법은 질문을 분해한 다음 답변하여 응답의 포괄성을 향상시킬 수 있습니다.
    • 사후 검색 단계에서는 REPLUG [133]이 각 검색된 문서를 쿼리와 함께 생성기에 입력하여 예측 확률 분포를 얻습니다. 이러한 개별 분포는 최종 예측 확률 분포를 도출하기 위해 결합됩니다.
    • GenRead [124]는 LLM이 자체적으로 관련 문서를 생성하도록 프롬프트하면서 검색기를 활용하여 문서를 검색합니다. 이러한 두 세트의 문서는 입력으로 병합됩니다. LLM이 관련 문서를 생성하도록 프롬프트를 설계하는 다양성은 콘텐츠의 더 넓은 범위를 커버할 수 있게 하여 사용자 쿼리 요구 사항을 더 효과적으로 충족시킬 가능성을 높입니다.

    (3) Conditional RAG

    • 조건부 RAG 프레임워크는 다양한 쿼리 유형에 적응하여 시스템의 유연성을 향상시킵니다. 검색된 문서의 지식과 생성기의 자체 지식 사이에 지식 충돌이 발생할 수 있기 때문에, RAG의 효과는 모든 시나리오에서 일관되지 않습니다. 이를 해결하기 위해, 일반적인 조건부 RAG 방법에는 특정 쿼리에 대해 검색 프로세스를 사용할지 여부를 결정하는 의사 결정 모듈이 포함됩니다.
    • SKR [134]은 LLM이 대답할 수 있는 질문과 대답할 수 없는 질문으로 구성된 데이터셋으로 훈련된 이진 분류 모델을 구축했습니다. 이 모델은 추론 단계에서 주어진 쿼리가 검색을 사용할지 여부를 결정하는 데 사용됩니다. 훈련 데이터의 라벨링은 모델을 직접 프롬프트하여 외부 지식이 필요한지 여부를 확인하여 수집됩니다.
    • Self-DC [72]는 모델 응답의 신뢰도 점수를 사용하여 검색의 필요성을 결정합니다. 신뢰도 점수에 따라 쿼리는 알려지지 않은, 불확실한, 알려진 세 그룹으로 분류됩니다. 알려지지 않은 쿼리는 순차적 RAG 파이프라인을 통해 처리되며, 불확실한 쿼리는 하위 질문으로 분해하여 답변을 생성합니다.
    • Rowen [135]은 원래 질문을 의미적으로 동등한 교란된 질문으로 변환하고 그 응답을 수집하는 다국어 감지 모듈을 도입했습니다. 그런 다음 이러한 응답 간의 일관성을 측정하여 검색 여부를 결정합니다.

    (4) Loop RAG

    • Loop RAG는 검색기와 생성기 구성 요소 간의 깊은 상호작용을 포함합니다. 다중 턴 검색 및 생성 과정을 통해 복잡하고 다양한 입력 쿼리를 처리하는 데 뛰어나며, 응답 생성에서 우수한 결과를 제공합니다.
    • ITER-RETGEN [136]은 반복적인 검색 및 생성 프레임워크를 도입합니다. 주어진 쿼리에 대해 초기에는 검색 증강 생성(retrieval-augmented generation)을 수행하여 관련 문서를 검색한 후 답변을 생성합니다. 그 후, 생성 증강 검색(generation-augmented retrieval)을 수행하여 이전 단계에서 생성된 콘텐츠를 기반으로 계속해서 검색을 수행하고 새로 검색된 문서를 사용하여 텍스트를 종합합니다. 이 두 단계를 번갈아 수행하는 과정을 고정된 횟수만큼 반복하여 최종 답변을 도출합니다.
    • IR-COT [137]은 ITER-RETGEN과 유사한 전체 절차를 가지지만, 그 반복 일시는 모델의 자체 생성 과정에 따라 결정됩니다.
    • FLARE [76]는 응답이 생성되는 동안 동시에 검색을 수행하는 전략을 도입합니다. 이는 전체 응답이 생성된 후에만 검색을 수행하는 것과는 대조적입니다. 각 새로운 문장이 생성될 때, 프레임워크는 해당 문장에 대한 LLM의 신뢰도 점수를 기반으로 검색 필요성을 평가합니다. 필요시, 해당 문장을 기반으로 쿼리를 작성하여 관련 정보를 검색하고, 그런 다음 문장을 재생성합니다. 이 방법은 LLM에 필요한 정보를 동적으로 보충하여 생성된 콘텐츠의 신뢰성을 높입니다.
    • COG [276]는 생성 과정을 외부 코퍼스에서 세그먼트를 지속적으로 검색하고 이를 복사하는 것으로 모델링합니다. 생성기의 주요 역할은 문장 유창성을 유지하기 위해 특정 접속어를 생성하는 것입니다.
    • Self-RAG [73]는 검색 여부, 검색된 문서의 중요성, 비판 수행 여부를 결정할 수 있도록 특별한 토큰을 어휘에 추가합니다.
    • 일부 연구는 복잡한 질문을 하위 질문으로 분해하여 개별적으로 처리하여 더 신뢰할 수 있는 응답을 생성하는 데 초점을 맞춥니다. [277]은 LLM이 복잡한 질문을 하위 질문으로 분해하고, 검색된 결과를 사용하여 각각에 대해 개별적으로 응답하며, 최종 응답을 형성하기 위해 모든 하위 질문의 답변을 종합하도록 유도합니다.
    • 이를 기반으로, RET-Robust [278]는 NLI 모델을 도입하여 검색된 문서가 하위 질문에 대한 답변을 입증할 수 있는지 평가하여 LLM이 관련 없는 정보에 의해 오도될 위험을 최소화합니다.

    4.2.2 Tool Augmentation

    검색 증강 기술은 생성 모델의 자기 지식의 맹점을 크게 개선했지만, 외부 코퍼스 내에 정보가 존재해야 하므로 정보의 빠르고 유연한 업데이트에 어려움을 겪습니다. 반면 도구 증강은 금융, 뉴스 등을 포함한 최신 데이터를 적시에 획득하고 사용할 수 있게 하여 이 문제를 해결하는 데 뛰어납니다. 또한, 도구 증강은 언어 번역, 이미지 생성 등 다양한 작업을 모델이 처리할 수 있게 하여 사용자의 정보 검색 요구를 더 포괄적으로 충족시킬 수 있습니다. 더 신뢰할 수 있는 정보 검색 시스템을 구축하기 위해 활용할 수 있는 도구는 네 가지 범주로 나눌 수 있습니다.

    (1) 검색 엔진

    • Self-Ask [277]는 복잡한 질문을 여러 하위 질문으로 분해한 다음 검색 엔진을 사용하여 각 하위 질문에 답변하고 최종적으로 복잡한 질문에 대한 종합적인 답변을 생성합니다.
    • ReAct [74]는 검색 엔진 호출을 모델의 추론 과정에 포함시켜 생성 모델이 언제 호출할지, 어떤 쿼리를 입력할지 결정할 수 있게 하여 더 유연한 추론을 가능하게 합니다.
    • New Bing은 사용자의 입력을 기반으로 Bing에서 관련 정보를 자동으로 검색하여 생성된 콘텐츠에 인용 주석을 포함한 신뢰할 수 있는 상세한 답변을 제공합니다.
    • Internet-Augmented Generation [279]은 대화 중에 검색 엔진을 사용하여 대화 응답의 품질을 향상시킵니다.
    • LaMDA [26]와 BlenderBot [280]은 대화형 에이전트와 검색 엔진을 결합하여 인터넷 정보를 지속적으로 액세스하여 대화의 사실성을 풍부하게 합니다.
    • WebGPT [51]와 WebCPM [28]은 모델이 검색, 클릭 및 인용과 같은 명령을 생성하여 인간과 유사한 브라우저 작업을 수행하도록 가르침으로써 정보의 자동 검색 및 획득을 촉진합니다.

    (2) 지식 그래프 (KG)

    검색 엔진과 비교하여 지식 그래프는 구조화된 명시적 지식을 추출하는 데 특히 유용합니다. 지식 그래프에서 관련 지식을 추출하여 생성 과정에서 프롬프트 입력으로 사용할 수 있습니다 [138].

    • StructGPT [75]는 지식 그래프에 액세스할 수 있는 잘 설계된 인터페이스를 통해 정보를 지속적으로 획득하고 추론하여 답변을 얻을 때까지 반복하는 읽기 및 추론 프레임워크를 도입했습니다.
    • RoG [139]는 지식 그래프를 기반으로 그럴듯한 추론 경로를 생성하고 각 경로를 병렬로 실행한 다음 결과를 통합하여 최종 답변을 도출합니다.
    • ToG [138]의 개념은 RoG와 유사하지만, 추론 경로를 사전에 계획하는 대신 모델이 잠재적 엔티티와 링크를 먼저 탐색한 다음 추론하여 추론 경로의 실현 가능성을 지속적으로 평가합니다.

    (3) API 기반 도구

    도구의 중요한 부분은 실제 API입니다. 이는 실시간 주식 정보, 영화 서비스, 코드 해석기 등 특정 데이터 소스에서 정보를 얻을 수 있게 합니다. 그러나 API의 다양성과 특정 운영 프로토콜 준수는 모델에 API 사용 방법을 가르치는 데 중요한 초점이 됩니다.

    • Toolformer [77]는 필요할 때 자동으로 API를 호출하는 언어 모델을 자체 지도 방식으로 훈련합니다. 먼저 텍스트 내에서 API 호출을 생성하는 프롬프트를 사용하여 시작하고, 그런 다음 이러한 호출을 실행하고 실행 결과를 기반으로 비효과적인 호출을 필터링하여 최종 데이터셋을 형성합니다. 이 데이터셋에서 표준 언어 모델링 목표를 사용하여 다양한 다운스트림 작업에서 API를 자동으로 호출할 수 있는 모델을 훈련할 수 있습니다.
    • RestGPT [281]는 RESTful API를 호출하도록 LLM을 프롬프트하는 포괄적인 프레임워크를 제안하여 온라인 플래너, API 선택기 및 실행기로 구성됩니다.
    • ToolLLM [140]은 스크랩된 API의 방대한 코퍼스를 활용하여 미세 조정을 위한 데이터셋을 구축합니다.
    • 또한, Gorilla [282]는 참조 API 문서를 모델에 제공하여 미세 조정 중 검색 기반 정보 활용 방법을 가르치는 정보 검색기를 도입합니다.
    • ToolkenGPT [283]는 각 도구를 어휘에 새로운 토큰으로 통합합니다. 훈련 과정에서 모델은 각 토큰의 표현을 학습하여 추론 단계에서 일반 텍스트를 생성하듯이 자연스럽게 API를 호출할 수 있게 합니다.
    • API 호출 학습을 넘어서, CREATOR [284]는 모델이 실제 문제를 기반으로 코드를 작성하도록 프롬프트하는 프레임워크를 제안합니다. 생성된 도구는 코드 해석기를 통해 작동하며, 복잡한 수학적 추론 작업에서 인상적인 결과를 보여주었습니다.
    • AssistGPT [141]는 Planner, Executor, Inspector 및 Learner와 같은 모듈을 포함한 포괄적인 프레임워크를 제공하여 언어와 코드를 모두 활용하여 더 복잡한 추론 과정을 가능하게 합니다.
    • ViperGPT [285]는 사용자 쿼리와 시각적 API 정보를 CodeX에 입력하여 API를 호출하는 데 필요한 Python 코드를 생성하여 복잡한 시각적 작업을 성공적으로 완료합니다.

    (4) 모델 기반 도구

    다양한 AI 커뮤니티(i.e., Huggingface, ModelScope, Github)의 빠른 확장과 함께 다양한 유형의 AI 모델을 쉽게 사용할 수 있게 되어 생성 검색 시스템을 강화하는 중요한 도구로 작용합니다. 이러한 AI 모델은 다양한 작업을 포함하며, 각각 포괄적인 모델 설명과 사용 예제를 제공합니다. 특정 작업에 대해 광범위한 훈련을 받은 이 모델들은 종종 해당 작업에서 뛰어난 성능을 발휘합니다.

    • HuggingGPT [142]는 ChatGPT를 컨트롤러로 사용하여 사용자 쿼리를 일련의 작업으로 분해하고, 그 후 각 작업을 수행할 모델을 결정합니다.
    • 유사하게, Visual ChatGPT [143]는 ChatGPT를 프롬프트 매니저로 활용하여 BLIP [286] 및 ControlNet [287]과 같은 다양한 시각적 기초 모델을 동원하여 대형 언어 모델(LLM)과 시각적 기초 모델을 통합합니다. 

    4.3 Generating Response with Citation

    신뢰할 수 있는 GenIR 시스템을 구축하기 위해, 인용을 포함한 응답을 생성하는 것은 유망한 접근 방식입니다 [16, 288, 289].

    4.3.1 Direct Generating Response with Citation

    이 방법은 검색 모듈에 의존하지 않고 모델의 내재된 기억을 사용하여 출처 인용을 생성

    (1) Model Intrinsic Knowledge

    • “According to . . . ”: Prompting Language Models Improves Quoting from Pre-Training Data
      • 프롬프트에 "Wikipedia에 따르면"과 같은 문구를 추가하여 LLM이 해당 지식 출처를 인용하도록 안내 -> 거짓 정보를 생성하는 것을 줄이는 데 도움
      • https://arxiv.org/pdf/2305.13252
    • Iterative Feedback Learning (IFL)
      • Towards reliable and fluent large language models: Incorporating feedback learning loops in qa systems
      • to improve the quality of citations
      • 먼저 생성된 텍스트를 평가하는 비평 모델을 사용한 후, 평가 결과를 기반으로 피드백을 제공하여 LLM이 성능을 점진적으로 개선하도록 유도
      • https://arxiv.org/pdf/2309.06384
    • plan-based approach
      • Learning to Plan and Generate Text with Citations
      • 생성 계획을 일련의 질문으로 정의하여 콘텐츠와 조직의 청사진으로 삼는 계획 기반 접근 방식을 제안
        • 질문을 처음부터 생성하는 추상 모델과 입력에서 직접 질문을 복사하는 추출 모델
      • https://arxiv.org/pdf/2404.03381

     

    (2) Incorporating Generative Retrieval

     

     

    Rethinking search: making domain experts out of dilettantes: ACM SIGIR Forum: Vol 55, No 1

    When experiencing an information need, users want to engage with a domain expert, but often turn to an information retrieval system, such as a search engine, instead. Classical information retrieval systems do not answer information needs directly, but ...

    dl.acm.org

    • Utilizing generative retrieval
      • 1-PAGER combines answer generation and evidence retrieval.
        • FM-Index [204] -> Opportunistic data structures with applications
          • FM-Index를 사용한 제한적 디코딩을 통해 N-그램 DocID를 점진적으로 생성하여 검색 코퍼스를 분할하고 문서를 선택하고 단계별로 응답을 생성
        • https://arxiv.org/pdf/2310.16568
      • source-aware training method (teach the model to associate DocIDs with knowledge during pre-training, then provide citations of supporting evidence during instruction tuning.)

    4.3.2 Retrieval-based Response with Citation

    retrieval techniques to fetch relevant documents, thereby improving the quality of responses with embedded citations.

     

    (1) Citation within Generation

    directly generate responses that include citations.

    These methods utilize web pages or Wikipedia to construct large-scale pre-training datasets

     

    - 웹 페이지나 Wikipedia를 활용하여 대규모 사전 훈련 데이터셋을 구축하고, 모델이 인용을 포함한 응답을 생성하는 방법을 가르침

    - 인용 생성을 위한 더 발전된 전략들이 제안

    • Search-in-the-Chain (SearChain) 
      • Search-in-the-chain: Towards the accurate, credible and traceable content generation for complex knowledge-intensive tasks
      • LLM에 프롬프트를 통해 추론 체인(Chain-of-Query, CoQ)을 생성하는 방법을 도입
      • 검색 모듈은 CoQ의 각 노드와 상호작용하여 검증 및 완료 작업을 수행
      • 상호작용 후, SearChain은 전체 추론 과정을 생성하고 추론의 각 단계에 대해 인용을 표시
      • https://arxiv.org/pdf/2304.14732
    • LLatrieval
      • Llatrieval: Llm-verified retrieval for verifiable generation
      • an iterative updating process , verifying whether the retrieved documents can adequately support the generated answers until the verification is satisfied.
      • https://arxiv.org/pdf/2311.07838
    • AGREE
      • Effective large language model adaptation for improved grounding
      • https://arxiv.org/pdf/2311.09533
      • utilizes a Natural Language Inference (NLI) model to verify the consistency between the LLMgenerated answers and the retrieved documents, employing a Test-Time Adaptation (TTA) strategy that allows LLMs to actively search and cite the most current information during the generation process, thus enhancing the accuracy and reliability of the responses
      • 자연어 추론(NLI) 모델을 사용하여 LLM이 생성한 답변과 검색된 문서 간의 일관성을 검증하고, Test-Time Adaptation (TTA) 전략을 사용하여 생성 과정에서 최신 정보를 적극적으로 검색하고 인용하도록 하여 응답의 정확성과 신뢰성을 높임
    • VTG
      • Towards verifiable text generation with evolving memory and self-reflection
      • 진화된 메모리 시스템과 이중 레이어 검증기를 통합하여 검증 가능한 텍스트를 생성하며, 장기 및 단기 메모리를 결합하여 동적으로 변화하는 콘텐츠에 적응하고, 주장과 잠재적 증거 간의 논리적 지원을 평가하기 위해 NLI 모델을 사용
      • https://arxiv.org/pdf/2312.09075graph of thoughts
    • Graph of thoughts (GoT)
    • HGOT
      • HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation
      • 계층적 GoT를 구축하여 검색 증강 환경에서 컨텍스트 학습을 개선
      • LLM의 계획 능력을 활용하여 복잡한 쿼리를 더 작은 하위 쿼리로 분해하고, 검색된 단락의 품질을 평가하기 위해 점수 매기기 메커니즘을 도입
      • https://arxiv.org/pdf/2402.09390
    • reinforcement learning
      • Training Language Models to Generate Text with Citations via Fine-grained Rewards
        • 언어 모델을 훈련하기 위해 세밀한 보상 메커니즘을 도입하여 각 생성된 문장과 인용에 대해 특정 보상을 할당하여 모델이 외부 정보 소스를 정확하게 인용하는 방법을 가르침 
          • 거부 샘플링 및 강화 학습 알고리즘
        • https://arxiv.org/pdf/2402.04315
      • APO
        • Improving Attributed Text Generation of Large Language Models via Preference Learning
        • 귀속 텍스트 생성을 선호 학습 문제로 재구상하여, 수동 주석 비용을 줄이기 위해 많은 수의 선호 데이터 쌍을 자동으로 생성
        • https://arxiv.org/pdf/2403.18381

     

     

    (2) Citation after Generation

    models first generating a response, then adding citations through models like NLI.

    이 접근 방식은 모델이 먼저 응답을 생성한 다음, NLI와 같은 모델을 통해 인용을 추가

    • RARR
      • Rarr: Researching and revising what language models say, using language models
      • This method combines a few training examples LLM, and retrieval to enhance its attribution capabilities without altering the existing model
      • 언어 모델의 출력을 위해 외부 증거를 자동으로 찾아 콘텐츠를 수정하는 동시에 원래 출력을 최대한 보존하여 귀속성을 향상
      • https://arxiv.org/pdf/2210.08726
    • PURR
      • Purr: Efficiently editing language model hallucinations by denoising language model corruptions
      • LLM이 자체적으로 텍스트 노이즈를 생성하도록 허용한 다음, 편집기가 이 노이즈를 제거하도록 훈련
      • https://arxiv.org/pdf/2305.14908
    • CEG
      • Citation-Enhanced Generation for LLM-based Chatbot
      • 생성된 콘텐츠와 관련된 문서를 검색하고, 각 진술이 인용으로 지원되는지 확인하기 위해 NLI 기반 인용 생성 모듈을 사용
      • https://arxiv.org/pdf/2402.16063
    • ”Attribute First, then Generate”
      • Attribute First, then Generate: Locally-attributable Grounded Text Generation
      • 생성 과정을 분해하여 먼저 관련 출처 텍스트 세부 정보를 선택한 다음 이러한 세부 정보를 기반으로 생성하여 텍스트 생성에서 국부적 귀속성을 달성
      • https://arxiv.org/pdf/2403.17104

     

     

    4.4 Personal Information Assistant

    4.4.1 Personalized Dialogue System

    (1) Personalized Prompt

     

    (2) Personalized Fine-tuning

    This line of work focuses on fine-tuning models for personalized response generation.

     

     

     

    다양한 선호를 가진 여러 정책 모델을 독립적으로 최적화한 후 추론 단계에서 이러한 모델의 파라미터를 동적으로 결합

    4.4.2 Domain-specific Personalization

    (1) Healthcare

    • Liu 등 [316]은 몇 샷 튜닝을 사용하여 시계열 생리 및 행동 데이터를 처리하고 추론
    • Zhang 등 [317]은 ChatGPT [3]와 GPT-4 [218]의 프롬프트를 사용하여 데이터베이스에서 특정 의료 진단을 식별하고, 향후 진단 지원을 구현했습니다.
    • Yang 등 [318]은 전통 중국 의학을 위한 LLM인 Zhongjing을 제안했으며, 이는 LLaMA [64]를 기반으로 계속적인 사전 훈련, 감독된 미세 조정, 인간 피드백을 통한 강화 학습(RLHF) [22] 과정을 거칩니다.
    • Abbasian 등 [319]은 특정 작업을 통해 필요한 정보를 수집하고 개인화된 응답을 생성하는 오픈 소스 LLM 기반 대화형 건강 에이전트 프레임워크인 openCHA를 도입했습니다.
    • MedAgents [320]는 LLM 기반 에이전트가 역할 놀이를 통해 다중 라운드 협력적 토론에 참여하여 모델의 전문성과 추론 능력을 향상시키는 다분야 협력(MC) 프레임워크를 제안했습니다.

    정신 건강 관리 분야에서는, Mental-LLM [84]은 소셜 미디어 텍스트 데이터를 기반으로 LLM을 사용하여 정신 건강을 예측하기 위한 새로운 프레임워크를 제시하며, 우울증 및 불안과 같은 심리적 문제를 실시간으로 모니터링하고 예측하기 위한 프롬프트 기반 및 미세 조정 기반 방법을 포함합니다. Lai 등 [321]은 사전 훈련된 LLM과 실제 심리학자 Q&A 및 대규모 심리학 기사 코퍼스를 결합한 심리 상담 보조 도구인 Psy-LLM을 소개합니다.

    약물 제안의 경우, Liu 등 [157]은 개인화된 환자 그룹을 생성하고 약물 계획을 세우며 환자 결과를 예측하는 프레임워크인 PharmacyGPT를 제안합니다.

    (2) Academic

    • RevGAN [85]은 사용자의 감정 경향과 스타일 정보를 기반으로 제어 가능한 개인화된 사용자 리뷰를 자동으로 생성할 수 있습니다.
    • 작문 보조 도구를 위해, Porsdam 등 [322]은 GPT-3 [62]와 같은 LLM을 사용하여 학술 작문의 개인화된 향상을 탐구하여, 세 명의 저자의 출판된 학술 작품으로 훈련된 후 형식, 스타일, 전반적인 품질 및 참신성이 더 높아지는 것을 보여줍니다.
    • 유사하게, 현재 LLM 출력의 저자 통신 스타일과 전문성의 개인화된 출력을 다루기 위해, Mysore 등 [158]은 사용자의 역사적 문서에서 선택된 데이터로 훈련된 개인화된 LLM 작문 보조 도구인 Pearl을 제안하여 개인화된 텍스트 생성을 최적화합니다. 이들은 또한 검색기가 개인화된 생성에 문서 기여도를 더 정확하게 추적할 수 있도록 돕는 새로운 KL 발산 훈련 목표를 개발

    (3) Education

    • Cui 등 [323]은 지식 추적과 제어된 텍스트 생성을 결합하여 학생의 학습 진행 상황에 맞춰 연습 문제 난이도를 동적으로 조정하는 새로운 적응형 개인화된 연습 문제 생성 방법을 제안
    • EduChat [159]은 교육 코퍼스에 대한 사전 훈련과 맞춤형 지침에 대한 미세 조정을 통해 기사 평가 및 정서 지원과 같은 교육 특정 기능을 학습하여 전통적으로 LLM이 교육 분야에서 직면하는 지식 업데이트 지연 및 교육 전문성 부족 문제를 해결합니다.

    (4) Other Domains 

    • TidyBot [326] proposes using LLMs to generalize from a small number of user-provided examples to infer broadly applicable user preference rules.
    • Tidybot: Personalized robot assistance with large language models
    • https://arxiv.org/pdf/2305.05658

     

     

    ChatGPT 논문 요약

    더보기

    논문 요약: "From Matching to Generation: A Survey on Generative Information Retrieval"

    저자:

    Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yuyao Zhang, Peitian Zhang, Yutao Zhu, Zhicheng Dou

    연구 배경 및 목표:

    • 정보 검색(IR) 시스템은 사용자가 정보를 접근하는 데 중요한 도구로, 검색 엔진, 질문 응답 시스템, 추천 시스템 등에서 널리 사용됩니다.
    • 전통적인 IR 방법은 문서의 유사성을 기반으로 순위 목록을 반환하는 방식으로 신뢰할 수 있는 정보 획득 수단이었지만, 최근에는 사전 훈련된 언어 모델의 발전으로 생성적 정보 검색(GenIR)이 새로운 패러다임으로 부상하고 있습니다.
    • 본 논문은 생성적 문서 검색(GR)과 신뢰할 수 있는 응답 생성에 대한 최신 연구 동향을 체계적으로 검토하는 것을 목표로 합니다.

    주요 내용:

    1. 전통적인 정보 검색(Traditional Information Retrieval):
      • Sparse Retrieval: 단어 수준의 일치를 기반으로 문서 목록을 반환하는 방식.
      • Dense Retrieval: BERT와 같은 사전 훈련된 언어 모델을 사용하여 문서와 쿼리의 벡터 표현을 생성하여 검색 정확성을 향상시킴.
    2. 생성적 정보 검색(Generative Information Retrieval):
      • 생성적 문서 검색(GR):
        • 문서 식별자를 직접 생성하여 관련 문서를 검색하는 방식.
        • 이 접근 방식은 대규모 문서 인덱스를 필요로 하지 않으며, 모델이 내부 파라미터를 통해 문서를 기억하게 합니다.
        • DocID를 생성하여 쿼리에 대한 관련 문서를 직접 생성합니다.
      • 신뢰할 수 있는 응답 생성:
        • 사용자 중심의 정확한 응답을 생성하여 사용자의 정보 요구를 직접 충족시키는 방식.
        • 내장된 지식을 활용하거나 외부 지식을 증강하여 응답의 신뢰성을 높임.
        • 인용을 포함한 응답을 생성하여 결과의 신뢰성과 투명성을 향상시킵니다.
    3. 모델 학습 및 구조:
      • 모델 학습: 쿼리와 관련된 DocID를 매핑하는 표준 시퀀스-투-시퀀스(seq2seq) 학습 방법을 사용합니다.
      • 모델 구조: T5, BART와 같은 사전 훈련된 인코더-디코더 구조의 생성 모델을 주로 사용합니다.
      • 문서 식별자 설계: 숫자 기반 식별자와 텍스트 기반 식별자로 나뉘며, 각각의 장단점과 사용 방법을 논의합니다.
    4. 평가 및 도전 과제:
      • 평가 지표: 다양한 평가 지표와 벤치마크를 사용하여 GenIR 방법의 성능을 평가합니다.
      • 현재 도전 과제: 정확성과 신뢰성, 실시간 성능, 편향성과 공정성, 프라이버시 및 보안 등의 문제를 다룹니다.
    5. 미래 연구 방향:
      • 확장성: 모델의 성능을 높이면서 리소스 소비와 응답 속도를 균형 있게 유지하는 연구가 필요합니다.
      • 통합 프레임워크: 다양한 IR 작업을 통합할 수 있는 엔드투엔드 프레임워크 개발의 중요성을 강조합니다.

    결론:

    • 이 논문은 GenIR의 기술, 평가, 도전 과제 및 전망을 체계적으로 정리한 첫 번째 포괄적인 조사입니다.
    • 연구자들이 GenIR 시스템을 개발하는 데 있어 최신 진행 상황을 깊이 이해하고, 정보 접근의 미래를 형성하는 데 중요한 역할을 할 것입니다.
     


    학습에 사용된 데이터

    논문에서는 특정 데이터셋을 명시적으로 언급하지 않았지만, 일반적으로 사용되는 데이터셋의 유형을 논의했습니다. GenIR 시스템을 개발하고 평가하는 데 사용되는 데이터셋은 주로 다음과 같습니다:

    1. 질문 응답 데이터셋:
      • MS MARCO
      • SQuAD
      • Natural Questions
    2. 문서 검색 데이터셋:
      • TREC (Text Retrieval Conference) 데이터셋
      • Wikipedia 기반 데이터셋

    사용된 모델

    논문에서는 다양한 사전 훈련된 언어 모델을 사용하여 생성적 정보 검색을 수행한다고 설명합니다. 주요 모델은 다음과 같습니다:

    1. T5 (Text-To-Text Transfer Transformer):
      • Google에서 개발한 모델로, 모든 NLP 작업을 텍스트 입력에서 텍스트 출력으로 변환합니다.
      • T5 모델은 다양한 NLP 작업에 대해 강력한 성능을 보입니다.
    2. BART (Bidirectional and Auto-Regressive Transformers):
      • Facebook AI에서 개발한 모델로, 텍스트 생성을 위해 인코더-디코더 구조를 사용합니다.
      • BART 모델은 특히 텍스트 요약, 문장 생성 등에서 우수한 성능을 보입니다.
    3. GPT (Generative Pre-trained Transformer):
      • OpenAI에서 개발한 모델로, GPT-3와 같은 모델은 대규모 텍스트 코퍼스에서 사전 훈련되어 강력한 생성 능력을 보입니다.

    학습 방법

    논문에서는 생성적 정보 검색(GenIR)을 학습하는 방법을 다음과 같이 설명합니다:

    1. 문서 식별자 생성 (DocID Generation):
      • GenIR 시스템은 문서 인덱스 없이 문서를 식별하기 위해 DocID를 생성합니다.
      • DocID 생성은 표준 시퀀스-투-시퀀스(seq2seq) 학습 방법을 사용합니다.
    2. 모델 학습 과정:
      • Pre-training: 대규모 텍스트 데이터셋에서 언어 모델을 사전 훈련합니다.
      • Fine-tuning: 특정 질문 응답 또는 문서 검색 작업에 대해 모델을 미세 조정합니다.
      • DocID Mapping: 쿼리와 관련된 DocID를 매핑하여 학습합니다.
    3. 학습된 모델 평가:
      • 평가 지표는 ROUGE, BERTScore, Recall 등 다양한 측면에서 모델의 성능을 평가합니다.

    의미 및 적용

    GenIR 방법론의 의미는 다음과 같습니다:

    1. 효율성:
      • 기존의 문서 인덱싱과 검색 방법을 대체하여 더 효율적인 검색 시스템을 제공합니다.
      • DocID를 직접 생성함으로써 대규모 인덱스 관리의 필요성을 줄입니다.
    2. 정확성 및 신뢰성:
      • 생성적 모델은 더 정확하고 신뢰할 수 있는 정보를 제공합니다.
      • 인용을 포함한 응답을 생성하여 결과의 신뢰성과 투명성을 높입니다.
    3. 미래 가능성:
      • GenIR은 향후 정보 검색 시스템의 새로운 패러다임을 제시합니다.
      • 다양한 응용 분야에서 강력한 성능을 발휘할 수 있습니다.

    결론

    논문에서는 GenIR의 기술, 평가, 도전 과제 및 전망을 체계적으로 정리하여, 연구자들이 GenIR 시스템을 개발하는 데 있어 최신 진행 상황을 깊이 이해하고, 정보 접근의 미래를 형성하는 데 중요한 역할을 할 수 있도록 도와줍니다.

     

    <새로운 데이터를 처리하는 방법>

    1. 인덱스 기반 시스템에서의 데이터 추가

    전통적인 인덱스 기반 정보 검색 시스템에서는 새로운 데이터를 추가할 때 인덱스를 갱신해야 합니다. 이는 새로운 문서를 인덱스에 추가하고, 쿼리 시 새로운 인덱스를 참조하도록 시스템을 업데이트하는 과정을 포함합니다.

    2. 생성적 정보 검색 시스템에서의 데이터 추가

    생성적 정보 검색 시스템에서는 DocID를 생성하고 이를 참조하는 방식으로 작동하므로, 새로운 데이터를 추가할 때 몇 가지 방법을 고려할 수 있습니다:

    1. 재학습 (Fine-tuning with New Data):
      • 새로운 데이터를 포함하여 모델을 다시 미세 조정(Fine-tuning)합니다.
      • 이 방법은 모델이 새로운 데이터를 효과적으로 학습하고, 기존 데이터와 통합하여 정확한 결과를 제공할 수 있게 합니다.
      • 주기적으로 또는 새로운 데이터가 일정량 이상 누적되었을 때 재학습을 수행할 수 있습니다.
    2. 증분 학습 (Incremental Learning):
      • 증분 학습은 기존 모델을 완전히 재학습하지 않고, 새로운 데이터에 대해 점진적으로 학습하는 방법입니다.
      • 이는 학습 시간과 리소스를 절약하면서도 새로운 데이터를 통합할 수 있는 방법입니다.
      • 증분 학습을 효과적으로 구현하려면 모델이 새로운 정보와 기존 정보를 균형 있게 학습하도록 조정해야 합니다.
    3. 메타 학습 (Meta-learning):
      • 메타 학습은 모델이 새로운 데이터에 빠르게 적응할 수 있도록 학습하는 방법입니다.
      • 이는 모델이 새로운 데이터에 대해 소량의 학습만으로도 높은 성능을 발휘할 수 있게 합니다.
      • 메타 학습을 통해 새로운 데이터에 대한 빠른 적응과 효율적인 통합이 가능합니다.
    4. 캐시 및 실시간 업데이트 (Caching and Real-time Updates):
      • 특정 쿼리의 결과를 캐시하여 자주 요청되는 정보에 대해 빠르게 응답할 수 있습니다.
      • 실시간으로 중요한 데이터를 추가하고, 실시간 인덱스 업데이트를 통해 최신 데이터를 반영할 수 있습니다.

     

     

    반응형
Designed by Tistory.