Seminar
-
Natural Language ProcessingSeminar/IJCAI 2024 2024. 8. 13. 17:22
TaD: A Plug-and-Play Task-Aware Decoding Method to Better Adapt LLMs on Downstream Tasks 다운스트림 작업에 대해 사전 훈련된 모델을 미세 조정하는 것은 오늘날 LLM(대형 언어 모델)을 활용하기 위한 표준 관행이 되었습니다. 중요한 과제는 이러한 사전 훈련된 모델을 특정 다운스트림 작업에 더 잘 적용하여 성능을 향상시키는 방법을 결정하는 것입니다. 이 문서에서는 다운스트림 작업에서 LLM 성능을 향상시키는 것을 목표로 미세 조정 전후에 관찰된 출력 확률 분포의 차이를 활용하는 플러그 앤 플레이 방법인 작업 인식 디코딩(TaD)을 소개합니다.TaD는 사전 미세 조정 확률 분포와 사후 미세 조정 분포 사이의 차이가 일반 지식에서 작업별 지..
-
Knowledge Representation and ReasoningSeminar/IJCAI 2024 2024. 8. 13. 14:55
NELLIE: A Neuro-Symbolic Inference Engine for Grounded, Compositional, and Explainable Reasoning 우리의 목표는 체계적인 추론을 통해 질문에 답변하는 현대적인 접근 방식을 개발하는 것입니다. 이 방식은 자연어(NL)로 작성된 사실의 코퍼스에 기반한 인간이 해석 가능한 증명 트리(proof trees)를 통해 답변을 지원합니다. 이러한 시스템은 현대 언어 모델(LM)의 해석 가능성 문제와 환각 현상을 완화하고, 현재의 설명 방법(예: Chain-of-Thought)의 근거 부족 문제를 해결하는 데 도움이 될 것입니다. 이 논문은 수작업으로 작성된 규칙을 신경 언어 모델링, 유도 생성(guided generation), 준파라메트릭 ..
-
Data MiningSeminar/IJCAI 2024 2024. 8. 13. 14:46
LLM-based Multi-Level Knowledge Generation for Few-shot Knowledge Graph Completion 초록 (GPT-4o 번역) 지식 그래프(KG)는 다양한 자연어 처리(NLP) 응용 분야에서 중요한 역할을 하지만, 특히 긴 꼬리 문제로 인해 불완전성에 자주 직면합니다. 긴 꼬리 문제는 드문 관계나 인기가 없는 관계 때문에 지식 그래프 완성 성능이 크게 저하되는 현상을 말합니다. 본 논문에서는 이러한 긴 꼬리 시나리오에서의 간극을 해결하는 과제인 Few-shot Knowledge Graph Completion (FKGC)에 중점을 둡니다. 대형 언어 모델(LLM)의 급속한 발전 속에서, 우리는 LLM 디스틸레이션을 통해 생성 기반의 FKGC 패러다임을 제안합..
-
On the Effects of Fairness to Adversarial VulnerabilitySeminar/IJCAI 2024 2024. 8. 13. 14:00
초록 (GPT-4o 번역)공정성과 강건성은 학습 모델에서 중요한 두 가지 개념입니다. 공정성은 모델이 특정 그룹에 불균형적으로 해를 끼치거나 이익을 주지 않도록 보장하는 것이며, 강건성은 입력에 작은 변화가 생겨도 모델이 이를 견디는 능력을 측정합니다. 이 두 속성은 모두 중요한데, 이 논문에서는 공정성과 강건성 사이의 대립적인 관계를 설명하고, 공정성을 추구할 때 모델의 적대적 샘플에 대한 강건성이 감소할 수 있는 상황을 분석합니다. 논문에서 제시된 분석은 이러한 대립적인 행동을 유발하는 요인들을 밝혀내고, 그룹 간 결정 경계까지의 거리가 중요한 요인임을 시사합니다. 비선형 모델과 다양한 아키텍처에서의 실험을 통해 이론적 결과를 검증합니다. 이론적 분석 외에도, 이 논문에서는 공정성과 강건성 사이에서 ..
-
SwiftThief: Enhancing Query Efficiency of Model Stealing by Contrastive LearningSeminar/IJCAI 2024 2024. 8. 13. 13:58
초록 AI 기반 서비스에 대한 위협은 공격자가 정규 쿼리 기반 접근을 통해 서비스 내부의 블랙박스 AI 모델의 기능을 복제할 수 있기 때문입니다. 탐지나 쿼리 비용을 피하기 위해, 모델 탈취 공격자는 정확한 클론 모델을 얻기 위해 쿼리의 수를 최소화해야 합니다. 이를 달성하기 위해 우리는 쿼리된 데이터와 쿼리되지 않은 데이터를 모두 활용하여 쿼리 복잡성을 줄이는 새로운 모델 탈취 프레임워크인 SwiftThief를 제안합니다. 특히, SwiftThief는 표현 학습을 위한 최신 기술인 대조 학습(Contrastive Learning)을 사용합니다. 우리는 모델 탈취를 위한 새로운 목적 함수를 공식화하였으며, 이는 공공 데이터셋에서의 풍부한 쿼리되지 않은 입력에 대한 자가 지도 학습(self-supervis..