-
Natural Language ProcessingSeminar/IJCAI 2024 2024. 8. 13. 17:22반응형
TaD: A Plug-and-Play Task-Aware Decoding Method to Better Adapt LLMs on Downstream Tasks
다운스트림 작업에 대해 사전 훈련된 모델을 미세 조정하는 것은 오늘날 LLM(대형 언어 모델)을 활용하기 위한 표준 관행이 되었습니다. 중요한 과제는 이러한 사전 훈련된 모델을 특정 다운스트림 작업에 더 잘 적용하여 성능을 향상시키는 방법을 결정하는 것입니다. 이 문서에서는 다운스트림 작업에서 LLM 성능을 향상시키는 것을 목표로 미세 조정 전후에 관찰된 출력 확률 분포의 차이를 활용하는 플러그 앤 플레이 방법인 작업 인식 디코딩(TaD)을 소개합니다.
TaD는 사전 미세 조정 확률 분포와 사후 미세 조정 분포 사이의 차이가 일반 지식에서 작업별 지식으로의 전환을 반영한다고 가정합니다. 최종 출력 확률 분포를 이 방향으로 정렬함으로써 TaD는 잠재적으로 원래의 미세 조정 모델에 비해 우수한 다운스트림 작업 성능을 가능하게 합니다. 4가지 작업 범주에 걸쳐 다양한 데이터 세트에 대해 수행된 실험은 다양한 미세 조정 방법을 사용하여 GPT, BLOOM 및 LLaMA를 포함한 여러 LLM에서 TaD의 효율성을 보여줍니다. 또한 추가 실험에서는 TaD가 특히 데이터가 부족한 시나리오에서 모델 성능을 향상시키는 것으로 나타났습니다.Empirical Analysis of Dialogue Relation Extraction with Large Language Models
대화 관계 추출(DRE)은 대화 내의 두 인수 사이의 관계를 식별하는 작업을 포함하며, 대명사의 빈도가 높고 대화에서 일반적으로 발견되는 정보 밀도가 낮기 때문에 표준 관계 추출보다 더 어려운 작업입니다. 그러나 현재 DRE 방법은 (1) 길고 희박한 다중 회전 정보를 캡처하는 데 어려움이 있고 (2) 부분 대화에서 정확한 관계를 추출하는 데 제한적인 성공이라는 두 가지 중요한 문제로 어려움을 겪고 있습니다. 이러한 과제는 이러한 문제를 해결하기 위한 보다 효과적인 방법의 필요성을 강조합니다.
최근 LLM(대형 언어 모델)에 대한 관심이 급증하면서 우리는 기존 DRE 접근 방식의 한계를 극복할 수 있는 잠재력을 탐구하게 되었습니다. 우리의 조사에 따르면 LLM은 앞서 언급한 두 가지 과제를 크게 완화합니다. 주요 결과는 다음과 같습니다. (1) 모델 크기를 늘리면 특히 길고 희박한 다중 전환 대화를 관리할 때 전반적인 DRE 성능이 크게 향상됩니다. (2) LLM은 기존 방법에 비해 전체 대화에서 부분 대화로 전환할 때 성능 저하가 훨씬 적습니다. (3) LLM은 현재 최첨단 방법에 비해 전체 샷 및 소수 샷 설정 모두에서 경쟁력이 있거나 우수한 결과를 얻습니다. (4) LLM은 역관계를 처리하는 데 약간의 개선을 보인 반면, 일반적인 관계를 추출하고 다양한 길이의 대화, 특히 긴 시퀀스를 효과적으로 처리하는 데에는 상당한 개선이 있음을 보여줍니다.Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction
시각적 단서의 통합은 목표 음성 추출 작업의 성능을 크게 향상시켜 이 분야의 선두주자로 부상시켰습니다. 그럼에도 불구하고, 이러한 멀티모달 학습 패러다임은 종종 모달리티 불균형 문제에 직면합니다. 오디오-비주얼 목표 음성 추출 작업에서 오디오 모달리티는 시각적 지침의 중요성을 잠재적으로 압도할 수 있습니다. 이 문제를 해결하기 위해 우리는 음성 체인 개념에서 영감을 받아 AVSepChain을 제안합니다. 우리의 접근 방식은 오디오-비주얼 목표 음성 추출 작업을 음성 인식 단계와 음성 생성 단계의 두 단계로 나눕니다. 음성 인식 단계에서는 오디오가 주요 모달리티 역할을 하고, 시각적 정보가 조건부 모달리티로 작용합니다. 반대로, 음성 생성 단계에서는 역할이 반대가 됩니다. 이러한 모달리티 상태의 변환은 모달리티 불균형 문제를 완화하는 것을 목표로 합니다. 또한, 우리는 음성 생성 단계에서 생성된 음성이 입술 움직임에 의해 전달되는 의미 정보와 일치하도록 보장하기 위해 대조적 의미 매칭 손실을 도입합니다. 여러 벤치마크 데이터셋을 사용한 광범위한 실험을 통해 제안된 방법이 달성한 우수한 성능을 입증합니다.
Generating More Audios for End-to-End Spoken Language Understanding
엔드투엔드 음성 언어 이해(SLU)는 전사(transcript)를 생성하지 않고 주어진 음성 발화에서 종합적인 의미를 직접 포착하는 것을 목표로 합니다. 전사가 항상 이용 가능하지 않기 때문에, 텍스트리스(Textless) SLU는 점점 더 많은 주목을 받고 있으며, 이는 전사를 필요로 하지 않지만 일반적으로 전사를 사용하여 훈련된 SLU 모델보다 성능이 떨어집니다. 본 논문에서는 전사가 제공되지 않는 시나리오에 초점을 맞추어, 레이블에 따라 더 많은 오디오를 생성하는 GMA-SLU를 제안합니다. 텍스트와 오디오 간의 모달리티 차이를 해결하기 위해 두 개의 서로 다른 언어 모델을 구축하고, 이산 토큰을 다리로 활용합니다. 첫 번째 언어 모델은 레이블을 활용하여 의미 토큰을 생성하고, 두 번째 언어 모델은 이러한 의미 토큰과 소스 오디오의 음향 토큰을 사용하여 합성 오디오를 얻습니다. 모든 실험은 단일 언어 SLU 데이터셋 SLURP와 다국어 SLU 데이터셋 MINDS-14에서 수행되었습니다. 실험 결과, 우리의 방법은 이전의 최고 텍스트리스 엔드투엔드 SLU 모델들을 능가하며, 해당 전사의 도움을 받아 훈련된 모델들과도 비교 가능한 성능을 달성할 수 있음을 보여줍니다.
LLMem: Estimating GPU Memory Usage for Fine-Tuning Pre-Trained LLMs
제한된 하드웨어로 사전 학습된 대형 언어 모델(LLMs)을 미세 조정하는 것은 GPU 메모리 제약으로 인해 도전 과제가 됩니다. 이러한 GPU 메모리 제약을 완화하기 위해 다양한 분산 미세 조정 방법이 제안되었습니다. 그러나 주어진 환경에서 GPU 메모리 초과 문제를 방지하면서 신속한 미세 조정을 달성하기 위한 최적의 방법을 결정하는 것은 여전히 명확하지 않습니다. 이 문제를 해결하기 위해, 우리는 여러 GPU에 걸쳐 분산 미세 조정 방법을 적용할 때 GPU 메모리 소비를 추정하고 최적의 방법을 식별하는 솔루션인 LLMem을 소개합니다. LLMem은 미세 조정에 앞서 트랜스포머 기반 디코더 모델의 기본 구조와 각 방법의 메모리 사용 분포를 활용하여 GPU 메모리 사용량을 추정합니다. 실험 결과, LLMem은 단일 GPU에서 피크 GPU 메모리 사용량을 최대 1.6%의 오차율로 정확하게 추정하며, 수십억 개 이상의 파라미터를 가진 LLM을 다중 GPU 환경에서 분산 미세 조정 방법으로 적용할 때 평균 3.0%의 오차율을 보여줍니다.
Large Language Models Are Not Strong Abstract Reasoners
대형 언어 모델(LLMs)은 텍스트 이해부터 상식 추론에 이르기까지 다양한 자연어 처리 작업에서 뛰어난 성능을 보여주었습니다. 그러나 이러한 성공의 메커니즘은 여전히 불투명하며, LLM이 인간과 같은 인지 능력을 달성할 수 있는지, 아니면 여전히 근본적으로 제한된 것인지 불확실합니다. 추상적 추론은 몇 가지 데이터로부터 일반적인 패턴을 찾고 적용하는 인지의 기본 과제로, 이 작업에서 심층 신경망 구조를 평가하는 것은 추론과 광범위한 일반화 능력에 대한 모델의 잠재적 한계를 파악하는 데 중요한 통찰을 제공할 수 있습니다. 그러나 현재 이 분야는 충분히 탐구되지 않았습니다. 본 논문에서는 언어 모델이 단순한 암기를 넘어 추상적 추론 작업에서 성능을 평가할 수 있는 새로운 벤치마크를 소개합니다. 최신 LLM들에 대한 광범위한 평가를 수행한 결과, 다른 자연어 처리 작업과 달리 현재 추상적 추론 작업에서는 매우 제한된 성능을 보이는 것으로 나타났으며, 이는 다른 NLP 작업에서 성능을 개선하는 것으로 알려진 기술을 적용했을 때도 마찬가지였습니다. 우리는 LLM의 생성을 인과적 경로를 따르도록 유도하는 것이 LLM의 일반화 및 추론 능력을 향상시키는 데 도움이 될 수 있다고 주장합니다.
Span-based Unified Named Entity Recognition Framework via Contrastive Learning
전통적인 개체명 인식(NER) 모델은 일반적으로 도메인 특화 데이터셋을 대상으로 설계되며, 고정된 사전 정의된 유형에 한정되어 새로운 도메인으로 일반화하기 어렵습니다. 최근에는 프롬프트 기반 생성 방법이 다양한 데이터셋을 함께 학습하고 프롬프트 지시를 통해 지정된 개체를 추출함으로써 이러한 제약을 완화하려고 시도하고 있습니다. 그러나 자동회귀 구조로 인해 이러한 방법들은 개체 범위를 직접적으로 모델링할 수 없으며, 느린 순차적 디코딩 문제를 겪고 있습니다. 이러한 문제를 해결하기 위해 우리는 대조 학습을 통한 스팬 기반 통합 NER 프레임워크(SUNER)를 제안하며, 이는 공유된 의미 공간에서 텍스트 스팬과 개체 유형 표현을 정렬하여 병렬로 개체를 추출합니다. 구체적으로, 우리는 먼저 개체 유형을 고려하지 않고 언급 스팬을 추출하여 데이터셋 전반에 걸쳐 일반화 능력을 높입니다. 그런 다음, 대조 학습의 강력한 성능과 잘 설계된 개체 마커 구조를 활용하여 후보 스팬과 해당 텍스트 유형 설명을 동일한 벡터 표현 공간으로 매핑하여 도메인 간 개체를 구별합니다. 감독 학습 및 제로/소수 샷 설정에서 수행된 광범위한 실험을 통해 제안된 SUNER 모델이 이전의 최첨단 통합 NER 모델들보다 더 나은 성능과 높은 효율성을 달성함을 입증합니다.
Memorizing Documents with Guidance in Large Language Models
훈련 데이터는 AI 모델에서 중요한 역할을 합니다. 대형 언어 모델(LLMs)은 방대한 양의 문서를 사용해 훈련되며, 그 파라미터는 문서와 관련된 내용을 포함합니다. 최근 여러 연구에서는 파라미터를 조사하여 LLM에서 특정 콘텐츠와 관련된 위치를 식별했습니다. 후속 해석(post hoc interpretation) 대신, 우리는 다른 접근 방식을 제안합니다. 우리는 훈련 중에 문서 메모리를 추적하기 위한 문서 단위 메모리 아키텍처를 제안합니다. 제안된 아키텍처는 문서 표현을 메모리 항목에 매핑하여, LLM의 순방향 과정에서 메모리를 부드럽게 마스킹합니다. 또한, 문서 메모리와 함께 텍스트의 가능성을 높이고 다른 문서의 메모리와 관련된 텍스트의 가능성을 줄이는 문서 지침 손실(document guidance loss)을 제안합니다. Pythia-1B로 Wikitext-103-v1 데이터셋에서 수행된 실험 결과, 제안된 방법이 문서에 대해 서로 다른 메모리 항목을 제공하고, 훈련된 문서 단위 메모리를 사용한 생성에서 문서 관련 콘텐츠의 높은 리콜을 보여주었습니다.
Meta In-Context Learning Makes Large Language Models Better Zero and Few-Shot Relation Extractors
관계 추출(RE)은 텍스트 내에서 엔티티 간의 관계를 식별하는 중요한 작업입니다. 대형 언어 모델(LLMs)은 일반적인 제로 및 소수 샷 학습에서 뛰어난 인컨텍스트 학습(ICL) 능력을 보여주었지만, 최근 연구들은 현재의 LLM들이 제로 및 소수 샷 RE에서 여전히 어려움을 겪고 있음을 나타내고 있습니다. 이전 연구들은 주로 ICL 기반 RE를 개선하기 위해 프롬프트 형식을 설계하고 좋은 예제를 선택하는 데 집중해왔습니다. 이러한 두 요소가 ICL에 필수적이긴 하지만, 만약 LLM의 ICL 능력을 근본적으로 향상시킬 수 있다면, ICL을 통한 제로 및 소수 샷 RE 성능이 크게 개선될 수 있을 것입니다. 이를 위해, 우리는 제로 및 소수 샷 RE를 위한 새로운 메타 학습 프레임워크인 MICRE(Meta In-Context learning of LLMs for Relation Extraction)를 도입합니다. MICRE는 다양한 RE 데이터셋에서 ICL을 수행하도록 LLM을 튜닝하여, RE를 위한 인컨텍스트 학습 능력을 배양합니다. 메타 학습을 통해 모델은 추론 시 파라미터 업데이트나 작업별 템플릿 없이 몇 가지 훈련 예제에 기초하여 새로운 RE 작업을 더 효과적으로 학습할 수 있게 되어, 제로 및 소수 샷 작업 일반화 능력을 향상시킵니다. 우리는 다양한 LLM 스케일과 12개의 공개 RE 데이터셋에서 MICRE를 실험하고, 제로 및 소수 샷 설정에서 보지 않은 RE 벤치마크로 평가합니다. MICRE는 감독된 미세 조정 및 일반적인 인컨텍스트 학습 방법을 포함한 다양한 기준과 비교하여 동등하거나 우수한 성능을 제공합니다. 특히 더 큰 모델 스케일에서 성능 향상이 두드러지며, 다양한 메타 학습 RE 데이터셋의 사용이 성능 향상의 핵심임을 발견했습니다. 실험적으로, MICRE가 목표 RE 데이터셋에서 추론 시 관계 레이블 이름을 통해 관계 의미 지식을 전이할 수 있음을 보여줍니다.
Unified Evidence Enhancement Inference Framework for Fake News Detection
현재의 가짜 뉴스 탐지 접근법은 주로 댓글(또는 외부 기사)에서 후보 증거를 추출하고, 뉴스 자체와의 상호작용을 통해 뉴스의 거짓 여부를 검증하는 데 집중하고 있습니다. 그러나 이러한 접근법에는 몇 가지 단점이 있습니다: 1) 상호작용 대상이 거칠게 설정되어 있어, 뉴스 전체가 상호작용에 참여하도록 하며, 뉴스 내 잠재적인 의심스러운 부분의 학습을 무시합니다. 2) 추론 방식이 상대적으로 단일하여 뉴스와 후보 증거 사이의 다양한 가능한 상관관계를 탐색하기 어렵습니다. 이를 해결하기 위해, 우리는 고품질의 증거를 발견하고 추론하기 위한 통합 증거 강화 추론 프레임워크(UEEI)를 제안합니다. 구체적으로, UEEI는 먼저 뉴스와 댓글 간의 상호작용을 의미와 감정의 관점에서 촉진하여 뉴스 내 잠재적인 의심스러운 조각을 학습합니다. 그런 다음, 모델은 외부 소스에서 충분한 후보 증거를 선별하기 위해 엔티티 수준과 관계 수준의 검색을 구성합니다. 마지막으로, 다중 뷰 추론을 통해 의심스러운 조각과 후보 증거 사이의 일관성을 측정하고, 더 나아가 설명 가능한 증거를 추론합니다. 세 개의 공개 데이터셋에서 수행된 실험은 UEEI의 효과성과 해석 가능성을 확인해줍니다.
Modeling Selective Feature Attention for Lightweight Text Matching ->
Modeling Selective Feature Attention for Representation-based Siamese Text Matching
표현 기반 시암 네트워크는 경량 텍스트 매칭에서 낮은 배포 및 추론 비용으로 인해 인기를 끌고 있습니다. 시암 네트워크 내에서 성능을 향상시키기 위해 단어 수준의 어텐션 메커니즘이 구현되었지만, 우리는 임베딩 특징 간의 의존성 모델링을 강화하기 위해 고안된 새로운 다운스트림 블록인 특징 어텐션(Feature Attention, FA)을 제안합니다. "압축 및 활성화(squeeze-and-excitation)" 기술을 활용하여, FA 블록은 개별 특징에 대한 강조를 동적으로 조정하여 최종 분류에 크게 기여하는 특징에 네트워크가 더 집중할 수 있도록 합니다. FA를 기반으로, 우리는 Selective Feature Attention(SFA)이라는 동적 "선택" 메커니즘을 도입했으며, 이는 스택된 BiGRU 인셉션 구조를 활용합니다. SFA 블록은 다양한 스택된 BiGRU 레이어를 통해 다중 스케일의 의미 추출을 촉진하여, 네트워크가 다양한 추상화 수준에서 의미 정보와 임베딩 특징에 선택적으로 집중할 수 있도록 합니다. FA와 SFA 블록 모두 다양한 시암 네트워크와의 원활한 통합 기능을 제공하여 플러그 앤 플레이 특성을 보여줍니다. 다양한 텍스트 매칭 기준과 벤치마크에서 수행된 실험 평가 결과, 특징 어텐션의 모델링과 "선택" 메커니즘의 우수성을 입증하였습니다.
Bridge to Non-Barrier Communication: Gloss-Prompted Fine-Grained Cued Speech Gesture Generation with Diffusion Model
Cued Speech(CS)은 구화와 손동작을 통합하여 청각 장애인이 효율적으로 의사소통할 수 있도록 하는 고급 시각적 음운 부호화 시스템입니다. CS 비디오 생성은 오디오나 텍스트 입력으로부터 특정 입술 움직임과 제스처를 생성하는 것을 목표로 합니다. 주요 과제는 제한된 CS 데이터를 바탕으로 세밀한 손과 손가락 움직임, 그리고 입술 움직임을 동시에 생성하는 것이며, 이 두 가지 움직임은 비동기적으로 정렬되어야 합니다. 기존의 CS 생성 방법은 템플릿 기반 통계 모델과 모델에 맞추기 위한 정교한 수작업 전처리 때문에 취약하고 성능이 저조한 경향이 있습니다. 따라서 우리는 GlossDiff라고 불리는 새로운 Gloss-프롬프트 기반 확산 CS 제스처 생성 프레임워크를 제안합니다. 구체적으로, 모델에 추가적인 언어적 규칙 지식을 통합하기 위해 자동으로 생성된 설명 텍스트인 Gloss라는 중간 지침을 도입하여 구어와 CS 제스처 간의 직접적이고 섬세한 의미 연결을 확립합니다. 또한, CS의 의사소통 효율성을 높이기 위해 리듬이 중요한 준언어적 특징임을 처음으로 제안합니다. 이에 따라, 오디오 음성에 맞는 리듬을 학습하기 위한 새로운 오디오 기반 리듬 모듈(ARM)을 제안합니다. 더불어, 본 연구에서는 최초로 네 명의 CS 수행자가 포함된 중국어 CS 데이터셋을 설계, 녹화 및 공개하였습니다. 광범위한 실험을 통해 본 방법이 현재의 최신(SOTA) 방법을 양적 및 질적으로 능가함을 입증하였습니다. 코드와 데이터는 https://glossdiff.github.io/에서 공개되었습니다.
FactCHD: Benchmarking Fact-Conflicting Hallucination Detection
인상적인 생성 능력을 가지고 있음에도 불구하고, 대형 언어 모델(LLMs)은 실제 응용에서 사실과 상충되는 환각(hallucinations) 문제로 인해 한계를 보입니다. 특히 복잡한 추론 시나리오에서 LLMs가 생성한 텍스트에서 환각을 정확히 식별하는 것은 상대적으로 잘 탐구되지 않은 영역입니다. 이 격차를 해소하기 위해, 우리는 FACTCHD라는 사실과 상충되는 환각을 탐지하기 위한 전용 벤치마크를 제안합니다. FACTCHD는 기본적인 패턴, 다중 단계 추론, 비교, 집합 연산 등 다양한 사실성 패턴을 포함하는 데이터셋을 특징으로 합니다. FACTCHD의 독특한 요소는 사실 기반의 증거 체인을 통합하여 탐지기 설명의 깊이를 크게 향상시킨다는 점입니다. 다양한 LLMs에 대한 실험은 현재 접근 방식이 사실적 오류를 정확하게 탐지하는 데 있어 부족함을 드러냅니다. 또한, 우리는 예측 결과와 증거를 종합하여 더 신뢰할 수 있는 탐지를 목표로, 도구로 강화된 ChatGPT와 Llama2 기반의 LoRA 튜닝을 통해 반영적 고려를 통합하는 TRUTH-TRIANGULATOR를 소개합니다.
Two-stage Semi-supervised Speaker Recognition with Gated Label Learning
스피커 인식 기술은 딥러닝의 발전 덕분에 다양한 분야에서 성공적으로 적용되고 있습니다. 그럼에도 불구하고, 현재의 연구는 여전히 라벨링된 데이터의 부족 문제에 직면해 있습니다. 이러한 문제는 컴퓨터 비전 분야에서 반라벨 학습(SSL)을 통해 해결하려는 시도가 있었는데, 이는 라벨이 없는 데이터에 가짜 라벨을 할당하여 라벨이 있는 데이터의 역할을 수행하도록 합니다. 그러나 우리의 경험적 평가에 따르면, 최첨단 SSL 방법들은 스피커 인식 작업에서 가짜 라벨의 양과 질 사이의 불균형으로 인해 만족스럽지 못한 성능을 보였습니다. 따라서 이 연구에서는 데이터 부족 문제를 해결하기 위한 두 단계의 SSL 프레임워크를 제안합니다. 먼저, 초기 대조 학습 네트워크를 구축하여 인코더가 발화의 임베딩 표현을 출력하도록 합니다. 그 후, 클러스터링 전략을 통해 가짜 라벨을 할당하고, 신뢰할 수 있는 가짜 라벨 데이터를 선택하기 위해 게이트된 라벨 학습(GLL) 전략을 포함하는 반복적 전체론적 반라벨 학습 네트워크를 구축합니다. 체계적인 평가를 통해 제안된 프레임워크가 스피커 인식에서 최첨단 방법보다 우수한 성능을 발휘하며, 감독 학습의 성능에 필적하는 결과를 보여줍니다.
InstructEdit: Instruction-Based Knowledge Editing for Large Language Models
대규모 언어 모델의 지식 편집은 전체 성능에 부정적인 영향을 미치지 않으면서 모델의 행동을 변경할 수 있는 효율적인 해결책을 제공할 수 있습니다. 그러나 현재의 접근 방식은 작업 간 일반화 가능성이 제한적이어서 각 작업마다 별도의 편집기가 필요하기 때문에 더 넓은 응용을 크게 방해하는 문제에 직면합니다. 이를 해결하기 위해 우리는 지식 편집에서의 다중 작업 일반화 문제를 분석하는 첫 단계를 밟았습니다.
구체적으로, 우리는 InstructEdit라고 하는 지시 기반 편집 기술을 개발했습니다. 이 기술은 간단한 지시를 사용하여 편집기가 동시에 다양한 작업 성능에 적응할 수 있도록 합니다. 각 LLM에 대해 하나의 통합된 편집기만으로, InstructEdit가 편집기의 제어를 향상시켜 다중 작업 편집 환경에서 평균 14.86%의 신뢰성 증가를 이끌어낼 수 있음을 경험적으로 입증했습니다. 더욱이 보류된 미지의 작업을 포함한 실험에서 InstructEdit는 이전의 강력한 기준선들을 일관되게 능가합니다.
지시 기반 지식 편집의 근본적인 메커니즘을 더 깊이 조사하기 위해, 우리는 편집 그래디언트 방향의 주요 구성 요소를 분석했습니다. 이를 통해 지시가 더 강력한 OOD(Out-of-Distribution) 일반화와 함께 최적화 방향을 제어하는 데 도움이 될 수 있음이 밝혀졌습니다.
Domain-Hierarchy Adaptation via Chain of Iterative Reasoning for Few-shot Hierarchical Text Classification
최근 다양한 사전 훈련된 언어 모델(PLM)들이 제안되어 광범위한 적은 샷(few-shot) 작업에서 인상적인 성능을 보여주고 있습니다. 그러나 PLM의 비구조화된 사전 지식의 한계로 인해, 특히 다운스트림 데이터가 극히 부족할 때 계층적 텍스트 분류(HTC)와 같은 복잡한 구조화된 시나리오에서 일관된 성능을 유지하기 어렵습니다. 주요 과제는 PLM의 비구조화된 의미 공간을 다운스트림 도메인 계층 구조로 어떻게 전이하느냐입니다.
다중 레이블 분류를 직접 수행하거나 그래프 신경망(GNN)을 사용하여 레이블 계층 구조를 주입하는 기존의 HTC 연구와 달리, 본 연구에서는 PLM의 지식을 비구조화된 방식에서 다운스트림 계층 구조로 적응시키기 위해 적은 샷 설정에서의 HTC 문제를 연구합니다.
기술적으로, 우리는 계층적 반복 조건부 랜덤 필드(HierICRF)라는 간단하면서도 효과적인 방법을 설계했습니다. 이 방법은 가장 도전적인 도메인 방향을 탐색하고, 도메인-계층 구조 적응을 계층적 반복 언어 모델링 문제로 정교하게 구성합니다. 그런 다음 추론 과정에서 모델이 계층적 일관성 자기 수정을 수행하도록 장려함으로써 계층적 일관성을 유지하면서 지식 전이를 달성합니다.
우리는 다양한 아키텍처에서 HierICRF를 수행했으며, 두 개의 인기 있는 HTC 데이터셋에 대한 광범위한 실험을 통해 HierICRF를 사용한 프롬프트가 적은 샷 설정에서 이전 최첨단(SOTA) 기준선에 비해 평균 Micro-F1을 28.80%에서 1.50%까지, Macro-F1을 36.29%에서 1.5%까지 크게 향상시키면서도 SOTA 계층적 일관성 성능을 유지함을 보여줍니다.
Recall, Retrieve and Reason: Towards Better In-Context Relation Extraction
관계 추출(RE)은 텍스트에 언급된 엔티티 간의 관계를 식별하는 것을 목표로 합니다. 대형 언어 모델(LLMs)이 다양한 작업에서 뛰어난 맥락 학습(ICL) 능력을 보여주었지만, 대부분의 감독 학습 기반의 미세 조정된 RE 방법들에 비해 여전히 성능이 부족합니다. LLMs를 사용한 RE에서 ICL을 활용하는 데에는 두 가지 과제가 있습니다: (1) 훈련 예제에서 적절한 데모를 검색하는 것, (2) LLM이 RE에서 강력한 ICL 능력을 발휘하게 하는 것. 한편, RE에서 적절한 데모를 검색하는 것은 엔티티와 관계에 대한 관련성이 낮아지기 쉬운 비직관적인 과정입니다. 다른 한편으로, RE는 본질적으로 언어 모델링과 다르기 때문에 LLM이 충분히 크지 않은 경우 ICL을 통한 성능이 저조하게 나타납니다. 이 연구에서는 LLM을 검색 코퍼스(훈련 예제)와 결합하여 관련성 높은 검색과 신뢰할 수 있는 맥락 내 추론을 가능하게 하는 새로운 회상-검색-추론 RE 프레임워크를 제안합니다. 구체적으로, 훈련 데이터셋에서 일관된 온톨로지 지식을 추출하여, LLM이 검색 코퍼스에 기반한 관련성 높은 엔티티 쌍을 생성하도록 합니다. 이 엔티티 쌍은 LLM이 더 나은 ICL을 수행할 수 있도록 인스트럭션 튜닝을 통해 데모로 사용하기 위해 검색 코퍼스에서 관련 훈련 예제를 검색하는 데 사용됩니다. 다양한 LLM과 RE 데이터셋에 대한 광범위한 실험을 통해, 제안된 방법이 관련성 높고 유효한 엔티티 쌍을 생성하며, LLM의 ICL 능력을 향상시켜 이전의 감독 학습 기반 미세 조정 방법과 ICL 기반 방법에 비해 문장 수준 RE에서 경쟁력 있는 성능 또는 새로운 최첨단 성능을 달성함을 입증합니다.
TFCD: Towards Multi-modal Sarcasm Detection via Training-Free Counterfactual Debiasing
다중 모달 풍자 탐지(MSD)는 다중 모달 정보(즉, 텍스트와 이미지)가 포함된 주어진 샘플이 풍자적인지 여부를 식별하는 것을 목표로 하며, 널리 주목받고 있습니다. 최근의 접근 방식들은 전체 또는 지역적 이미지 및 텍스트 특징에서 풍자적 단서를 추출하기 위해 정교한 아키텍처나 메커니즘을 설계하는 데 집중하고 있습니다. 그러나 오랫동안 간과된 문제는 현재의 MSD 작업이 의도치 않은 데이터셋 편향, 특히 통계적 레이블 편향과 풍자 없는 단어 편향으로 인해 불가피하게 고통받고 있다는 점입니다.
구체적으로, 이러한 해로운 편향들은 기존 모델들이 가짜 상관관계를 학습하도록 오도할 수 있는 혼란 변수로, 모델의 성능을 크게 제한합니다. 이 문제를 해결하기 위해, 본 논문은 훈련 없는 반사실적 편향 제거 프레임워크인 TFCD를 제안합니다. TFCD는 먼저 맞춤형 인과 그래프를 통해 MSD의 변수들 간의 인과관계를 공식화합니다. 그런 다음 TFCD는 반사실적 발화와 맥락을 생성하여 기존 훈련된 모델에서 편향을 추출하고, 요소별 뺄셈을 사용하여 이를 완화합니다.
두 개의 벤치마크에 대한 광범위한 실험은 제안된 TFCD의 효과를 입증합니다. 주목할 만한 점은 TFCD가 데이터 균형이나 모델 수정을 필요로 하지 않으므로 다양한 최첨단 접근 방식에 원활하게 통합될 수 있고 상당한 개선 마진을 달성할 수 있다는 것입니다.
MMVQA: A Comprehensive Dataset for Investigating Multipage Multimodal Information Retrieval in PDF-based Visual Question Answering
문서 질문 응답(QA)은 특히 긴 텍스트 콘텐츠를 가진 시각적으로 풍부한 문서(VRD)를 이해하는 데 있어 도전 과제를 제시합니다. 기존 연구는 주로 텍스트가 적은 실제 문서에 중점을 두고 있지만, 다중 페이지 간의 계층적 의미 관계를 이해하고 멀티모달 구성 요소를 찾는 데 여전히 어려움이 있습니다. 이 논문에서는 다중 페이지와 멀티모달 검색을 포함한 연구 저널 기사를 위한 데이터셋인 MMVQA를 소개합니다. 우리의 접근법은 답변이 포함된 전체 단락이나 표나 그림과 같은 시각적으로 풍부한 문서 엔티티를 검색하는 것을 목표로 합니다. 주요 기여는 텍스트 중심 문서의 의미적으로 계층화된 레이아웃 구조를 검토할 수 있는 포괄적인 PDF 문서 VQA 데이터셋을 소개하는 것입니다. 또한, 문서 레이아웃 간의 관계를 동시에 파악하고 페이지 수준의 이해를 다중 페이지 문서 전체로 확장하기 위한 새로운 VRD-QA 프레임워크를 제시합니다. 우리는 VRD-QA에서 텍스트 중심 문서가 제기하는 문제를 처리하는 데 있어 기존 비전-언어 모델의 역량을 강화하는 것을 목표로 합니다. 코드와 부록은 https://github.com/adlnlp/pdfmvqa에서 확인할 수 있습니다.
Joint Multimodal Aspect Sentiment Analysis with Aspect Enhancement and Syntactic Adaptive Learning
감정 분석에서 중요한 작업인 공동 멀티모달 측면 감정 분석(Joint Multimodal Aspect Sentiment Analysis, JMASA)은 최근 몇 년간 많은 주목을 받고 있습니다. 그러나 기존 접근 방식들은 다음과 같은 한계가 있었습니다: i) 멀티모달 입력 데이터 간의 상관관계를 충분히 활용하지 않고 멀티모달 데이터를 직접 융합하거나, ii) 텍스트 내 단어의 의존성을 감정 분석에 동일하게 활용하여, 다른 단어들의 중요도 차이를 무시하는 것입니다.
이러한 한계를 해결하기 위해, 우리는 측면 강화 및 구문 적응 학습(Aspect Enhancement and Syntactic Adaptive Learning, AESAL)에 기반한 공동 멀티모달 감정 분석 방법을 제안합니다. 구체적으로, 모델이 멀티모달 입력 데이터 간의 측면 상관관계를 충분히 학습할 수 있도록 측면 강화 사전 학습 과제를 구성했습니다. 또한, 텍스트 내 단어들의 중요도 차이를 포착하기 위해 구문 적응 학습 메커니즘을 설계했습니다. 먼저, 단어 간의 거리에 기반한 다양한 구문 의존성 그래프를 구성하여 텍스트의 글로벌 및 로컬 정보를 학습합니다. 둘째, 다중 채널 적응 그래프 합성곱 신경망(multi-channel adaptive graph convolutional network)을 사용하여 각 모달리티의 고유성을 유지하면서도 다른 모달리티 간의 상관관계를 융합합니다.
벤치마크 데이터셋에서의 실험 결과, 우리의 방법이 기존 최첨단 방법들보다 뛰어난 성능을 보임을 입증했습니다.
PEACH: Pretrained-Embedding Explanation across Contextual and Hierarchical Structure
PEACH(Pretrained-embedding Explanation Across Contextual and Hierarchical Structure)은 텍스트 기반 문서가 어떻게 분류되는지를 설명할 수 있는 기법으로, 모든 사전 학습된 컨텍스트 임베딩을 사용하여 트리 기반의 사람이 이해할 수 있는 방식으로 설명할 수 있습니다. PEACH는 결정 트리를 학습하기 위한 입력으로 어떤 프리트레인된 언어 모델(PLM)의 컨텍스트 임베딩도 채택할 수 있습니다. 제안된 PEACH를 사용하여, 우리는 아홉 가지의 다양한 NLP 텍스트 분류 벤치마크에서 여러 컨텍스트 임베딩에 대한 포괄적인 분석을 수행했습니다. 이 분석은 여러 PLM 컨텍스트 임베딩을 적용하는 모델의 유연성, 속성 선택, 스케일링 및 클러스터링 방법을 보여줍니다.
또한, 우리는 PEACH가 사람이 이해할 수 있는 워드 클라우드 기반 트리를 통해 특성 선택과 텍스트 분류의 중요한 경향을 시각화하여 설명의 유용성을 입증합니다. 이 방법은 모델의 실수를 명확하게 식별하고 데이터셋 디버깅에 도움을 줍니다. 해석 가능성 외에도, PEACH는 사전 학습된 모델과 비교하여 유사하거나 더 나은 성능을 보입니다. 코드는 https://github.com/adlnlp/peach에서 확인할 수 있습니다.
Incorporating Schema-Aware Description into Document-Level Event Extraction
문서 수준 이벤트 추출(Document-level Event Extraction, DEE)은 주어진 문서에서 구조화된 이벤트 정보를 추출하는 작업으로, 두 가지 주요 도전 과제에 직면하고 있습니다: (1) 이벤트 인수(arguments)가 항상 여러 문장에 흩어져 있다는 점(인수 분산); (2) 하나의 문서에 여러 이벤트가 동시에 발생할 수 있다는 점(다중 이벤트). 최근 연구들은 이러한 도전 과제를 완화하기 위해 두 가지 단순화된 설정을 주로 따릅니다: 하나는 트리거 단어를 사용하지 않는 디자인(NDEE)을 통해 DEE를 단순화하며, 다른 하나는 DEE의 하위 작업인 이벤트 인수 추출(DEAE)에 중점을 둡니다. 그러나 전자는 트리거 추출을 제외하여 하위 작업에서 오류 전파의 문제를 겪고, 후자는 금 트리거(gold triggers)에 크게 의존하여 서로 다른 이벤트에서 동일한 역할을 하는 여러 인수를 구분하는 데 어려움을 겪습니다.
이러한 한계점을 해결하기 위해, 우리는 SchEmaawarE 설명을 문서 수준 이벤트 추출에 통합하여 DEE 모델을 강화하는 새로운 트리거 및 인수 추출 패러다임인 SEELE을 제안합니다. 구체적으로, 스키마 인식 설명(schema-aware descriptions)은 두 가지 측면에서 활용됩니다: (1) 이벤트 인식 토큰들 간의 주의 메커니즘을 안내하여 오류 전파 없이 인수 분산 문제를 완화; (2) 금 트리거 없이도 서로 다른 이벤트를 구분할 수 있는 세밀한 대비 학습(contrastive learning)을 수행하여 다중 이벤트 문제를 완화합니다. 광범위한 실험 결과, SEELE이 세 가지 NDEE 데이터셋에서 2.1%에서 9.7%까지의 F1 점수 향상을 달성하며, 두 가지 DEAE 데이터셋에서도 경쟁력 있는 성능을 보여주었음을 입증했습니다. 우리의 코드는 https://github.com/TheoryRhapsody/SEELE에서 확인할 수 있습니다.
Vision-fused Attack: Advancing Aggressive and Stealthy Adversarial Text against Neural Machine Translation
신경 기계 번역(NMT) 모델은 일상생활에서 성공적으로 사용되고 있지만, 적대적 공격에 취약한 모습을 보입니다. 이러한 공격은 해로울 수 있지만, NMT 모델을 해석하고 개선하는 데도 도움을 줄 수 있어 연구자들의 관심이 증가하고 있습니다. 그러나 기존의 적대적 공격 연구는 언어의 범위에만 집중하기 때문에 공격 능력과 인간이 인지하지 못하는 속성(human imperceptibility) 모두에서 부족한 점이 있습니다.
본 논문에서는 더 강력하고 은밀한 적대적 텍스트를 획득하기 위한 새로운 비전 융합 공격(VFA) 프레임워크를 제안합니다. 공격 능력 측면에서는, 제한된 의미적 해결 공간을 확장하기 위해 비전 통합 솔루션 공간 향상 전략을 설계하여, 공격 능력이 높은 적대적 후보를 탐색할 수 있게 합니다. 인간이 인지하지 못하는 속성 측면에서는, 인간의 텍스트 읽기 메커니즘에 맞춰 적대적 텍스트를 선택하는 전략을 제안합니다. 따라서 최종적으로 선택된 적대적 텍스트는 더 기만적일 수 있습니다.
LLaMA와 GPT-3.5와 같은 대형 언어 모델(LLMs)을 포함한 다양한 모델에 대한 광범위한 실험 결과, VFA가 비교 방법들에 비해 큰 차이로 우수한 성능을 보임을 강력히 뒷받침합니다(ASR/SSIM에서 최대 81%/14%의 개선).
Attention Based Document-level Relation Extraction with None Class Ranking Loss문서 수준 관계 추출(Document-level Relation Extraction, RE)을 통해 텍스트 내 엔터티 간의 전반적인 관계를 분석할 수 있으며, 보다 포괄적이고 정확한 의미 정보를 얻을 수 있습니다. 문서 수준 RE에서는 모델이 서로 다른 문장에 있는 두 엔터티 간의 암묵적인 관계를 추론해야 합니다. 더 많은 의미 정보를 얻기 위해, 기존 방법들은 주로 엔터티 표현을 탐구하는 데 초점을 맞추지만, 관계, 엔터티 및 문맥 간의 상관성과 불가분성을 간과합니다. 또한, 현재의 방법들은 "관계 없음"이라는 경우를 무시하고 미리 정의된 관계만을 독립적으로 추정하여 예측 성능이 저하되는 문제를 가지고 있습니다.
이러한 문제를 해결하기 위해, 우리는 "관계 없음" 경우를 고려한 주의 메커니즘(attention mechanisms) 기반의 문서 수준 RE 방법을 제안합니다. 구체적으로, 이 접근법은 그래프 어텐션과 다중 헤드 어텐션 네트워크를 활용하여 관계, 엔터티 및 문맥 간의 상관성과 불가분성을 각각 포착합니다. 추가적으로, 각 미리 정의된 클래스와 "관계 없음" 클래스 간의 라벨 신뢰도 점수에서 큰 마진을 촉진하는 새로운 다중 라벨 손실 함수(multi-label loss function)를 적용하여 예측 성능을 향상시킵니다. 벤치마크 데이터셋에서 수행된 광범위한 실험 결과, 제안된 방법이 기존 최첨단 기준 모델들보다 더 높은 정확도로 성능을 능가함을 입증했습니다.
Learning Label Dependencies for Visual Information Extraction
시각적 정보 추출(Visual Information Extraction, VIE)은 시각적으로 풍부한 문서 이미지에서 구조화된 정보를 추출하는 것을 목표로 하며, 문서 이해와 관련된 다양한 응용 분야에서 큰 주목을 받고 있습니다. 그러나 이전 방법들은 VIE 작업을 주로 시퀀스 라벨링 문제로 취급하며, 시퀀스 내 라벨 간의 상관관계를 무시하여 성능이 크게 저하될 수 있습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 라벨 상관관계의 잠재력을 활용하여 VIE 모델의 성능을 향상시키는 새로운 프레임워크를 제안합니다.
이 프레임워크의 핵심 아이디어는 엔티티의 라벨 의존성을 학습하여 라벨 시퀀스를 정규화하는 것입니다. 구체적으로, 엔티티의 라벨 의존성을 포착하기 위해 라벨 트랜스포머(label transformer)를 사전 학습시켜, 문서 레이아웃의 라벨 패턴을 준수하는 라벨 시퀀스에 더 높은 가능성을 부여합니다. 테스트 단계에서는, 라벨 트랜스포머에 의해 평가된 라벨 시퀀스의 가능성뿐만 아니라 각 엔티티의 특징을 고려하여 라벨 시퀀스를 예측하는 추론 트랜스포머(inference transformer)가 사용됩니다.
우리의 프레임워크는 LayoutLM, GeoLayoutLM과 같은 기존의 인기 있는 VIE 모델과 결합할 수 있습니다. 공개 데이터셋에 대한 광범위한 실험을 통해 우리의 프레임워크가 효과적임을 입증하였습니다.
KG-CoT: Chain-of-Thought Prompting of Large Language Models over Knowledge Graphs for Knowledge-Aware Question Answering
대형 언어 모델(LLMs)은 지식 집약적인 작업에서 환각(hallucination)과 사실 오류와 같은 문제에 직면하고 있습니다. 한편으로는, LLM이 신뢰할 수 있는 지식을 바탕으로 신뢰할 수 있는 답변을 생성하는 데 어려움을 겪을 때가 있습니다. 이는 책임 있는 지식이 부족하기 때문입니다. 또한, 지식 검색기(knowledge retrievers)가 추출한 단편적인 지식 사실들은 명확하고 일관된 추론 경로를 제공하지 못하여 LLM의 추론 능력을 개선하는 데 한계가 있습니다.
이러한 문제를 해결하기 위해, 우리는 KG-CoT라는 새로운 지식 강화 패러다임을 제안합니다. KG-CoT는 소규모 단계별 그래프 추론 모델을 활용하여 지식 그래프(KGs) 위에서 추론을 수행하고, 고신뢰도의 지식 체인을 생성하기 위한 추론 경로 생성 방법을 사용하여 대형 LLM에 도움을 줍니다. 광범위한 실험을 통해 KG-CoT가 멀티홉, 싱글홉, 오픈 도메인 질문 응답 벤치마크와 같은 지식 집약적인 질문 응답 작업에서 LLM의 성능을 크게 향상시킨다는 것을 입증했습니다. 더욱이, KG-CoT는 API 호출 수와 비용을 줄일 수 있으며, 경량의 플러그 앤 플레이 방식으로 다양한 LLM에 적용할 수 있는 일반화 능력을 가지고 있습니다.
Learning to Solve Geometry Problems via Simulating Human Dual-Reasoning Process
기하학 문제 해결(Geometry Problem Solving, GPS)은 고전적이고 도전적인 수학 문제로, 최근 몇 년간 많은 주목을 받아왔습니다. GPS는 해결자가 텍스트와 다이어그램을 종합적으로 이해하고, 필수적인 기하학 지식을 습득하며, 이를 추론에 적절히 적용하는 능력을 요구합니다. 그러나 기존 연구들은 신경 기계 번역(paradigm of neural machine translation) 패러다임을 따르며, 인코더의 능력을 향상시키는 것에만 초점을 맞추어 인간의 기하학적 추론의 본질적인 특성을 간과하고 있습니다.
이 논문에서는 이중 과정 이론(dual-process theory)에서 영감을 받아, GPS에 대한 인간의 이중 추론 과정을 시뮬레이션하기 위해 Dual-Reasoning Geometry Solver (DualGeoSolver)를 제안합니다. 구체적으로, DualGeoSolver에는 두 가지 시스템, 즉 지식 시스템(Knowledge System)과 추론 시스템(Inference System)을 구축합니다. 지식 시스템은 암묵적인 추론 과정을 제어하며, 추론 시스템이 생성한 단계별 추론 목표에 따라 다이어그램 정보와 기하학 지식을 제공합니다. 추론 시스템은 명시적인 추론 과정을 수행하며, 각 추론 단계에서 목표를 지정하고 이를 해결하기 위해 지식을 적용하여 프로그램 토큰을 생성합니다. 두 시스템은 위 과정을 반복적으로 수행하여, 인간의 인지 방식과 더 일치하는 방식으로 작동합니다.
우리는 GeoQA와 GeoQA+1이라는 두 개의 벤치마크 데이터셋에서 광범위한 실험을 수행했습니다. 그 결과, DualGeoSolver가 명시적으로 인간의 추론 과정과 지식 적용을 모델링함으로써 문제 해결 정확도와 강건성 측면에서 우수한 성능을 보인다는 것을 입증했습니다.
Improving Pseudo Labels with Global-Local Denoising Framework for Cross-lingual Named Entity Recognition
교차 언어 명명 엔터티 인식(Cross-lingual Named Entity Recognition, NER)은 레이블이 지정된 출발 언어 데이터와 레이블이 없는 대상 언어 데이터를 활용하여 대상 언어에 대한 NER 모델을 훈련하는 것을 목표로 합니다. 기존의 접근법은 번역된 출발 언어 데이터에 레이블 투영을 수행하거나, 출발 언어 모델을 사용하여 대상 언어 데이터에 대해 가짜 레이블을 할당한 후, 이 가짜 레이블이 지정된 데이터를 기반으로 대상 언어 모델을 훈련하여 대상 언어에 일반화하려고 시도했습니다. 그러나 이러한 자동 레이블링 절차는 필연적으로 노이즈가 섞인 레이블을 도입하게 되어 성능 저하를 초래할 수 있습니다.
이에 본 논문에서는 교차 언어 NER을 위한 글로벌-로컬 노이즈 제거 프레임워크(Global-Local Denoising framework, GLoDe)를 제안합니다. 구체적으로, GLoDe는 의미 공간에서 글로벌 및 로컬 분포 정보를 활용하여 잘못된 가짜 레이블을 교정하는 점진적인 노이즈 제거 전략을 도입합니다. 정제된 가짜 레이블이 지정된 대상 언어 데이터는 모델의 일반화 능력을 크게 향상시킵니다. 또한, 이전 방법들은 언어에 구애받지 않는 특징(language-agnostic features)을 통해 모델을 개선하는 데 초점을 맞췄지만, 우리는 대상 언어에 특화된 특징(target language-specific features) 또한 중요하며 결코 무시되어서는 안 된다고 주장합니다. 이를 위해, 우리는 간단한 보조 작업(auxiliary task)을 사용하여 이 목표를 달성합니다. 여섯 개의 대상 언어를 포함한 두 개의 벤치마크 데이터셋에 대한 실험 결과, 제안된 GLoDe가 현재의 최첨단 방법들을 상당히 능가함을 입증했습니다.
ScreenAgent: A Vision Language Model-driven Computer Control Agent
기존의 대형 언어 모델(LLM)은 다양한 도구와 API를 호출하여 복잡한 작업을 수행할 수 있습니다. 컴퓨터는 가장 강력하고 범용적인 도구로서, 훈련된 LLM 에이전트가 직접 제어할 수 있는 잠재력을 가지고 있습니다. 컴퓨터의 힘을 활용하여, 우리는 다양한 일상적인 디지털 작업에서 인간을 도울 수 있는 더 일반화된 에이전트를 구축할 수 있을 것으로 기대됩니다.
이 논문에서는 Vision Language Model(VLM) 에이전트가 실제 컴퓨터 화면과 상호작용할 수 있는 환경을 구축했습니다. 이 환경에서 에이전트는 스크린샷을 관찰하고 마우스 및 키보드 동작을 출력하여 그래픽 사용자 인터페이스(GUI)를 조작할 수 있습니다. 우리는 또한 계획, 행동, 반영 단계를 포함하는 자동화된 제어 파이프라인을 설계하여 에이전트가 환경과 지속적으로 상호작용하고 다단계 작업을 완료할 수 있도록 안내합니다.
추가적으로, 다양한 일상적인 컴퓨터 작업을 완료할 때 스크린샷과 동작 시퀀스를 수집한 ScreenAgent Dataset을 구축했습니다. 마지막으로, 우리는 ScreenAgent라는 모델을 훈련시켰으며, 이 모델은 GPT-4V와 비교해 컴퓨터 제어 능력이 유사하며, 더 정밀한 UI 위치 지정 능력을 보여주었습니다. 우리의 시도는 일반화된 LLM 에이전트를 구축하기 위한 추가 연구에 영감을 줄 수 있을 것입니다. 코드는 https://github.com/niuzaisheng/ScreenAgent에서 확인할 수 있습니다.
Correct and Optimal: The Regular Expression Inference Challenge
우리는 정규 표현식 추론(Regular Expression Inference, REI)을 코드/언어 모델링 및 더 넓은 머신러닝 커뮤니티를 위한 도전 과제로 제안합니다. REI는 지도 학습(ML) 및 프로그램 최적화 작업으로, 예제에서 최소한의 정규 표현식을 찾는 문제를 제기합니다. 구체적으로, 두 개의 유한 문자열 집합 P와 N, 그리고 비용 함수 cost(·)가 주어졌을 때, P에 있는 모든 문자열을 수용하고 N에 있는 모든 문자열을 거부하며, 비용이 더 적은 다른 표현식 r′이 존재하지 않는 표현식 r을 생성하는 것이 목표입니다.
REI는 도전 과제로서 여러 가지 장점을 가지고 있습니다: (i) 정규 표현식은 널리 알려져 있고, 많이 사용되며, 코드의 이상적인 모델로 자연스럽게 사용됩니다; (ii) REI의 비대칭 최악의 경우 복잡성이 잘 이해되어 있습니다; (iii) REI는 쉽게 이해할 수 있는 파라미터(예: P 또는 N의 크기, 예제 문자열의 길이, 비용 함수)를 가지고 있어, REI 난이도를 쉽게 조정할 수 있습니다; (iv) 최적화를 중시하는 REI는 딥러닝 기반 ML에서는 아직 해결되지 않은 문제입니다. 최근, GPU를 사용하여 프로그램 합성 기법을 통해 REI 솔버가 구현되었고, 이를 통해 복잡한 REI 인스턴스에 대해 최소한의 정규 표현식을 빠르게 생성할 수 있게 되었습니다.
이러한 진전을 바탕으로, 우리는 REI를 위한 최초의 대규모 데이터셋을 생성 및 공개하였으며, 여러 초기 휴리스틱 및 머신러닝 기준선을 설계하고 평가했습니다. 우리는 커뮤니티가 참여하여 REI 문제를 해결하기 위한 ML 방법을 탐구하기를 권장합니다. REI에서의 진보는 코드/언어 모델링에서의 진보로 직접 이어질 것이라고 믿습니다.
It Ain’t That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models
대형 언어 모델(LLMs)은 다양한 문제를 해결하는 데 있어 놀라운 능력을 보여주었지만, 이들의 일반화 능력은 항상 만족스럽지 않으며, 일반화 문제는 일반적으로 생성형 트랜스포머 모델에서 흔히 발생합니다. 연구자들은 n자리 덧셈이나 곱셈과 같은 기본 수학적 작업을 통해 이러한 모델들의 일반화 행동을 조사하는 중요한 관점을 제시합니다. 예를 들어, 모델이 n자리 숫자 연산(예: 덧셈)을 학습할 때, 입력 피연산자가 n자리인 경우에 대해 학습한 모델은 보지 못한 n자리 입력에 대해서도 성공적으로 일반화할 수 있지만, 더 길고 보지 못한 사례(분포 밖(OOD) 일반화)에서는 성능이 급격히 떨어지는 것으로 관찰되었습니다. 우리는 이 설명되지 않은 성능 저하에 주목하며, 체계적인 OOD 일반화가 가능한지 질문합니다.
LLMs를 이해하기 위해, 우리는 유사한 기저 메커니즘을 공유할 수 있는 다양한 소형 언어 모델들을 훈련시켰습니다. 그 결과, 강력한 분포 내(ID) 일반화는 구조화된 표현에서 비롯된 반면, 만족스럽지 않은 OOD 성능 뒤에도 모델들이 여전히 명확한 학습된 대수적 구조를 보인다는 것을 발견했습니다. 특히, 이러한 모델들은 보지 못한 OOD 입력을 ID 도메인에서 학습된 동등성 관계로 출력에 매핑하는 경향이 있는데, 이를 우리는 "동등성 일반화"라고 부릅니다. 이러한 발견은 LLMs를 포함한 생성형 모델의 일반화 가능성에 대한 이해를 심화시키며, 개선의 잠재적 방향에 대한 통찰을 제공합니다.
Prompt-enhanced Network for Hateful Meme Classification
소셜 미디어의 급격한 확장은 미디어 플랫폼에서 혐오성 밈(hateful memes)의 범람을 초래하여, 효율적인 식별 및 제거의 필요성이 점점 커지고 있습니다. 전통적인 멀티모달 혐오 밈 분류가 외부 지식에 크게 의존하며, 관련성이 없거나 중복된 콘텐츠를 포함할 위험이 있다는 한계를 인식한 우리는 Pen이라는 프롬프트 학습 접근법에 기반한 프롬프트 강화 네트워크 프레임워크를 개발했습니다. 구체적으로, 프롬프트 방법을 통해 시퀀스를 구성한 후 이를 언어 모델로 인코딩하고, 인코딩된 시퀀스에 대해 다중 뷰 인식을 위한 지역 정보 전역 추출을 수행했습니다. Pen은 추론 인스턴스와 시연에 대한 전역 정보를 포착하여, 시퀀스 정보를 최대한 활용하여 카테고리 선택을 용이하게 합니다. 이 접근 방식은 모델 분류 정확도를 크게 향상시킵니다. 또한, 피처 공간에서 모델의 추론 능력을 강화하기 위해 프롬프트 인식 대비 학습(prompt-aware contrastive learning)을 프레임워크에 도입하여 샘플 피처 분포의 품질을 개선했습니다. 두 개의 공개 데이터셋에 대한 광범위한 소거 실험을 통해 Pen 프레임워크의 효과를 평가하고, 동시에 최첨단 모델 기준선과 비교했습니다. 연구 결과, Pen이 수동 프롬프트 방법을 능가하여 혐오 밈 분류 작업에서 우수한 일반화 및 분류 정확도를 보여준다는 점을 강조합니다. 코드는 https://github.com/juszzi/Pen에서 확인할 수 있습니다.
Sentence-Level or Token-Level? A Comprehensive Study on Knowledge Distillation
지식 증류(Knowledge Distillation)는 교사 모델(teacher model)로부터 학생 모델(student model)로 지식을 전이하는 강력한 기법으로, 신경 기계 번역에서 모델을 압축하거나 훈련 목표를 단순화하는 데 사용되고 있습니다. 지식 증류에는 주로 두 가지 방법이 있습니다: 문장 수준 증류(sentence-level distillation)와 토큰 수준 증류(token-level distillation)입니다. 문장 수준 증류에서는 학생 모델이 교사 모델의 출력을 맞추도록 훈련되며, 이는 훈련 난이도를 완화하고 학생 모델이 전체 구조를 포괄적으로 이해하는 데 도움을 줍니다. 반면에, 토큰 수준 증류는 학생 모델이 교사 모델의 출력 분포를 학습하도록 하여 더 세밀한 지식 전이를 촉진합니다. 연구들은 문장 수준 증류와 토큰 수준 증류가 서로 다른 상황에서 상이한 성능을 보인다는 것을 밝혀냈으며, 이는 지식 증류 방법을 실질적으로 선택하는 데 혼란을 초래합니다.
본 연구에서는 토큰 수준 증류가 더 복잡한 목표(즉, 분포)를 가지고 있어 "단순한" 시나리오에 더 적합하며, 반대로 문장 수준 증류는 "복잡한" 시나리오에서 뛰어나다고 주장합니다. 우리의 가설을 입증하기 위해, 우리는 학생 모델의 크기, 텍스트의 복잡성, 디코딩 절차의 난이도를 변화시키며 증류 방법의 성능을 체계적으로 분석했습니다. 실험 결과는 우리의 가설을 뒷받침하지만, 주어진 시나리오의 복잡도 수준을 정의하는 것은 여전히 어려운 과제입니다. 따라서 우리는 토큰 수준 증류와 문장 수준 증류를 게이팅 메커니즘을 통해 결합하여 두 가지 개별 방법의 장점을 모두 활용하는 새로운 하이브리드 방법을 제안합니다. 실험 결과, 하이브리드 방법이 토큰 수준이나 문장 수준 증류 방법 및 이전 연구들보다 성능이 우수함을 입증하여 제안된 하이브리드 방법의 효과를 보여줍니다.
GRASP: A Novel Benchmark for Evaluating Language GRounding and Situated Physics Understanding in Multimodal Language Models
이 논문은 GRASP라는 새로운 벤치마크를 소개하며, 이를 통해 비디오 기반 멀티모달 대형 언어 모델(LLMs)의 언어 그라운딩과 물리적 이해 능력을 평가합니다. 이 평가는 Unity 시뮬레이션을 활용한 이중 접근 방식을 통해 이루어집니다. 첫 번째 수준에서는 간단한 텍스트 설명과 시각적 정보를 연관시키는 모델의 능력을 평가하여 언어 그라운딩을 테스트합니다. 두 번째 수준에서는 객체 영속성 및 연속성 같은 "직관적 물리학(Intuitive Physics)" 원칙을 이해하는 모델의 능력을 평가합니다. 벤치마크를 공개하는 것 외에도, 우리는 이를 사용하여 여러 최첨단 멀티모달 LLM을 평가했습니다. 평가 결과, 이러한 모델들이 언어 그라운딩과 직관적 물리학 능력에서 상당한 한계가 있음을 발견했습니다. 특히 색상과 모양과 같은 특정 요소에 대해서는 어느 정도 그라운딩 능력을 보였지만, 이 능력은 프롬프트 전략에 크게 의존했습니다. 한편, 모든 모델이 직관적 물리학 테스트에서 50%의 기회 수준 또는 그 이하의 성과를 보였으며, 인간 피험자는 평균적으로 80%의 정확도를 기록했습니다. 이러한 한계점은 GRASP와 같은 벤치마크를 통해 미래 모델이 이러한 역량을 개발하는 데 있어 진전을 모니터링하는 것이 중요하다는 것을 강조합니다.
Natural Language Decomposition and Interpretation of Complex Utterances
자연어 인터페이스를 설계하는 것은 사용자의 요청을 신중하게 설계된 인텐트 표현으로 변환하기 위해 지도 데이터를 수집하는 것을 요구해 왔습니다. 이는 사용자 요청의 긴 꼬리를 열거하고 라벨링하는 것이 매우 어렵기 때문입니다. 동시에, 대형 언어 모델(LLMs)은 목표와 계획에 대한 지식을 내재하고 있어, 대화형 비서가 여러 단계를 거쳐 완료해야 하는 사용자 요청을 해석하는 데 도움이 될 수 있습니다. 우리는 사용자의 복잡한 인텐트를 처리하기 위한 접근법을 소개하는데, 이는 계층적 자연어 분해 및 해석 과정을 통해 이루어집니다. 이 접근법은 사전 학습된 언어 모델을 사용하여 복잡한 발화를 일련의 더 간단한 자연어 단계로 분해하고, 각 단계를 해당 인터페이스에 맞춘 언어-프로그램 변환 모델을 사용하여 해석합니다. 이 접근법을 테스트하기 위해, 우리는 DeCU라는 새로운 NL-to-program 벤치마크를 수집하고 공개하여 복잡한 발화의 분해(Decomposition of Complex Utterances)를 평가합니다. 실험 결과, 제안된 접근법은 거의 복잡한 학습 데이터가 없이도 복잡한 발화의 해석을 가능하게 하며, 표준 소수 샷 프롬프트 접근법을 능가하는 성능을 보였습니다.
Making LLMs as Fine-Grained Relation Extraction Data Augmentor
텍스트 내 엔터티 간의 관계 추출(relationship extraction, RE)은 일반적으로 풍부한 고품질 데이터가 필요한 지도 학습 모델에 의존합니다. 이러한 RE의 저자원 문제를 해결하기 위해 데이터 증강(Data Augmentation, DA)을 포함한 다양한 접근법이 제안되었습니다. 그러나 RE의 세밀한 특성으로 인해 기존의 DA 방법들은 생성된 데이터에서 일관성과 맥락적 다양성을 보장하는 데 어려움을 겪는 경우가 많습니다. 대형 언어 모델(LLMs)의 광범위한 생성 능력에서 영감을 받아, 우리는 RE에서 맥락 일관성을 유지하기 위한 새로운 프레임워크인 ConsistRE를 소개합니다. ConsistRE는 외부 자원에서 방대한 코퍼스를 수집하고, 통계 알고리즘과 의미론을 사용하여 관계 인스턴스와 밀접하게 관련된 키워드 힌트를 식별하는 것으로 시작합니다. 그런 다음 이러한 키워드 힌트를 문장 생성 시 맥락적 제약으로 통합하여, LLM을 통해 관계 의존성과 다양성을 보장합니다. 추가적으로, 생성된 문장의 구문 구조를 강화하기 위해 구문 종속성 선택을 구현합니다. SemEval, TACRED, TACREV 데이터셋에 대한 평가 실험 결과, ConsistRE는 특히 저자원 실험 조건에서 F1 값에서 각각 1.76%, 3.92%, 2.53%로 다른 기준 모델들을 능가함을 명확히 입증했습니다.
Purpose Enhanced Reasoning through Iterative Prompting: Uncover Latent Robustness of ChatGPT on Code Comprehension
코드 주석은 코드 이해를 돕기 위해 심층적인 통찰을 얻는 데 매우 중요합니다. 이러한 통찰을 얻기 위한 핵심은 코드의 주요 목적을 정확하게 요약하는 데 있습니다. 최근 코드 주석 생성 방법은 특정 모델을 훈련하거나 미세 조정하는 대신 ChatGPT와 같은 대형 언어 모델(LLMs)을 활용한 프롬프트 방법에 중점을 두고 있습니다. ChatGPT는 코드 이해에 있어 인상적인 성능을 보이지만, 여전히 일관되게 높은 품질의 코드 주석을 생성하는 데 있어 견고성 문제를 겪고 있습니다. 이는 ChatGPT가 코드 토큰의 의미를 우선시하여, 변수 이름 교체와 같은 자주 발생하는 무해한 변형에 취약하기 때문입니다. 본 연구에서는 이러한 사소한 변형으로 인한 부정적인 영향을 효과적으로 완화하기 위해 모듈화된 프롬프트 패러다임인 Perthept를 제안합니다. Perthept는 코드의 주요 목적에 도달하기 위해 반복적으로 추론 깊이를 향상시킵니다. Perthept는 ChatGPT의 응답에서 발생할 수 있는 확률성 또는 신뢰성 부족 시나리오에서도 견고성을 입증합니다. 우리는 네 개의 공개 데이터셋에 걸쳐 포괄적인 평가를 수행하여, 다른 모델에 비해 우리의 제안된 방법론이 일관된 견고성 향상을 보여줌을 확인했습니다.
Innovative Directional Encoding in Speech Processing: Leveraging Spherical Harmonics Injection for Multi-Channel Speech Enhancement
멀티채널 음성 향상은 여러 마이크를 활용하여 배경 소음 속에서 목표 음성 신호를 추출하는 기술로, 방향 단서를 효과적으로 활용하는 것이 강력한 음성 향상을 위한 핵심입니다. 딥러닝이 멀티채널 음성 처리에 유망한 가능성을 보여주고 있지만, 대부분의 방법은 단기 푸리에 변환(STFT) 계수에 직접 작용합니다. 우리는 공간 분포를 간결하게 표현하는 구면 조화 변환(SHT) 계수를 모델의 보조 입력으로 사용하는 방법을 제안합니다. SHT는 다양한 수의 마이크로폰으로부터 신호를 일관된 차원의 계수로 변환할 수 있게 해줍니다. 이 기술은 특정 배열 레이아웃에 대해 특화된 모델을 요구하는 대신, 하나의 모델이 다양한 마이크 배열 구성에 대해 일반화할 수 있게 합니다. 우리는 SHT 기반 보조 입력을 사용하는 두 가지 아키텍처를 제시합니다: 병렬(parallel) 및 직렬(serial) 모델. 병렬 모델은 STFT와 SHT 각각에 대한 두 개의 인코더를 포함하며, 디코더에서 두 인코더의 출력을 융합하여 향상된 STFT를 추정함으로써 공간적 컨텍스트를 효과적으로 통합합니다. 직렬 접근 방식에서는 신호에 SHT를 먼저 적용한 후, 변환된 신호에 STFT를 적용하여 네트워크 입력으로 사용합니다. 변동하는 소음과 잔향 조건에서 TIMIT 데이터셋을 평가한 결과, 제안된 모델이 기존의 벤치마크를 능가하는 성능을 보여주었습니다. 특히, 이러한 결과는 계산량과 파라미터를 줄이면서 달성되었습니다. 또한, MS-SNSD 데이터셋에서의 실험은 제안된 방법이 네트워크의 일반화 능력을 향상시킬 수 있음을 보여줍니다. 소스 코드는 https://github.com/Pandade1997/SH_injection에서 공개되어 있습니다.
Contextualized Speech Recognition: Rethinking Second-Pass Rescoring with Generative Large Language Models
자동 음성 인식(ASR) 시스템은 최근 몇 년 동안 눈에 띄는 발전을 이루었습니다. 문맥화된 ASR 작업은 발화를 고립된 문장으로 인식하는 것이 아니라, 발생하는 더 넓은 문맥 내에서 인식하는 것을 요구합니다. 기존 접근법은 종종 초기 전사를 재순위하는 2차 패스 패러다임을 사용하지만, 이는 후보 가설 간의 오류를 전파하여 인식 정확도를 저하시킬 위험이 있습니다. 본 연구에서는 일반적인 2차 패스 재점수화 방법과는 다른 새로운 프레임워크를 소개합니다. n-best 가설을 제공받은 후, 우리는 대형 언어 모델을 활용한 프롬프트를 통해 문맥화된 2차 패스 생성을 수행합니다. 우리는 더 높은 정확성을 추구할 뿐만 아니라, 기본적으로 사전 학습된 음성 및 언어 모델을 크게 변경하지 않고 성능 한계를 탐구하고자 합니다. 제로샷 프롬프트와 전략적 저순위 적응 튜닝을 통해 제안된 패러다임의 효과를 조사했습니다. 다중 억양 음성 독해 벤치마크인 SQuAD-SRC에서 프롬프트를 활용한 모델과 미세 조정된 모델 모두 1-best ASR 가설을 능가하며, 각각 13.6%와 45.9%의 상대적 단어 오류율(WER) 개선을 달성했습니다. 이러한 결과는 제안된 접근법이 전사 정확도와 문맥 이해를 향상시킨다는 것을 시사합니다.
NegativePrompt: Leveraging Psychology for Large Language Models Enhancement via Negative Emotional Stimuli
대형 언어 모델(LLM)은 전통적인 컴퓨팅 작업부터 고급 인공지능(AI) 응용 프로그램에 이르기까지 다양한 분야에서 필수적인 역할을 하고 있습니다. 이러한 광범위한 채택은 사회 과학을 포함한 여러 학문 분야에서 LLM에 대한 광범위한 연구를 촉진했습니다. 특히, 연구들은 LLM이 감성 지능을 가지고 있으며, 긍정적인 감정 자극을 통해 이를 더욱 발전시킬 수 있음을 밝혀냈습니다. 이 발견은 부정적인 감정도 LLM에 유사한 영향을 미쳐 성능을 향상시킬 수 있는지에 대한 흥미로운 질문을 제기합니다. 이 질문에 답하기 위해, 우리는 심리학적 원칙에 기반한 10개의 특수 설계된 부정적 감정 자극을 포함하는 새로운 접근법인 NegativePrompt를 소개합니다. 우리는 FlanT5-Large, Vicuna, Llama 2, ChatGPT, GPT-4 등 5개의 LLM을 대상으로 45개의 작업 세트를 통해 엄격한 실험 평가를 수행했습니다. 그 결과는 매우 놀라웠습니다. NegativePrompt는 Instruction Induction 작업에서 12.89%, BIG-Bench 작업에서 46.25%의 상대적 향상을 통해 LLM의 성능을 크게 향상시켰습니다. 또한, NegativePrompt의 영향 메커니즘을 해석하기 위해 주의 시각화 실험을 수행했습니다. 우리의 연구는 LLM과 감정 상호작용에 대한 이해에 크게 기여하며, NegativePrompt가 감정 기반 방법으로서의 실질적인 효능을 입증하고 LLM의 성능을 실세계 응용에서 향상시킬 수 있는 새로운 통찰을 제공합니다. 코드 및 관련 자료는 https://github.com/wangxu0820/NegativePrompt에서 확인할 수 있습니다.
Decoupling Breaks Data Barriers: A Decoupled Pre-training Framework for Multi-intent Spoken Language Understanding
멀티 인텐트 음성 언어 이해(Multi-intent Spoken Language Understanding, Multi-intent SLU)는 단일 발화에서 여러 인텐트를 추출할 수 있으며, 이에 대한 관심이 점점 증가하고 있습니다. 그럼에도 불구하고, 현재의 멀티 인텐트 SLU 접근 방식은 여전히 대량의 주석된 멀티 인텐트 SLU 데이터에 크게 의존하고 있어, 충분한 데이터가 없는 실제 환경에서는 이를 충족시키기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 데이터 부족 문제를 해결하고, 풍부한 멀티 인텐트가 없는 SLU 데이터를 활용하여 멀티 인텐트 SLU를 강화할 수 있는 새로운 디커플드 사전 학습 프레임워크(Decoupled Pre-training Framework, DPF)를 소개합니다. 구체적으로, DPF는 멀티 인텐트 SLU 작업을 두 가지 능력으로 분리합니다: (1) 작업에 구애받지 않는 슬롯 엔티티 범위를 찾는 작업 비종속적(task-agnostic) 능력과 (2) 작업에 특화된 슬롯과 인텐트 레이블을 동시에 예측하는 작업 특화적(task-specific) 능력. DPF의 핵심 통찰은 이러한 분리가 대량의 멀티 인텐트가 없는 SLU 데이터(예: NER 및 단일 인텐트 SLU 데이터)를 사용하여 작업 비종속적 능력과 작업 특화적 능력을 각각 강화할 수 있는 두 단계의 디커플드 사전 학습 절차를 설계할 수 있다는 점입니다. MixATIS 및 MixSNIPS와 같은 두 개의 표준 벤치마크에서의 실험 결과, DPF가 우수한 성능을 달성함으로써 그 효과를 입증했습니다. 또한, 광범위한 분석을 통해 멀티 인텐트가 없는 데이터를 활용하는 것이 멀티 인텐트 SLU를 효과적으로 강화할 수 있음을 확인했습니다.
Improving Zero-Shot Cross-Lingual Transfer via Progressive Code-Switching
코드 스위칭(Code-switching)은 여러 언어의 단어를 소스 언어 텍스트에 섞어 사용하는 데이터 증강 기법입니다. 이 기법은 교차 언어적 맥락에서 단어 표현을 정렬하여, 교차 언어 전이 작업에서 상당한 일반화 성능을 달성했습니다. 그러나 통제되지 않거나 과도하게 대체된 코드 스위칭은 모델 학습에 불필요한 데이터를 증강시킬 수 있습니다. 즉, 지나치게 코드 스위칭된 텍스트 샘플은 모델의 교차 언어 전이 가능성에 부정적인 영향을 미칠 수 있습니다. 이를 해결하기 위해, 우리는 점진적 코드 스위칭(Progressive Code-Switching, PCS) 방법을 제안하여 모델이 쉬운 것에서 어려운 것으로 구분할 수 있도록 점차적으로 적절한 난이도의 코드 스위칭 예제를 생성합니다. 이 방법의 핵심은 쉽게 코드 스위칭된 데이터를 활용하여 이전에 학습한 다국어 지식을 점진적으로 포함시키고, 이를 통해 이후에 더 어려운 코드 스위칭 데이터에 대한 모델 최적화를 유도하는 것입니다. 구체적으로, 우리는 먼저 문장에서 각 단어를 대체할 때의 영향을 측정하기 위해 난이도 측정기를 설계합니다. 그런 다음, 코드 스위처는 제어 가능한 온도 변수를 사용하여 난이도가 점차 증가하는 코드 스위칭 데이터를 생성합니다. 추가적으로, 학습 스케줄러는 모델 학습을 위해 더 어려운 코드 스위칭 데이터를 언제 샘플링할지 결정합니다. 실험 결과, 우리의 모델은 10개 언어에 걸친 세 가지 다른 제로샷 교차 언어 전이 작업에서 최첨단 성과를 달성했습니다.
Position Debiasing Fine-Tuning for Causal Perception in Long-Term Dialogue
대화 시스템의 핵심은 광범위한 대화 기록을 바탕으로 관련성 있고, 정보 제공이 가능하며, 인간과 같은 응답을 생성하는 것입니다. 최근 대화 생성 분야에서는 발화 생성 능력이 뛰어난 대형 언어 모델(LLM)의 주류 채택이 이루어지고 있습니다. 그러나 이러한 모델에는 근본적인 위치 편향(position bias)이라는 자연스러운 결함이 존재하며, 이는 인과적으로 관련된 발화 대신 가까운 발화에 더 많은 주의를 기울이게 하여 장기 대화에서 관련성이 없고 일반적인 응답을 생성하는 결과를 초래할 수 있습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 'Causal Perception long-term Dialogue framework(CPD)'라는 새로운 방법을 제안합니다. 이 방법은 대화 기록에서 인과적으로 관련된 발화를 추출하기 위해 섭동 기반 인과 변수 발견 방법을 사용하며, 미세 조정 과정에서 모델의 인과 인식을 향상시킵니다. 구체적으로, CPD에서는 문장 간 위치 상관성을 제거하기 위한 'local-position awareness' 방법을 제안하여, 섭동을 기반으로 인과적으로 관련된 발화를 추출할 수 있도록 도와줍니다. 또한, 인과적으로 관련된 요소와 그렇지 않은 요소를 다르게 섭동하여 응답 생성을 위한 인과 인식 미세 조정 전략도 제안합니다. 두 개의 데이터셋에 대한 실험 결과, 제안된 방법이 여러 LLM에서 위치 편향을 효과적으로 완화하고 기존의 기준선 모델과 비교하여 유의미한 성과를 달성함을 입증했습니다.
Putting Back the Stops: Integrating Syntax with Neural Topic Models
구문(Syntax)과 의미(Semantics)는 언어 이해의 두 가지 핵심 개념입니다. 토픽 모델링(Topic Modeling)은 일반적으로 텍스트 코퍼스의 의미를 나타내며, 전처리 과정에서 구문 정보를 제거합니다. 전처리 없이 토픽을 생성하면 구문적 단어들이 생성된 토픽을 지배하게 되어 토픽 해석이 어려워집니다. 해석 가능한 토픽을 학습하면서도 유용한 구문 정보를 유지하기 위해, 우리는 전처리 없이 코퍼스로부터 구문적 및 의미적 토픽을 동시에 학습할 수 있는 새로운 프레임워크를 제안합니다. 이 프레임워크는 텍스트의 의존 관계를 활용하여 구문적 단어와 의미적 단어를 구별하는 컨텍스트 네트워크와 두 세트의 토픽을 학습하는 복합 VAE 토픽 모델로 구성됩니다. 우리는 7개의 데이터셋에서 제안된 방법이 코퍼스의 구문적 및 의미적 표현을 효과적으로 캡처하면서, 토픽의 품질 측면에서 최첨단 신경망 기반 토픽 모델과 통계적 토픽 모델을 능가함을 입증했습니다.
ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains
감정 생성 과정을 이해하는 것은 감정의 원인을 분석하는 데 중요한 역할을 합니다. 감정 이해 작업인 Causal Emotion Entailment (CEE)는 대화에서 특정 발화가 목표 감정 표현을 유발하는 원인 발화를 식별하는 것을 목표로 합니다. 그러나 현재 CEE에 대한 연구는 주로 대화에서의 의미적 및 감정적 상호작용을 모델링하는 데 중점을 두고 있으며, 감정 생성 과정을 탐구하는 데는 소홀합니다. 이는 모델이 감정을 깊이 이해하지 못하게 하며, 설명 가능한 예측을 생성하는 능력을 제한합니다.
이 연구에서는 인지 평가 이론의 "자극-평가-감정" 감정 생성 과정에 영감을 받아, 대화에서 목표 감정 표현으로부터 자극을 추론하는 단계별 추론 방법인 Emotion-Cause Reasoning Chain (ECR-Chain)을 도입합니다. 구체적으로, 우리는 먼저 ECR-Chain을 몇 가지 예시 프롬프트를 통해 ChatGPT에 소개하여 CEE 작업에서의 성능을 크게 향상시켰습니다. 또한, ChatGPT를 활용하여 ECR-Chain 세트를 자동으로 구축하는 방법을 제안하여, 더 작은 모델들이 지도 학습을 통해 추론 능력을 강화할 수 있도록 하고, Vicuna-7B 모델이 CEE에서 최신 성능을 달성할 수 있도록 지원했습니다.
더 나아가, 우리의 방법은 이러한 생성 언어 모델들이 설명 가능한 방식으로 감정-원인 추론을 효과적으로 수행할 수 있게 합니다. 코드, 데이터 및 자세한 내용은 https://github.com/hzp3517/ECR-Chain에서 확인할 수 있습니다.
Contrastive Representation Learning for Self-Supervised Taxonomy Completion
분류 체계 완성(Taxonomy completion)은 자기 지도 학습 과제로, 새로운 개념을 기존 분류 체계에 추가하여 적절한 상위어와 하위어 쌍에 연결하는 것을 목표로 합니다. 연구자들은 의미적 또는 구조적 정보를 사용하여 분류 체계에서 중요한 관계를 포착하기 위한 여러 접근법을 제안했지만, 대부분 단일 관점에서 훈련 신호를 생성하거나 단순히 무작위 샘플링 전략을 사용하여 다양한 분류 구조 내 관계를 포착하고 고품질 표현을 학습하는 데 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 다양한 관계를 포착하고 분류 체계 완성을 위한 표현을 개선하는 대조 학습 프레임워크인 CoSTC를 제안합니다. CoSTC는 두 가지 대조적 관점, 즉 동일 관점(intra-view)과 상호 관점(inter-view)을 사용하여 풍부한 자기 지도 신호를 제공합니다. 동일 관점 대조에서는 인스턴스 수준의 구별 작업을 수행하여 쿼리 내 및 위치 내의 상관관계를 활용합니다. 상호 관점 대조에서는 다양성과 난이도를 고려한 샘플링 전략을 사용하여 대표적인 쌍을 선택함으로써, 세밀한 쿼리-위치 관계 학습을 강화합니다. 세 가지 데이터셋에 대한 실험 결과, 우리의 접근법이 효과적임을 확인했습니다. 코드는 https://github.com/nyh-a/CoSTC 에서 확인할 수 있습니다.
Beyond What If: Advancing Counterfactual Text Generation with Structural Causal Modeling
이 논문은 반사실적(counterfactual) 탐구의 영역에서 구조적 인과 모델(SCM)을 활용한 텍스트 생성의 다목적 접근법을 소개하며, 전통적인 단일 인과 연구의 범위를 넘어 복잡하고 다층적인 관계를 포괄합니다. 우리는 텍스트 생성에서 이러한 복잡하고 다층적인 인과 관계를 포괄적으로 탐구하기 위해 구조적 인과 모델(SCM)에 기반한 일반화된 접근법을 도입했습니다. 이 방법은 일상적인 이야기에서부터 금융 보고서에 이르기까지 다양한 범위에서 복잡한 인과 상호작용을 처리하는 데 능숙합니다.
구체적으로, 우리의 방법은 텍스트의 각 구성 요소를 불변 요소와 변동 요소로 나타내는 잠재 변수 쌍으로 분리하는 것에서 시작합니다. 이후, 이러한 잠재 변수에 반사실적 개입을 적용하여 복잡한 인과 역학에 의해 영향을 받는 결과를 생성할 수 있습니다. 우리는 공개된 이야기 생성 데이터셋과 특별히 구성된 금융 도메인 데이터셋에서 광범위한 실험을 수행했습니다. 실험 결과, 우리의 접근법은 다양한 자동 및 인간 평가 기준에서 최신 성능을 달성했으며, 다양한 텍스트 생성 맥락에서 그 효과성과 다재다능함을 입증했습니다.
Generate Synthetic Text Approximating the Private Distribution with Differential Privacy
텍스트에서 민감한 정보가 유출될 가능성 때문에, 모델 훈련에 프라이버시를 보호하는 텍스트를 사용하는 것에 대한 사회적 요구가 증가하고 있습니다. 최근에는 차등 프라이버시를 적용한 합성 텍스트를 사용함으로써 개인 정보를 보호할 수 있다는 연구가 많이 이루어졌습니다. 그러나 합성 텍스트와 원본 개인 텍스트 간의 높은 의미적 유사성을 달성하는 문제는 충분히 연구되지 않았습니다. 본 논문에서는 유전 알고리즘의 반복 최적화 접근 방식을 결합하여 합성 텍스트의 분포를 개인 텍스트와 정렬시키는 방법을 제안합니다. 이 방법을 통해 최종 생성된 합성 텍스트는 프라이버시 보호 요구 사항을 충족할 뿐만 아니라 높은 수준의 품질을 유지합니다. 다양한 데이터셋에서 여러 기준과 비교를 통해, 우리는 우리의 합성 텍스트가 개인 텍스트의 유틸리티를 매우 가깝게 유지하면서도, 악의적인 사용자의 멤버십 추론 공격에 견딜 수 있을 만큼 강력한 프라이버시 보호 기준을 제공함을 입증했습니다.
MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge
대형 언어 모델(LLMs)은 다양한 분야에서 뛰어난 성과를 보여주었으며, MedQA와 같은 의료 평가 벤치마크에서도 주목할 만한 성과를 거두었습니다. 그러나 보고된 성능과 실제 의료 환경에서의 실질적인 효과성 사이에는 여전히 상당한 격차가 존재합니다. 이 논문에서는 다각적인 검사 체계를 통해 현재 LLM들이 실제로 의료 지식을 얼마나 잘 습득하고 있는지 체계적으로 탐구하여 이러한 격차의 원인을 분석하고자 합니다. 구체적으로, 우리는 LLM이 여러 측면(비교, 수정, 판별, 검증)에서 의료 지식을 인코딩하고 습득하는 정도와 범위를 동시에 평가할 수 있는 새로운 평가 프레임워크인 MultifacetEval을 개발했습니다.
MultifacetEval 프레임워크를 기반으로, 우리는 두 가지 다각적인 평가 데이터셋인 MultiDiseK(임상 질병 지식 베이스에서 질문을 생성하여 구성)과 MultiMedQA(MedQA의 각 질문을 다각적인 질문으로 다시 작성하여 구성)를 구축했습니다. 이러한 다각적인 데이터셋에 대한 실험 결과, 현재 LLM들이 의료 지식을 습득하는 정도는 기존 의료 벤치마크에서의 성능보다 훨씬 낮으며, 의료 지식을 습득하는 데 깊이, 정확성, 포괄성이 부족하다는 것을 시사합니다. 따라서 현재 LLM은 실제 의료 작업에 적용하기에는 아직 준비가 되어 있지 않다는 결론을 내릴 수 있습니다. 코드와 데이터셋은 https://github.com/THUMLP/MultifacetEval 에서 제공됩니다.
SEMANTIFY: Unveiling Memes with Robust Interpretability beyond Input Attribution
밈(Meme)은 처음에는 유머와 사회적 논평을 위한 목적으로 만들어졌지만, 이제는 공격적인 온라인 콘텐츠를 전달하는 플랫폼으로 변모했습니다. 이러한 콘텐츠를 감지하는 것은 매우 중요하지만, 기존의 심층 학습 기반 밈 공격성 분류기는 투명성이 부족하여 불투명한 블랙박스 시스템처럼 작동합니다. Integrated Gradient와 같은 입력 기여도 해석 방법이 존재하지만, 종종 불충분하고 관련 없는 키워드를 생성하는 경우가 많습니다. 이 격차를 해소하기 위해, 우리는 이론적으로 기반을 둔 다단계 필터링 프로세스를 특징으로 하는 새로운 시스템인 SEMANTIFY를 도입합니다. SEMANTIFY는 미리 정의된 어휘에서 의미 있는 "토큰"을 추출하여, 관련성 있고 포괄적인 해석 가능한 키워드 집합을 생성합니다. 이러한 추출된 키워드는 밈에 숨겨진 의미에 대한 모델의 인식을 드러내며, 투명성을 높입니다. 'leakage-adjusted simulatability'와 같은 해석 가능성 지표를 사용한 SEMANTIFY 평가에서는 다양한 기준을 최대 2.5점까지 능가하는 우수한 성과를 보였습니다. 추출된 키워드의 '관련성'과 '포괄성'에 대한 인간 평가도 그 효과를 추가로 입증했습니다. 또한, 추출된 키워드의 질적 분석은 사례 연구로 활용되어 모델 오류 사례와 그 원인을 밝혀냅니다. SEMANTIFY는 밈 공격성 감지를 위한 더 해석 가능한 멀티모달 시스템의 발전에 기여하며, 실제 응용에 대한 신뢰를 증진시킵니다.
ADELT: Transpilation between Deep Learning Frameworks
우리는 심층 학습 프레임워크 간의 소스-소스 트랜스파일을 위한 새로운 접근 방식인 Adversarial DEep Learning Transpiler(ADELT)을 제안합니다. ADELT는 코드 스켈레톤 트랜스파일과 API 키워드 매핑을 독특하게 분리합니다. 코드 스켈레톤 트랜스파일의 경우, 대형 언어 모델(LLM)에서 몇 샷 프롬프트를 사용하며, API 키워드 매핑의 경우, 코드 전용 BERT에서 문맥적 임베딩을 사용합니다. 이러한 임베딩은 도메인 적대적 설정에서 훈련되어 키워드 번역 사전을 생성합니다. ADELT는 손으로 작성된 규칙이나 병렬 데이터에 의존하지 않고, 라벨이 없는 웹 크롤링된 심층 학습 코퍼스에서 훈련됩니다. 이 시스템은 PyTorch-Keras 및 PyTorch-MXNet 트랜스파일 페어에 대해 pass@1 비율을 각각 16.2점과 15.0점 향상시키며, 최신 트랜스파일러보다 우수한 성능을 보입니다. 우리는 ADELT의 코드를 https://github.com/gonglinyuan/adelt 에서 공개적으로 제공하고 있습니다.
Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning
공간적 추론은 인간 인지와 기계 지능 모두에서 중요한 역할을 하며, 이와 관련된 언어 모델(LM)의 능력에 대한 새로운 연구를 촉진하고 있습니다. 그러나 기존의 벤치마크는 질적 공간적 추론(QSR)을 평가하는 데 있어서 한계를 드러내고 있습니다. 이러한 벤치마크는 보통 지나치게 단순화된 시나리오나 불명확한 자연어 설명을 제공하여 효과적인 평가를 방해합니다.
우리는 현실적인 3D 시뮬레이션 데이터를 기반으로 하여, 다양한 물체와 그들의 공간적 관계를 포함하는 여러 방의 레이아웃을 제시하는 새로운 QSR 평가 벤치마크를 제안합니다. 이 접근법은 기존의 장난감 작업 중심 시나리오와는 달리, 보다 세부적이고 문맥이 풍부한 서사를 통해 공간적 추론을 평가합니다. 우리의 벤치마크는 위상 관계, 방향 관계, 거리 관계 등을 포함한 광범위한 질적 공간적 관계를 포괄하며, 다양한 시점, 세분화 수준, 관계 제약의 밀도를 통해 현실 세계의 복잡성을 모방합니다.
주요 기여 중 하나는 논리 기반의 일관성 검사 도구를 통해 다수의 타당한 해법을 평가할 수 있게 하는 것입니다. 이는 공간적 관계가 종종 해석의 여지가 있는 현실 시나리오와 일치합니다. 고급 LMs에 대한 우리의 벤치마크 평가 결과, 이들이 공간적 추론에서의 강점과 한계를 보여주었습니다. 특히 다중 단계의 공간적 추론과 다양한 시점 설명을 혼합하여 해석하는 데 어려움을 겪고 있으며, 이는 향후 개선이 필요한 영역임을 시사합니다.
LocMoE: A Low-overhead MoE for Large Language Model Training
Mixtures-of-Experts (MoE) 모델은 대형 언어 모델(LLM)을 위한 널리 사용되는 분산 및 통합 학습 방법으로, 모델을 효율적으로 희소화하고 확장할 수 있는 능력 덕분에 선호됩니다. 그러나 MoE의 성능은 부하 불균형과 All-to-All 통신의 높은 지연 시간, 그리고 대규모 전문가 용량으로 인한 상대적으로 불필요한 계산으로 인해 제한됩니다. 부하 불균형은 특정 전문가를 지속적으로 선택하는 기존 라우팅 정책에서 발생할 수 있습니다. 또한, All-to-All 절차에서의 빈번한 노드 간 통신은 훈련 시간을 크게 연장시킵니다. 이러한 성능 문제를 완화하기 위해, 우리는 부하 균형과 로컬리티를 결합하여 일부 노드 간 통신을 노드 내 통신으로 변환하는 새로운 라우팅 전략을 제안합니다. 특히, 우리는 전문가 용량의 최소 임계값이 있으며, 이는 전문가의 게이팅 가중치와 할당된 토큰 간의 최대 각도 편차를 통해 계산된다는 것을 설명합니다. 우리는 이러한 수정 사항을 MindSpore 프레임워크 기반의 PanGu-Σ 모델에 다단계 라우팅을 적용하여 Ascend 클러스터에서 실험을 수행했습니다. 실험 결과, 제안된 LocMoE는 모델 정확도에 영향을 미치지 않으면서도, 해시 라우터나 스위치 라우터와 같은 기존 라우터에 비해 에폭당 훈련 시간을 12.68%에서 22.24%까지 단축시켰음을 입증했습니다.
MEDVOC: Vocabulary Adaptation for Fine-tuning Pre-trained Language Models on Medical Text Summarization
이 연구는 BERTSumAbs, BART, PEGASUS와 같은 사전 학습된 언어 모델(PLM)을 의료 텍스트 요약에 맞게 미세 조정하기 위한 동적 어휘 적응 전략인 MEDVOC을 제안합니다. 기존의 요약 도메인 적응 접근법과 달리, MEDVOC은 어휘를 최적화 가능한 매개변수로 간주하고, 다운스트림 작업의 참조 요약에만 조건화된 프래그먼트 점수를 기반으로 PLM 어휘를 최적화합니다. 이전의 어휘 적응 작업(주로 분류 작업에만 제한됨)과 달리, 요약 작업을 기반으로 어휘를 최적화하는 것은 대규모 요약 데이터셋에 대한 매우 비용이 많이 드는 중간 미세 조정 단계가 필요합니다. 이를 해결하기 위해, 우리의 새로운 프래그먼트 점수 기반 하이퍼파라미터 검색은 이 미세 조정 시간을 크게 줄여주며, 평균적으로 450일에서 2일 미만으로 단축합니다.
게다가, 이전의 어휘 적응 연구가 주로 단일 PLM에 국한되는 경우가 많은 반면, MEDVOC은 다양한 모델 어휘 크기, 사전 학습 목표 및 모델 크기를 가진 여러 PLM에 배포할 수 있도록 설계되어 있습니다. 이는 생물의학 문헌 도메인과 PLM 간의 제한된 어휘 격차를 해소하는 데 기여합니다. MEDVOC은 제로샷 설정에서 Rouge-L 기준으로 15.74%의 성능 향상을 보였으며, 높은 OOV(Out-Of-Vocabulary) 비율에서 17.29%의 성능 향상을 보여줍니다. 인간 평가에서도 MEDVOC은 더 신뢰할 수 있는 의료 요약을 생성한다는 것이 입증되었으며(88% vs. 59% 비교), 우리는 코드를 공개적으로 사용할 수 있도록 https://github.com/gb-kgp/MEDVOC 에서 제공하고 있습니다.
Continual Multimodal Knowledge Graph Construction
현재의 멀티모달 지식 그래프 구축(MKGC) 모델들은 지속적으로 등장하는 엔티티와 관계의 실세계 동적 특성에 적응하는 데 어려움을 겪으며, 종종 기존에 습득한 지식을 잃는 급격한 망각 문제에 직면합니다. 본 연구에서는 지속적인 MKGC 분야의 발전을 촉진하기 위한 벤치마크를 소개합니다. 또한, 멀티미디어 데이터 처리 과정에서 기존 MKGC 접근법의 단점을 극복하기 위해 설계된 MSPT 프레임워크를 제안합니다. MSPT는 학습된 지식의 유지(안정성)와 새로운 데이터의 통합(가소성)을 조화롭게 균형을 이루며, 현재의 지속적 학습 및 멀티모달 방법들을 능가하는 성능을 보입니다. 실험 결과, MSPT는 진화하는 지식 환경에서 우수한 성능을 보여주며, 안정성과 가소성 간의 균형을 잘 유지하는 능력을 입증했습니다.
반응형'Seminar > IJCAI 2024' 카테고리의 다른 글
Knowledge Representation and Reasoning (1) 2024.08.13 Data Mining (0) 2024.08.13 On the Effects of Fairness to Adversarial Vulnerability (0) 2024.08.13 SwiftThief: Enhancing Query Efficiency of Model Stealing by Contrastive Learning (0) 2024.08.13