ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • nlp2
    New 2024. 8. 22. 10:07
    반응형

    Two-stage Semi-supervised Speaker Recognition with Gated Label Learning

    스피커 인식 기술은 딥러닝의 발전 덕분에 다양한 분야에서 성공적으로 적용되고 있습니다. 그럼에도 불구하고, 현재의 연구는 여전히 라벨링된 데이터의 부족 문제에 직면해 있습니다. 이러한 문제는 컴퓨터 비전 분야에서 반라벨 학습(SSL)을 통해 해결하려는 시도가 있었는데, 이는 라벨이 없는 데이터에 가짜 라벨을 할당하여 라벨이 있는 데이터의 역할을 수행하도록 합니다. 그러나 우리의 경험적 평가에 따르면, 최첨단 SSL 방법들은 스피커 인식 작업에서 가짜 라벨의 양과 질 사이의 불균형으로 인해 만족스럽지 못한 성능을 보였습니다. 따라서 이 연구에서는 데이터 부족 문제를 해결하기 위한 두 단계의 SSL 프레임워크를 제안합니다. 먼저, 초기 대조 학습 네트워크를 구축하여 인코더가 발화의 임베딩 표현을 출력하도록 합니다. 그 후, 클러스터링 전략을 통해 가짜 라벨을 할당하고, 신뢰할 수 있는 가짜 라벨 데이터를 선택하기 위해 게이트된 라벨 학습(GLL) 전략을 포함하는 반복적 전체론적 반라벨 학습 네트워크를 구축합니다. 체계적인 평가를 통해 제안된 프레임워크가 스피커 인식에서 최첨단 방법보다 우수한 성능을 발휘하며, 감독 학습의 성능에 필적하는 결과를 보여줍니다.

     

    InstructEdit: Instruction-Based Knowledge Editing for Large Language Models

    대규모 언어 모델의 지식 편집은 전체 성능에 부정적인 영향을 미치지 않으면서 모델의 행동을 변경할 수 있는 효율적인 해결책을 제공할 수 있습니다. 그러나 현재의 접근 방식은 작업 간 일반화 가능성이 제한적이어서 각 작업마다 별도의 편집기가 필요하기 때문에 더 넓은 응용을 크게 방해하는 문제에 직면합니다. 이를 해결하기 위해 우리는 지식 편집에서의 다중 작업 일반화 문제를 분석하는 첫 단계를 밟았습니다.

    구체적으로, 우리는 InstructEdit라고 하는 지시 기반 편집 기술을 개발했습니다. 이 기술은 간단한 지시를 사용하여 편집기가 동시에 다양한 작업 성능에 적응할 수 있도록 합니다. 각 LLM에 대해 하나의 통합된 편집기만으로, InstructEdit가 편집기의 제어를 향상시켜 다중 작업 편집 환경에서 평균 14.86%의 신뢰성 증가를 이끌어낼 수 있음을 경험적으로 입증했습니다. 더욱이 보류된 미지의 작업을 포함한 실험에서 InstructEdit는 이전의 강력한 기준선들을 일관되게 능가합니다.

    지시 기반 지식 편집의 근본적인 메커니즘을 더 깊이 조사하기 위해, 우리는 편집 그래디언트 방향의 주요 구성 요소를 분석했습니다. 이를 통해 지시가 더 강력한 OOD(Out-of-Distribution) 일반화와 함께 최적화 방향을 제어하는 데 도움이 될 수 있음이 밝혀졌습니다.

     

     

    Domain-Hierarchy Adaptation via Chain of Iterative Reasoning for Few-shot Hierarchical Text Classification

    최근 다양한 사전 훈련된 언어 모델(PLM)들이 제안되어 광범위한 적은 샷(few-shot) 작업에서 인상적인 성능을 보여주고 있습니다. 그러나 PLM의 비구조화된 사전 지식의 한계로 인해, 특히 다운스트림 데이터가 극히 부족할 때 계층적 텍스트 분류(HTC)와 같은 복잡한 구조화된 시나리오에서 일관된 성능을 유지하기 어렵습니다. 주요 과제는 PLM의 비구조화된 의미 공간을 다운스트림 도메인 계층 구조로 어떻게 전이하느냐입니다.

    다중 레이블 분류를 직접 수행하거나 그래프 신경망(GNN)을 사용하여 레이블 계층 구조를 주입하는 기존의 HTC 연구와 달리, 본 연구에서는 PLM의 지식을 비구조화된 방식에서 다운스트림 계층 구조로 적응시키기 위해 적은 샷 설정에서의 HTC 문제를 연구합니다.

    기술적으로, 우리는 계층적 반복 조건부 랜덤 필드(HierICRF)라는 간단하면서도 효과적인 방법을 설계했습니다. 이 방법은 가장 도전적인 도메인 방향을 탐색하고, 도메인-계층 구조 적응을 계층적 반복 언어 모델링 문제로 정교하게 구성합니다. 그런 다음 추론 과정에서 모델이 계층적 일관성 자기 수정을 수행하도록 장려함으로써 계층적 일관성을 유지하면서 지식 전이를 달성합니다.

    우리는 다양한 아키텍처에서 HierICRF를 수행했으며, 두 개의 인기 있는 HTC 데이터셋에 대한 광범위한 실험을 통해 HierICRF를 사용한 프롬프트가 적은 샷 설정에서 이전 최첨단(SOTA) 기준선에 비해 평균 Micro-F1을 28.80%에서 1.50%까지, Macro-F1을 36.29%에서 1.5%까지 크게 향상시키면서도 SOTA 계층적 일관성 성능을 유지함을 보여줍니다.

     

    Recall, Retrieve and Reason: Towards Better In-Context Relation Extraction

    관계 추출(RE)은 텍스트에 언급된 엔티티 간의 관계를 식별하는 것을 목표로 합니다. 대형 언어 모델(LLMs)이 다양한 작업에서 뛰어난 맥락 학습(ICL) 능력을 보여주었지만, 대부분의 감독 학습 기반의 미세 조정된 RE 방법들에 비해 여전히 성능이 부족합니다. LLMs를 사용한 RE에서 ICL을 활용하는 데에는 두 가지 과제가 있습니다: (1) 훈련 예제에서 적절한 데모를 검색하는 것, (2) LLM이 RE에서 강력한 ICL 능력을 발휘하게 하는 것. 한편, RE에서 적절한 데모를 검색하는 것은 엔티티와 관계에 대한 관련성이 낮아지기 쉬운 비직관적인 과정입니다. 다른 한편으로, RE는 본질적으로 언어 모델링과 다르기 때문에 LLM이 충분히 크지 않은 경우 ICL을 통한 성능이 저조하게 나타납니다. 이 연구에서는 LLM을 검색 코퍼스(훈련 예제)와 결합하여 관련성 높은 검색과 신뢰할 수 있는 맥락 내 추론을 가능하게 하는 새로운 회상-검색-추론 RE 프레임워크를 제안합니다. 구체적으로, 훈련 데이터셋에서 일관된 온톨로지 지식을 추출하여, LLM이 검색 코퍼스에 기반한 관련성 높은 엔티티 쌍을 생성하도록 합니다. 이 엔티티 쌍은 LLM이 더 나은 ICL을 수행할 수 있도록 인스트럭션 튜닝을 통해 데모로 사용하기 위해 검색 코퍼스에서 관련 훈련 예제를 검색하는 데 사용됩니다. 다양한 LLM과 RE 데이터셋에 대한 광범위한 실험을 통해, 제안된 방법이 관련성 높고 유효한 엔티티 쌍을 생성하며, LLM의 ICL 능력을 향상시켜 이전의 감독 학습 기반 미세 조정 방법과 ICL 기반 방법에 비해 문장 수준 RE에서 경쟁력 있는 성능 또는 새로운 최첨단 성능을 달성함을 입증합니다.

     

     

    TFCD: Towards Multi-modal Sarcasm Detection via Training-Free Counterfactual Debiasing

    다중 모달 풍자 탐지(MSD)는 다중 모달 정보(즉, 텍스트와 이미지)가 포함된 주어진 샘플이 풍자적인지 여부를 식별하는 것을 목표로 하며, 널리 주목받고 있습니다. 최근의 접근 방식들은 전체 또는 지역적 이미지 및 텍스트 특징에서 풍자적 단서를 추출하기 위해 정교한 아키텍처나 메커니즘을 설계하는 데 집중하고 있습니다. 그러나 오랫동안 간과된 문제는 현재의 MSD 작업이 의도치 않은 데이터셋 편향, 특히 통계적 레이블 편향과 풍자 없는 단어 편향으로 인해 불가피하게 고통받고 있다는 점입니다.

    구체적으로, 이러한 해로운 편향들은 기존 모델들이 가짜 상관관계를 학습하도록 오도할 수 있는 혼란 변수로, 모델의 성능을 크게 제한합니다. 이 문제를 해결하기 위해, 본 논문은 훈련 없는 반사실적 편향 제거 프레임워크인 TFCD를 제안합니다. TFCD는 먼저 맞춤형 인과 그래프를 통해 MSD의 변수들 간의 인과관계를 공식화합니다. 그런 다음 TFCD는 반사실적 발화와 맥락을 생성하여 기존 훈련된 모델에서 편향을 추출하고, 요소별 뺄셈을 사용하여 이를 완화합니다.

    두 개의 벤치마크에 대한 광범위한 실험은 제안된 TFCD의 효과를 입증합니다. 주목할 만한 점은 TFCD가 데이터 균형이나 모델 수정을 필요로 하지 않으므로 다양한 최첨단 접근 방식에 원활하게 통합될 수 있고 상당한 개선 마진을 달성할 수 있다는 것입니다.

     

     

    MMVQA: A Comprehensive Dataset for Investigating Multipage Multimodal Information Retrieval in PDF-based Visual Question Answering

    문서 질문 응답(QA)은 특히 긴 텍스트 콘텐츠를 가진 시각적으로 풍부한 문서(VRD)를 이해하는 데 있어 도전 과제를 제시합니다. 기존 연구는 주로 텍스트가 적은 실제 문서에 중점을 두고 있지만, 다중 페이지 간의 계층적 의미 관계를 이해하고 멀티모달 구성 요소를 찾는 데 여전히 어려움이 있습니다. 이 논문에서는 다중 페이지와 멀티모달 검색을 포함한 연구 저널 기사를 위한 데이터셋인 MMVQA를 소개합니다. 우리의 접근법은 답변이 포함된 전체 단락이나 표나 그림과 같은 시각적으로 풍부한 문서 엔티티를 검색하는 것을 목표로 합니다. 주요 기여는 텍스트 중심 문서의 의미적으로 계층화된 레이아웃 구조를 검토할 수 있는 포괄적인 PDF 문서 VQA 데이터셋을 소개하는 것입니다. 또한, 문서 레이아웃 간의 관계를 동시에 파악하고 페이지 수준의 이해를 다중 페이지 문서 전체로 확장하기 위한 새로운 VRD-QA 프레임워크를 제시합니다. 우리는 VRD-QA에서 텍스트 중심 문서가 제기하는 문제를 처리하는 데 있어 기존 비전-언어 모델의 역량을 강화하는 것을 목표로 합니다. 코드와 부록은 https://github.com/adlnlp/pdfmvqa에서 확인할 수 있습니다.

     

     

    Joint Multimodal Aspect Sentiment Analysis with Aspect Enhancement and Syntactic Adaptive Learning

     

    감정 분석에서 중요한 작업인 공동 멀티모달 측면 감정 분석(Joint Multimodal Aspect Sentiment Analysis, JMASA)은 최근 몇 년간 많은 주목을 받고 있습니다. 그러나 기존 접근 방식들은 다음과 같은 한계가 있었습니다: i) 멀티모달 입력 데이터 간의 상관관계를 충분히 활용하지 않고 멀티모달 데이터를 직접 융합하거나, ii) 텍스트 내 단어의 의존성을 감정 분석에 동일하게 활용하여, 다른 단어들의 중요도 차이를 무시하는 것입니다.

    이러한 한계를 해결하기 위해, 우리는 측면 강화 및 구문 적응 학습(Aspect Enhancement and Syntactic Adaptive Learning, AESAL)에 기반한 공동 멀티모달 감정 분석 방법을 제안합니다. 구체적으로, 모델이 멀티모달 입력 데이터 간의 측면 상관관계를 충분히 학습할 수 있도록 측면 강화 사전 학습 과제를 구성했습니다. 또한, 텍스트 내 단어들의 중요도 차이를 포착하기 위해 구문 적응 학습 메커니즘을 설계했습니다. 먼저, 단어 간의 거리에 기반한 다양한 구문 의존성 그래프를 구성하여 텍스트의 글로벌 및 로컬 정보를 학습합니다. 둘째, 다중 채널 적응 그래프 합성곱 신경망(multi-channel adaptive graph convolutional network)을 사용하여 각 모달리티의 고유성을 유지하면서도 다른 모달리티 간의 상관관계를 융합합니다.

    벤치마크 데이터셋에서의 실험 결과, 우리의 방법이 기존 최첨단 방법들보다 뛰어난 성능을 보임을 입증했습니다.

     

    PEACH: Pretrained-Embedding Explanation across Contextual and Hierarchical Structure

     

    PEACH(Pretrained-embedding Explanation Across Contextual and Hierarchical Structure)은 텍스트 기반 문서가 어떻게 분류되는지를 설명할 수 있는 기법으로, 모든 사전 학습된 컨텍스트 임베딩을 사용하여 트리 기반의 사람이 이해할 수 있는 방식으로 설명할 수 있습니다. PEACH는 결정 트리를 학습하기 위한 입력으로 어떤 프리트레인된 언어 모델(PLM)의 컨텍스트 임베딩도 채택할 수 있습니다. 제안된 PEACH를 사용하여, 우리는 아홉 가지의 다양한 NLP 텍스트 분류 벤치마크에서 여러 컨텍스트 임베딩에 대한 포괄적인 분석을 수행했습니다. 이 분석은 여러 PLM 컨텍스트 임베딩을 적용하는 모델의 유연성, 속성 선택, 스케일링 및 클러스터링 방법을 보여줍니다.

    또한, 우리는 PEACH가 사람이 이해할 수 있는 워드 클라우드 기반 트리를 통해 특성 선택과 텍스트 분류의 중요한 경향을 시각화하여 설명의 유용성을 입증합니다. 이 방법은 모델의 실수를 명확하게 식별하고 데이터셋 디버깅에 도움을 줍니다. 해석 가능성 외에도, PEACH는 사전 학습된 모델과 비교하여 유사하거나 더 나은 성능을 보입니다. 코드는 https://github.com/adlnlp/peach에서 확인할 수 있습니다.

     

    Incorporating Schema-Aware Description into Document-Level Event Extraction

     

    문서 수준 이벤트 추출(Document-level Event Extraction, DEE)은 주어진 문서에서 구조화된 이벤트 정보를 추출하는 작업으로, 두 가지 주요 도전 과제에 직면하고 있습니다: (1) 이벤트 인수(arguments)가 항상 여러 문장에 흩어져 있다는 점(인수 분산); (2) 하나의 문서에 여러 이벤트가 동시에 발생할 수 있다는 점(다중 이벤트). 최근 연구들은 이러한 도전 과제를 완화하기 위해 두 가지 단순화된 설정을 주로 따릅니다: 하나는 트리거 단어를 사용하지 않는 디자인(NDEE)을 통해 DEE를 단순화하며, 다른 하나는 DEE의 하위 작업인 이벤트 인수 추출(DEAE)에 중점을 둡니다. 그러나 전자는 트리거 추출을 제외하여 하위 작업에서 오류 전파의 문제를 겪고, 후자는 금 트리거(gold triggers)에 크게 의존하여 서로 다른 이벤트에서 동일한 역할을 하는 여러 인수를 구분하는 데 어려움을 겪습니다.

    이러한 한계점을 해결하기 위해, 우리는 SchEmaawarE 설명을 문서 수준 이벤트 추출에 통합하여 DEE 모델을 강화하는 새로운 트리거 및 인수 추출 패러다임인 SEELE을 제안합니다. 구체적으로, 스키마 인식 설명(schema-aware descriptions)은 두 가지 측면에서 활용됩니다: (1) 이벤트 인식 토큰들 간의 주의 메커니즘을 안내하여 오류 전파 없이 인수 분산 문제를 완화; (2) 금 트리거 없이도 서로 다른 이벤트를 구분할 수 있는 세밀한 대비 학습(contrastive learning)을 수행하여 다중 이벤트 문제를 완화합니다. 광범위한 실험 결과, SEELE이 세 가지 NDEE 데이터셋에서 2.1%에서 9.7%까지의 F1 점수 향상을 달성하며, 두 가지 DEAE 데이터셋에서도 경쟁력 있는 성능을 보여주었음을 입증했습니다. 우리의 코드는 https://github.com/TheoryRhapsody/SEELE에서 확인할 수 있습니다.

     

    Vision-fused Attack: Advancing Aggressive and Stealthy Adversarial Text against Neural Machine Translation

     

    신경 기계 번역(NMT) 모델은 일상생활에서 성공적으로 사용되고 있지만, 적대적 공격에 취약한 모습을 보입니다. 이러한 공격은 해로울 수 있지만, NMT 모델을 해석하고 개선하는 데도 도움을 줄 수 있어 연구자들의 관심이 증가하고 있습니다. 그러나 기존의 적대적 공격 연구는 언어의 범위에만 집중하기 때문에 공격 능력과 인간이 인지하지 못하는 속성(human imperceptibility) 모두에서 부족한 점이 있습니다.

    본 논문에서는 더 강력하고 은밀한 적대적 텍스트를 획득하기 위한 새로운 비전 융합 공격(VFA) 프레임워크를 제안합니다. 공격 능력 측면에서는, 제한된 의미적 해결 공간을 확장하기 위해 비전 통합 솔루션 공간 향상 전략을 설계하여, 공격 능력이 높은 적대적 후보를 탐색할 수 있게 합니다. 인간이 인지하지 못하는 속성 측면에서는, 인간의 텍스트 읽기 메커니즘에 맞춰 적대적 텍스트를 선택하는 전략을 제안합니다. 따라서 최종적으로 선택된 적대적 텍스트는 더 기만적일 수 있습니다.

    LLaMA와 GPT-3.5와 같은 대형 언어 모델(LLMs)을 포함한 다양한 모델에 대한 광범위한 실험 결과, VFA가 비교 방법들에 비해 큰 차이로 우수한 성능을 보임을 강력히 뒷받침합니다(ASR/SSIM에서 최대 81%/14%의 개선).

    반응형

    'New' 카테고리의 다른 글

    법률 LLM  (1) 2024.09.10
    nlp6  (0) 2024.08.22
    nlp5  (0) 2024.08.22
    nlp4  (1) 2024.08.22
    nlp3  (0) 2024.08.22
Designed by Tistory.