ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • nlp3
    New 2024. 8. 22. 10:11
    반응형

    Attention Based Document-level Relation Extraction with None Class Ranking Loss

     

    문서 수준 관계 추출(Document-level Relation Extraction, RE)을 통해 텍스트 내 엔터티 간의 전반적인 관계를 분석할 수 있으며, 보다 포괄적이고 정확한 의미 정보를 얻을 수 있습니다. 문서 수준 RE에서는 모델이 서로 다른 문장에 있는 두 엔터티 간의 암묵적인 관계를 추론해야 합니다. 더 많은 의미 정보를 얻기 위해, 기존 방법들은 주로 엔터티 표현을 탐구하는 데 초점을 맞추지만, 관계, 엔터티 및 문맥 간의 상관성과 불가분성을 간과합니다. 또한, 현재의 방법들은 "관계 없음"이라는 경우를 무시하고 미리 정의된 관계만을 독립적으로 추정하여 예측 성능이 저하되는 문제를 가지고 있습니다.

    이러한 문제를 해결하기 위해, 우리는 "관계 없음" 경우를 고려한 주의 메커니즘(attention mechanisms) 기반의 문서 수준 RE 방법을 제안합니다. 구체적으로, 이 접근법은 그래프 어텐션과 다중 헤드 어텐션 네트워크를 활용하여 관계, 엔터티 및 문맥 간의 상관성과 불가분성을 각각 포착합니다. 추가적으로, 각 미리 정의된 클래스와 "관계 없음" 클래스 간의 라벨 신뢰도 점수에서 큰 마진을 촉진하는 새로운 다중 라벨 손실 함수(multi-label loss function)를 적용하여 예측 성능을 향상시킵니다. 벤치마크 데이터셋에서 수행된 광범위한 실험 결과, 제안된 방법이 기존 최첨단 기준 모델들보다 더 높은 정확도로 성능을 능가함을 입증했습니다.

     

    Learning Label Dependencies for Visual Information Extraction

     

     

    시각적 정보 추출(Visual Information Extraction, VIE)은 시각적으로 풍부한 문서 이미지에서 구조화된 정보를 추출하는 것을 목표로 하며, 문서 이해와 관련된 다양한 응용 분야에서 큰 주목을 받고 있습니다. 그러나 이전 방법들은 VIE 작업을 주로 시퀀스 라벨링 문제로 취급하며, 시퀀스 내 라벨 간의 상관관계를 무시하여 성능이 크게 저하될 수 있습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 라벨 상관관계의 잠재력을 활용하여 VIE 모델의 성능을 향상시키는 새로운 프레임워크를 제안합니다.

    이 프레임워크의 핵심 아이디어는 엔티티의 라벨 의존성을 학습하여 라벨 시퀀스를 정규화하는 것입니다. 구체적으로, 엔티티의 라벨 의존성을 포착하기 위해 라벨 트랜스포머(label transformer)를 사전 학습시켜, 문서 레이아웃의 라벨 패턴을 준수하는 라벨 시퀀스에 더 높은 가능성을 부여합니다. 테스트 단계에서는, 라벨 트랜스포머에 의해 평가된 라벨 시퀀스의 가능성뿐만 아니라 각 엔티티의 특징을 고려하여 라벨 시퀀스를 예측하는 추론 트랜스포머(inference transformer)가 사용됩니다.

    우리의 프레임워크는 LayoutLM, GeoLayoutLM과 같은 기존의 인기 있는 VIE 모델과 결합할 수 있습니다. 공개 데이터셋에 대한 광범위한 실험을 통해 우리의 프레임워크가 효과적임을 입증하였습니다.

     

    KG-CoT: Chain-of-Thought Prompting of Large Language Models over Knowledge Graphs for Knowledge-Aware Question Answering

     

    대형 언어 모델(LLMs)은 지식 집약적인 작업에서 환각(hallucination)과 사실 오류와 같은 문제에 직면하고 있습니다. 한편으로는, LLM이 신뢰할 수 있는 지식을 바탕으로 신뢰할 수 있는 답변을 생성하는 데 어려움을 겪을 때가 있습니다. 이는 책임 있는 지식이 부족하기 때문입니다. 또한, 지식 검색기(knowledge retrievers)가 추출한 단편적인 지식 사실들은 명확하고 일관된 추론 경로를 제공하지 못하여 LLM의 추론 능력을 개선하는 데 한계가 있습니다.

    이러한 문제를 해결하기 위해, 우리는 KG-CoT라는 새로운 지식 강화 패러다임을 제안합니다. KG-CoT는 소규모 단계별 그래프 추론 모델을 활용하여 지식 그래프(KGs) 위에서 추론을 수행하고, 고신뢰도의 지식 체인을 생성하기 위한 추론 경로 생성 방법을 사용하여 대형 LLM에 도움을 줍니다. 광범위한 실험을 통해 KG-CoT가 멀티홉, 싱글홉, 오픈 도메인 질문 응답 벤치마크와 같은 지식 집약적인 질문 응답 작업에서 LLM의 성능을 크게 향상시킨다는 것을 입증했습니다. 더욱이, KG-CoT는 API 호출 수와 비용을 줄일 수 있으며, 경량의 플러그 앤 플레이 방식으로 다양한 LLM에 적용할 수 있는 일반화 능력을 가지고 있습니다.

     

    Learning to Solve Geometry Problems via Simulating Human Dual-Reasoning Process

     

    기하학 문제 해결(Geometry Problem Solving, GPS)은 고전적이고 도전적인 수학 문제로, 최근 몇 년간 많은 주목을 받아왔습니다. GPS는 해결자가 텍스트와 다이어그램을 종합적으로 이해하고, 필수적인 기하학 지식을 습득하며, 이를 추론에 적절히 적용하는 능력을 요구합니다. 그러나 기존 연구들은 신경 기계 번역(paradigm of neural machine translation) 패러다임을 따르며, 인코더의 능력을 향상시키는 것에만 초점을 맞추어 인간의 기하학적 추론의 본질적인 특성을 간과하고 있습니다.

    이 논문에서는 이중 과정 이론(dual-process theory)에서 영감을 받아, GPS에 대한 인간의 이중 추론 과정을 시뮬레이션하기 위해 Dual-Reasoning Geometry Solver (DualGeoSolver)를 제안합니다. 구체적으로, DualGeoSolver에는 두 가지 시스템, 즉 지식 시스템(Knowledge System)과 추론 시스템(Inference System)을 구축합니다. 지식 시스템은 암묵적인 추론 과정을 제어하며, 추론 시스템이 생성한 단계별 추론 목표에 따라 다이어그램 정보와 기하학 지식을 제공합니다. 추론 시스템은 명시적인 추론 과정을 수행하며, 각 추론 단계에서 목표를 지정하고 이를 해결하기 위해 지식을 적용하여 프로그램 토큰을 생성합니다. 두 시스템은 위 과정을 반복적으로 수행하여, 인간의 인지 방식과 더 일치하는 방식으로 작동합니다.

    우리는 GeoQA와 GeoQA+1이라는 두 개의 벤치마크 데이터셋에서 광범위한 실험을 수행했습니다. 그 결과, DualGeoSolver가 명시적으로 인간의 추론 과정과 지식 적용을 모델링함으로써 문제 해결 정확도와 강건성 측면에서 우수한 성능을 보인다는 것을 입증했습니다.

     

    Improving Pseudo Labels with Global-Local Denoising Framework for Cross-lingual Named Entity Recognition

     

    교차 언어 명명 엔터티 인식(Cross-lingual Named Entity Recognition, NER)은 레이블이 지정된 출발 언어 데이터와 레이블이 없는 대상 언어 데이터를 활용하여 대상 언어에 대한 NER 모델을 훈련하는 것을 목표로 합니다. 기존의 접근법은 번역된 출발 언어 데이터에 레이블 투영을 수행하거나, 출발 언어 모델을 사용하여 대상 언어 데이터에 대해 가짜 레이블을 할당한 후, 이 가짜 레이블이 지정된 데이터를 기반으로 대상 언어 모델을 훈련하여 대상 언어에 일반화하려고 시도했습니다. 그러나 이러한 자동 레이블링 절차는 필연적으로 노이즈가 섞인 레이블을 도입하게 되어 성능 저하를 초래할 수 있습니다.

    이에 본 논문에서는 교차 언어 NER을 위한 글로벌-로컬 노이즈 제거 프레임워크(Global-Local Denoising framework, GLoDe)를 제안합니다. 구체적으로, GLoDe는 의미 공간에서 글로벌 및 로컬 분포 정보를 활용하여 잘못된 가짜 레이블을 교정하는 점진적인 노이즈 제거 전략을 도입합니다. 정제된 가짜 레이블이 지정된 대상 언어 데이터는 모델의 일반화 능력을 크게 향상시킵니다. 또한, 이전 방법들은 언어에 구애받지 않는 특징(language-agnostic features)을 통해 모델을 개선하는 데 초점을 맞췄지만, 우리는 대상 언어에 특화된 특징(target language-specific features) 또한 중요하며 결코 무시되어서는 안 된다고 주장합니다. 이를 위해, 우리는 간단한 보조 작업(auxiliary task)을 사용하여 이 목표를 달성합니다. 여섯 개의 대상 언어를 포함한 두 개의 벤치마크 데이터셋에 대한 실험 결과, 제안된 GLoDe가 현재의 최첨단 방법들을 상당히 능가함을 입증했습니다.

     

    ScreenAgent: A Vision Language Model-driven Computer Control Agent

     

    기존의 대형 언어 모델(LLM)은 다양한 도구와 API를 호출하여 복잡한 작업을 수행할 수 있습니다. 컴퓨터는 가장 강력하고 범용적인 도구로서, 훈련된 LLM 에이전트가 직접 제어할 수 있는 잠재력을 가지고 있습니다. 컴퓨터의 힘을 활용하여, 우리는 다양한 일상적인 디지털 작업에서 인간을 도울 수 있는 더 일반화된 에이전트를 구축할 수 있을 것으로 기대됩니다.

    이 논문에서는 Vision Language Model(VLM) 에이전트가 실제 컴퓨터 화면과 상호작용할 수 있는 환경을 구축했습니다. 이 환경에서 에이전트는 스크린샷을 관찰하고 마우스 및 키보드 동작을 출력하여 그래픽 사용자 인터페이스(GUI)를 조작할 수 있습니다. 우리는 또한 계획, 행동, 반영 단계를 포함하는 자동화된 제어 파이프라인을 설계하여 에이전트가 환경과 지속적으로 상호작용하고 다단계 작업을 완료할 수 있도록 안내합니다.

    추가적으로, 다양한 일상적인 컴퓨터 작업을 완료할 때 스크린샷과 동작 시퀀스를 수집한 ScreenAgent Dataset을 구축했습니다. 마지막으로, 우리는 ScreenAgent라는 모델을 훈련시켰으며, 이 모델은 GPT-4V와 비교해 컴퓨터 제어 능력이 유사하며, 더 정밀한 UI 위치 지정 능력을 보여주었습니다. 우리의 시도는 일반화된 LLM 에이전트를 구축하기 위한 추가 연구에 영감을 줄 수 있을 것입니다. 코드는 https://github.com/niuzaisheng/ScreenAgent에서 확인할 수 있습니다.

     

    Correct and Optimal: The Regular Expression Inference Challenge

     

    우리는 정규 표현식 추론(Regular Expression Inference, REI)을 코드/언어 모델링 및 더 넓은 머신러닝 커뮤니티를 위한 도전 과제로 제안합니다. REI는 지도 학습(ML) 및 프로그램 최적화 작업으로, 예제에서 최소한의 정규 표현식을 찾는 문제를 제기합니다. 구체적으로, 두 개의 유한 문자열 집합 P와 N, 그리고 비용 함수 cost(·)가 주어졌을 때, P에 있는 모든 문자열을 수용하고 N에 있는 모든 문자열을 거부하며, 비용이 더 적은 다른 표현식 r′이 존재하지 않는 표현식 r을 생성하는 것이 목표입니다.

    REI는 도전 과제로서 여러 가지 장점을 가지고 있습니다: (i) 정규 표현식은 널리 알려져 있고, 많이 사용되며, 코드의 이상적인 모델로 자연스럽게 사용됩니다; (ii) REI의 비대칭 최악의 경우 복잡성이 잘 이해되어 있습니다; (iii) REI는 쉽게 이해할 수 있는 파라미터(예: P 또는 N의 크기, 예제 문자열의 길이, 비용 함수)를 가지고 있어, REI 난이도를 쉽게 조정할 수 있습니다; (iv) 최적화를 중시하는 REI는 딥러닝 기반 ML에서는 아직 해결되지 않은 문제입니다. 최근, GPU를 사용하여 프로그램 합성 기법을 통해 REI 솔버가 구현되었고, 이를 통해 복잡한 REI 인스턴스에 대해 최소한의 정규 표현식을 빠르게 생성할 수 있게 되었습니다.

    이러한 진전을 바탕으로, 우리는 REI를 위한 최초의 대규모 데이터셋을 생성 및 공개하였으며, 여러 초기 휴리스틱 및 머신러닝 기준선을 설계하고 평가했습니다. 우리는 커뮤니티가 참여하여 REI 문제를 해결하기 위한 ML 방법을 탐구하기를 권장합니다. REI에서의 진보는 코드/언어 모델링에서의 진보로 직접 이어질 것이라고 믿습니다.

     

     

    It Ain’t That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models

    대형 언어 모델(LLMs)은 다양한 문제를 해결하는 데 있어 놀라운 능력을 보여주었지만, 이들의 일반화 능력은 항상 만족스럽지 않으며, 일반화 문제는 일반적으로 생성형 트랜스포머 모델에서 흔히 발생합니다. 연구자들은 n자리 덧셈이나 곱셈과 같은 기본 수학적 작업을 통해 이러한 모델들의 일반화 행동을 조사하는 중요한 관점을 제시합니다. 예를 들어, 모델이 n자리 숫자 연산(예: 덧셈)을 학습할 때, 입력 피연산자가 n자리인 경우에 대해 학습한 모델은 보지 못한 n자리 입력에 대해서도 성공적으로 일반화할 수 있지만, 더 길고 보지 못한 사례(분포 밖(OOD) 일반화)에서는 성능이 급격히 떨어지는 것으로 관찰되었습니다. 우리는 이 설명되지 않은 성능 저하에 주목하며, 체계적인 OOD 일반화가 가능한지 질문합니다.

    LLMs를 이해하기 위해, 우리는 유사한 기저 메커니즘을 공유할 수 있는 다양한 소형 언어 모델들을 훈련시켰습니다. 그 결과, 강력한 분포 내(ID) 일반화는 구조화된 표현에서 비롯된 반면, 만족스럽지 않은 OOD 성능 뒤에도 모델들이 여전히 명확한 학습된 대수적 구조를 보인다는 것을 발견했습니다. 특히, 이러한 모델들은 보지 못한 OOD 입력을 ID 도메인에서 학습된 동등성 관계로 출력에 매핑하는 경향이 있는데, 이를 우리는 "동등성 일반화"라고 부릅니다. 이러한 발견은 LLMs를 포함한 생성형 모델의 일반화 가능성에 대한 이해를 심화시키며, 개선의 잠재적 방향에 대한 통찰을 제공합니다.

     

    Prompt-enhanced Network for Hateful Meme Classification

     

    소셜 미디어의 급격한 확장은 미디어 플랫폼에서 혐오성 밈(hateful memes)의 범람을 초래하여, 효율적인 식별 및 제거의 필요성이 점점 커지고 있습니다. 전통적인 멀티모달 혐오 밈 분류가 외부 지식에 크게 의존하며, 관련성이 없거나 중복된 콘텐츠를 포함할 위험이 있다는 한계를 인식한 우리는 Pen이라는 프롬프트 학습 접근법에 기반한 프롬프트 강화 네트워크 프레임워크를 개발했습니다. 구체적으로, 프롬프트 방법을 통해 시퀀스를 구성한 후 이를 언어 모델로 인코딩하고, 인코딩된 시퀀스에 대해 다중 뷰 인식을 위한 지역 정보 전역 추출을 수행했습니다. Pen은 추론 인스턴스와 시연에 대한 전역 정보를 포착하여, 시퀀스 정보를 최대한 활용하여 카테고리 선택을 용이하게 합니다. 이 접근 방식은 모델 분류 정확도를 크게 향상시킵니다. 또한, 피처 공간에서 모델의 추론 능력을 강화하기 위해 프롬프트 인식 대비 학습(prompt-aware contrastive learning)을 프레임워크에 도입하여 샘플 피처 분포의 품질을 개선했습니다. 두 개의 공개 데이터셋에 대한 광범위한 소거 실험을 통해 Pen 프레임워크의 효과를 평가하고, 동시에 최첨단 모델 기준선과 비교했습니다. 연구 결과, Pen이 수동 프롬프트 방법을 능가하여 혐오 밈 분류 작업에서 우수한 일반화 및 분류 정확도를 보여준다는 점을 강조합니다. 코드는 https://github.com/juszzi/Pen에서 확인할 수 있습니다.

     

     

     

    Sentence-Level or Token-Level? A Comprehensive Study on Knowledge Distillation

    지식 증류(Knowledge Distillation)는 교사 모델(teacher model)로부터 학생 모델(student model)로 지식을 전이하는 강력한 기법으로, 신경 기계 번역에서 모델을 압축하거나 훈련 목표를 단순화하는 데 사용되고 있습니다. 지식 증류에는 주로 두 가지 방법이 있습니다: 문장 수준 증류(sentence-level distillation)와 토큰 수준 증류(token-level distillation)입니다. 문장 수준 증류에서는 학생 모델이 교사 모델의 출력을 맞추도록 훈련되며, 이는 훈련 난이도를 완화하고 학생 모델이 전체 구조를 포괄적으로 이해하는 데 도움을 줍니다. 반면에, 토큰 수준 증류는 학생 모델이 교사 모델의 출력 분포를 학습하도록 하여 더 세밀한 지식 전이를 촉진합니다. 연구들은 문장 수준 증류와 토큰 수준 증류가 서로 다른 상황에서 상이한 성능을 보인다는 것을 밝혀냈으며, 이는 지식 증류 방법을 실질적으로 선택하는 데 혼란을 초래합니다.

    본 연구에서는 토큰 수준 증류가 더 복잡한 목표(즉, 분포)를 가지고 있어 "단순한" 시나리오에 더 적합하며, 반대로 문장 수준 증류는 "복잡한" 시나리오에서 뛰어나다고 주장합니다. 우리의 가설을 입증하기 위해, 우리는 학생 모델의 크기, 텍스트의 복잡성, 디코딩 절차의 난이도를 변화시키며 증류 방법의 성능을 체계적으로 분석했습니다. 실험 결과는 우리의 가설을 뒷받침하지만, 주어진 시나리오의 복잡도 수준을 정의하는 것은 여전히 어려운 과제입니다. 따라서 우리는 토큰 수준 증류와 문장 수준 증류를 게이팅 메커니즘을 통해 결합하여 두 가지 개별 방법의 장점을 모두 활용하는 새로운 하이브리드 방법을 제안합니다. 실험 결과, 하이브리드 방법이 토큰 수준이나 문장 수준 증류 방법 및 이전 연구들보다 성능이 우수함을 입증하여 제안된 하이브리드 방법의 효과를 보여줍니다.



    반응형

    'New' 카테고리의 다른 글

    법률 LLM  (1) 2024.09.10
    nlp6  (0) 2024.08.22
    nlp5  (0) 2024.08.22
    nlp4  (1) 2024.08.22
    nlp2  (1) 2024.08.22
Designed by Tistory.