ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • nlp4
    New 2024. 8. 22. 10:12
    반응형

    GRASP: A Novel Benchmark for Evaluating Language GRounding and Situated Physics Understanding in Multimodal Language Models

     

    이 논문은 GRASP라는 새로운 벤치마크를 소개하며, 이를 통해 비디오 기반 멀티모달 대형 언어 모델(LLMs)의 언어 그라운딩과 물리적 이해 능력을 평가합니다. 이 평가는 Unity 시뮬레이션을 활용한 이중 접근 방식을 통해 이루어집니다. 첫 번째 수준에서는 간단한 텍스트 설명과 시각적 정보를 연관시키는 모델의 능력을 평가하여 언어 그라운딩을 테스트합니다. 두 번째 수준에서는 객체 영속성 및 연속성 같은 "직관적 물리학(Intuitive Physics)" 원칙을 이해하는 모델의 능력을 평가합니다. 벤치마크를 공개하는 것 외에도, 우리는 이를 사용하여 여러 최첨단 멀티모달 LLM을 평가했습니다. 평가 결과, 이러한 모델들이 언어 그라운딩과 직관적 물리학 능력에서 상당한 한계가 있음을 발견했습니다. 특히 색상과 모양과 같은 특정 요소에 대해서는 어느 정도 그라운딩 능력을 보였지만, 이 능력은 프롬프트 전략에 크게 의존했습니다. 한편, 모든 모델이 직관적 물리학 테스트에서 50%의 기회 수준 또는 그 이하의 성과를 보였으며, 인간 피험자는 평균적으로 80%의 정확도를 기록했습니다. 이러한 한계점은 GRASP와 같은 벤치마크를 통해 미래 모델이 이러한 역량을 개발하는 데 있어 진전을 모니터링하는 것이 중요하다는 것을 강조합니다.

     

     

     

    Natural Language Decomposition and Interpretation of Complex Utterances

     

    자연어 인터페이스를 설계하는 것은 사용자의 요청을 신중하게 설계된 인텐트 표현으로 변환하기 위해 지도 데이터를 수집하는 것을 요구해 왔습니다. 이는 사용자 요청의 긴 꼬리를 열거하고 라벨링하는 것이 매우 어렵기 때문입니다. 동시에, 대형 언어 모델(LLMs)은 목표와 계획에 대한 지식을 내재하고 있어, 대화형 비서가 여러 단계를 거쳐 완료해야 하는 사용자 요청을 해석하는 데 도움이 될 수 있습니다. 우리는 사용자의 복잡한 인텐트를 처리하기 위한 접근법을 소개하는데, 이는 계층적 자연어 분해 및 해석 과정을 통해 이루어집니다. 이 접근법은 사전 학습된 언어 모델을 사용하여 복잡한 발화를 일련의 더 간단한 자연어 단계로 분해하고, 각 단계를 해당 인터페이스에 맞춘 언어-프로그램 변환 모델을 사용하여 해석합니다. 이 접근법을 테스트하기 위해, 우리는 DeCU라는 새로운 NL-to-program 벤치마크를 수집하고 공개하여 복잡한 발화의 분해(Decomposition of Complex Utterances)를 평가합니다. 실험 결과, 제안된 접근법은 거의 복잡한 학습 데이터가 없이도 복잡한 발화의 해석을 가능하게 하며, 표준 소수 샷 프롬프트 접근법을 능가하는 성능을 보였습니다.

     

    Making LLMs as Fine-Grained Relation Extraction Data Augmentor

     

    텍스트 내 엔터티 간의 관계 추출(relationship extraction, RE)은 일반적으로 풍부한 고품질 데이터가 필요한 지도 학습 모델에 의존합니다. 이러한 RE의 저자원 문제를 해결하기 위해 데이터 증강(Data Augmentation, DA)을 포함한 다양한 접근법이 제안되었습니다. 그러나 RE의 세밀한 특성으로 인해 기존의 DA 방법들은 생성된 데이터에서 일관성과 맥락적 다양성을 보장하는 데 어려움을 겪는 경우가 많습니다. 대형 언어 모델(LLMs)의 광범위한 생성 능력에서 영감을 받아, 우리는 RE에서 맥락 일관성을 유지하기 위한 새로운 프레임워크인 ConsistRE를 소개합니다. ConsistRE는 외부 자원에서 방대한 코퍼스를 수집하고, 통계 알고리즘과 의미론을 사용하여 관계 인스턴스와 밀접하게 관련된 키워드 힌트를 식별하는 것으로 시작합니다. 그런 다음 이러한 키워드 힌트를 문장 생성 시 맥락적 제약으로 통합하여, LLM을 통해 관계 의존성과 다양성을 보장합니다. 추가적으로, 생성된 문장의 구문 구조를 강화하기 위해 구문 종속성 선택을 구현합니다. SemEval, TACRED, TACREV 데이터셋에 대한 평가 실험 결과, ConsistRE는 특히 저자원 실험 조건에서 F1 값에서 각각 1.76%, 3.92%, 2.53%로 다른 기준 모델들을 능가함을 명확히 입증했습니다.

     

    Purpose Enhanced Reasoning through Iterative Prompting: Uncover Latent Robustness of ChatGPT on Code Comprehension

    코드 주석은 코드 이해를 돕기 위해 심층적인 통찰을 얻는 데 매우 중요합니다. 이러한 통찰을 얻기 위한 핵심은 코드의 주요 목적을 정확하게 요약하는 데 있습니다. 최근 코드 주석 생성 방법은 특정 모델을 훈련하거나 미세 조정하는 대신 ChatGPT와 같은 대형 언어 모델(LLMs)을 활용한 프롬프트 방법에 중점을 두고 있습니다. ChatGPT는 코드 이해에 있어 인상적인 성능을 보이지만, 여전히 일관되게 높은 품질의 코드 주석을 생성하는 데 있어 견고성 문제를 겪고 있습니다. 이는 ChatGPT가 코드 토큰의 의미를 우선시하여, 변수 이름 교체와 같은 자주 발생하는 무해한 변형에 취약하기 때문입니다. 본 연구에서는 이러한 사소한 변형으로 인한 부정적인 영향을 효과적으로 완화하기 위해 모듈화된 프롬프트 패러다임인 Perthept를 제안합니다. Perthept는 코드의 주요 목적에 도달하기 위해 반복적으로 추론 깊이를 향상시킵니다. Perthept는 ChatGPT의 응답에서 발생할 수 있는 확률성 또는 신뢰성 부족 시나리오에서도 견고성을 입증합니다. 우리는 네 개의 공개 데이터셋에 걸쳐 포괄적인 평가를 수행하여, 다른 모델에 비해 우리의 제안된 방법론이 일관된 견고성 향상을 보여줌을 확인했습니다.

     

    Innovative Directional Encoding in Speech Processing: Leveraging Spherical Harmonics Injection for Multi-Channel Speech Enhancement

     

    멀티채널 음성 향상은 여러 마이크를 활용하여 배경 소음 속에서 목표 음성 신호를 추출하는 기술로, 방향 단서를 효과적으로 활용하는 것이 강력한 음성 향상을 위한 핵심입니다. 딥러닝이 멀티채널 음성 처리에 유망한 가능성을 보여주고 있지만, 대부분의 방법은 단기 푸리에 변환(STFT) 계수에 직접 작용합니다. 우리는 공간 분포를 간결하게 표현하는 구면 조화 변환(SHT) 계수를 모델의 보조 입력으로 사용하는 방법을 제안합니다. SHT는 다양한 수의 마이크로폰으로부터 신호를 일관된 차원의 계수로 변환할 수 있게 해줍니다. 이 기술은 특정 배열 레이아웃에 대해 특화된 모델을 요구하는 대신, 하나의 모델이 다양한 마이크 배열 구성에 대해 일반화할 수 있게 합니다. 우리는 SHT 기반 보조 입력을 사용하는 두 가지 아키텍처를 제시합니다: 병렬(parallel) 및 직렬(serial) 모델. 병렬 모델은 STFT와 SHT 각각에 대한 두 개의 인코더를 포함하며, 디코더에서 두 인코더의 출력을 융합하여 향상된 STFT를 추정함으로써 공간적 컨텍스트를 효과적으로 통합합니다. 직렬 접근 방식에서는 신호에 SHT를 먼저 적용한 후, 변환된 신호에 STFT를 적용하여 네트워크 입력으로 사용합니다. 변동하는 소음과 잔향 조건에서 TIMIT 데이터셋을 평가한 결과, 제안된 모델이 기존의 벤치마크를 능가하는 성능을 보여주었습니다. 특히, 이러한 결과는 계산량과 파라미터를 줄이면서 달성되었습니다. 또한, MS-SNSD 데이터셋에서의 실험은 제안된 방법이 네트워크의 일반화 능력을 향상시킬 수 있음을 보여줍니다. 소스 코드는 https://github.com/Pandade1997/SH_injection에서 공개되어 있습니다.

     

     

    Contextualized Speech Recognition: Rethinking Second-Pass Rescoring with Generative Large Language Models

     

    자동 음성 인식(ASR) 시스템은 최근 몇 년 동안 눈에 띄는 발전을 이루었습니다. 문맥화된 ASR 작업은 발화를 고립된 문장으로 인식하는 것이 아니라, 발생하는 더 넓은 문맥 내에서 인식하는 것을 요구합니다. 기존 접근법은 종종 초기 전사를 재순위하는 2차 패스 패러다임을 사용하지만, 이는 후보 가설 간의 오류를 전파하여 인식 정확도를 저하시킬 위험이 있습니다. 본 연구에서는 일반적인 2차 패스 재점수화 방법과는 다른 새로운 프레임워크를 소개합니다. n-best 가설을 제공받은 후, 우리는 대형 언어 모델을 활용한 프롬프트를 통해 문맥화된 2차 패스 생성을 수행합니다. 우리는 더 높은 정확성을 추구할 뿐만 아니라, 기본적으로 사전 학습된 음성 및 언어 모델을 크게 변경하지 않고 성능 한계를 탐구하고자 합니다. 제로샷 프롬프트와 전략적 저순위 적응 튜닝을 통해 제안된 패러다임의 효과를 조사했습니다. 다중 억양 음성 독해 벤치마크인 SQuAD-SRC에서 프롬프트를 활용한 모델과 미세 조정된 모델 모두 1-best ASR 가설을 능가하며, 각각 13.6%와 45.9%의 상대적 단어 오류율(WER) 개선을 달성했습니다. 이러한 결과는 제안된 접근법이 전사 정확도와 문맥 이해를 향상시킨다는 것을 시사합니다.

     

     

    NegativePrompt: Leveraging Psychology for Large Language Models Enhancement via Negative Emotional Stimuli

     

    대형 언어 모델(LLM)은 전통적인 컴퓨팅 작업부터 고급 인공지능(AI) 응용 프로그램에 이르기까지 다양한 분야에서 필수적인 역할을 하고 있습니다. 이러한 광범위한 채택은 사회 과학을 포함한 여러 학문 분야에서 LLM에 대한 광범위한 연구를 촉진했습니다. 특히, 연구들은 LLM이 감성 지능을 가지고 있으며, 긍정적인 감정 자극을 통해 이를 더욱 발전시킬 수 있음을 밝혀냈습니다. 이 발견은 부정적인 감정도 LLM에 유사한 영향을 미쳐 성능을 향상시킬 수 있는지에 대한 흥미로운 질문을 제기합니다. 이 질문에 답하기 위해, 우리는 심리학적 원칙에 기반한 10개의 특수 설계된 부정적 감정 자극을 포함하는 새로운 접근법인 NegativePrompt를 소개합니다. 우리는 FlanT5-Large, Vicuna, Llama 2, ChatGPT, GPT-4 등 5개의 LLM을 대상으로 45개의 작업 세트를 통해 엄격한 실험 평가를 수행했습니다. 그 결과는 매우 놀라웠습니다. NegativePrompt는 Instruction Induction 작업에서 12.89%, BIG-Bench 작업에서 46.25%의 상대적 향상을 통해 LLM의 성능을 크게 향상시켰습니다. 또한, NegativePrompt의 영향 메커니즘을 해석하기 위해 주의 시각화 실험을 수행했습니다. 우리의 연구는 LLM과 감정 상호작용에 대한 이해에 크게 기여하며, NegativePrompt가 감정 기반 방법으로서의 실질적인 효능을 입증하고 LLM의 성능을 실세계 응용에서 향상시킬 수 있는 새로운 통찰을 제공합니다. 코드 및 관련 자료는 https://github.com/wangxu0820/NegativePrompt에서 확인할 수 있습니다.

     

    Decoupling Breaks Data Barriers: A Decoupled Pre-training Framework for Multi-intent Spoken Language Understanding

     

    멀티 인텐트 음성 언어 이해(Multi-intent Spoken Language Understanding, Multi-intent SLU)는 단일 발화에서 여러 인텐트를 추출할 수 있으며, 이에 대한 관심이 점점 증가하고 있습니다. 그럼에도 불구하고, 현재의 멀티 인텐트 SLU 접근 방식은 여전히 대량의 주석된 멀티 인텐트 SLU 데이터에 크게 의존하고 있어, 충분한 데이터가 없는 실제 환경에서는 이를 충족시키기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 데이터 부족 문제를 해결하고, 풍부한 멀티 인텐트가 없는 SLU 데이터를 활용하여 멀티 인텐트 SLU를 강화할 수 있는 새로운 디커플드 사전 학습 프레임워크(Decoupled Pre-training Framework, DPF)를 소개합니다. 구체적으로, DPF는 멀티 인텐트 SLU 작업을 두 가지 능력으로 분리합니다: (1) 작업에 구애받지 않는 슬롯 엔티티 범위를 찾는 작업 비종속적(task-agnostic) 능력과 (2) 작업에 특화된 슬롯과 인텐트 레이블을 동시에 예측하는 작업 특화적(task-specific) 능력. DPF의 핵심 통찰은 이러한 분리가 대량의 멀티 인텐트가 없는 SLU 데이터(예: NER 및 단일 인텐트 SLU 데이터)를 사용하여 작업 비종속적 능력과 작업 특화적 능력을 각각 강화할 수 있는 두 단계의 디커플드 사전 학습 절차를 설계할 수 있다는 점입니다. MixATIS 및 MixSNIPS와 같은 두 개의 표준 벤치마크에서의 실험 결과, DPF가 우수한 성능을 달성함으로써 그 효과를 입증했습니다. 또한, 광범위한 분석을 통해 멀티 인텐트가 없는 데이터를 활용하는 것이 멀티 인텐트 SLU를 효과적으로 강화할 수 있음을 확인했습니다.

     

    Improving Zero-Shot Cross-Lingual Transfer via Progressive Code-Switching

    코드 스위칭(Code-switching)은 여러 언어의 단어를 소스 언어 텍스트에 섞어 사용하는 데이터 증강 기법입니다. 이 기법은 교차 언어적 맥락에서 단어 표현을 정렬하여, 교차 언어 전이 작업에서 상당한 일반화 성능을 달성했습니다. 그러나 통제되지 않거나 과도하게 대체된 코드 스위칭은 모델 학습에 불필요한 데이터를 증강시킬 수 있습니다. 즉, 지나치게 코드 스위칭된 텍스트 샘플은 모델의 교차 언어 전이 가능성에 부정적인 영향을 미칠 수 있습니다. 이를 해결하기 위해, 우리는 점진적 코드 스위칭(Progressive Code-Switching, PCS) 방법을 제안하여 모델이 쉬운 것에서 어려운 것으로 구분할 수 있도록 점차적으로 적절한 난이도의 코드 스위칭 예제를 생성합니다. 이 방법의 핵심은 쉽게 코드 스위칭된 데이터를 활용하여 이전에 학습한 다국어 지식을 점진적으로 포함시키고, 이를 통해 이후에 더 어려운 코드 스위칭 데이터에 대한 모델 최적화를 유도하는 것입니다. 구체적으로, 우리는 먼저 문장에서 각 단어를 대체할 때의 영향을 측정하기 위해 난이도 측정기를 설계합니다. 그런 다음, 코드 스위처는 제어 가능한 온도 변수를 사용하여 난이도가 점차 증가하는 코드 스위칭 데이터를 생성합니다. 추가적으로, 학습 스케줄러는 모델 학습을 위해 더 어려운 코드 스위칭 데이터를 언제 샘플링할지 결정합니다. 실험 결과, 우리의 모델은 10개 언어에 걸친 세 가지 다른 제로샷 교차 언어 전이 작업에서 최첨단 성과를 달성했습니다.

     

    Position Debiasing Fine-Tuning for Causal Perception in Long-Term Dialogue

     

    대화 시스템의 핵심은 광범위한 대화 기록을 바탕으로 관련성 있고, 정보 제공이 가능하며, 인간과 같은 응답을 생성하는 것입니다. 최근 대화 생성 분야에서는 발화 생성 능력이 뛰어난 대형 언어 모델(LLM)의 주류 채택이 이루어지고 있습니다. 그러나 이러한 모델에는 근본적인 위치 편향(position bias)이라는 자연스러운 결함이 존재하며, 이는 인과적으로 관련된 발화 대신 가까운 발화에 더 많은 주의를 기울이게 하여 장기 대화에서 관련성이 없고 일반적인 응답을 생성하는 결과를 초래할 수 있습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 'Causal Perception long-term Dialogue framework(CPD)'라는 새로운 방법을 제안합니다. 이 방법은 대화 기록에서 인과적으로 관련된 발화를 추출하기 위해 섭동 기반 인과 변수 발견 방법을 사용하며, 미세 조정 과정에서 모델의 인과 인식을 향상시킵니다. 구체적으로, CPD에서는 문장 간 위치 상관성을 제거하기 위한 'local-position awareness' 방법을 제안하여, 섭동을 기반으로 인과적으로 관련된 발화를 추출할 수 있도록 도와줍니다. 또한, 인과적으로 관련된 요소와 그렇지 않은 요소를 다르게 섭동하여 응답 생성을 위한 인과 인식 미세 조정 전략도 제안합니다. 두 개의 데이터셋에 대한 실험 결과, 제안된 방법이 여러 LLM에서 위치 편향을 효과적으로 완화하고 기존의 기준선 모델과 비교하여 유의미한 성과를 달성함을 입증했습니다.

     

    반응형

    'New' 카테고리의 다른 글

    법률 LLM  (1) 2024.09.10
    nlp6  (0) 2024.08.22
    nlp5  (0) 2024.08.22
    nlp3  (0) 2024.08.22
    nlp2  (1) 2024.08.22
Designed by Tistory.