-
반응형
Putting Back the Stops: Integrating Syntax with Neural Topic Models
구문(Syntax)과 의미(Semantics)는 언어 이해의 두 가지 핵심 개념입니다. 토픽 모델링(Topic Modeling)은 일반적으로 텍스트 코퍼스의 의미를 나타내며, 전처리 과정에서 구문 정보를 제거합니다. 전처리 없이 토픽을 생성하면 구문적 단어들이 생성된 토픽을 지배하게 되어 토픽 해석이 어려워집니다. 해석 가능한 토픽을 학습하면서도 유용한 구문 정보를 유지하기 위해, 우리는 전처리 없이 코퍼스로부터 구문적 및 의미적 토픽을 동시에 학습할 수 있는 새로운 프레임워크를 제안합니다. 이 프레임워크는 텍스트의 의존 관계를 활용하여 구문적 단어와 의미적 단어를 구별하는 컨텍스트 네트워크와 두 세트의 토픽을 학습하는 복합 VAE 토픽 모델로 구성됩니다. 우리는 7개의 데이터셋에서 제안된 방법이 코퍼스의 구문적 및 의미적 표현을 효과적으로 캡처하면서, 토픽의 품질 측면에서 최첨단 신경망 기반 토픽 모델과 통계적 토픽 모델을 능가함을 입증했습니다.
ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains
감정 생성 과정을 이해하는 것은 감정의 원인을 분석하는 데 중요한 역할을 합니다. 감정 이해 작업인 Causal Emotion Entailment (CEE)는 대화에서 특정 발화가 목표 감정 표현을 유발하는 원인 발화를 식별하는 것을 목표로 합니다. 그러나 현재 CEE에 대한 연구는 주로 대화에서의 의미적 및 감정적 상호작용을 모델링하는 데 중점을 두고 있으며, 감정 생성 과정을 탐구하는 데는 소홀합니다. 이는 모델이 감정을 깊이 이해하지 못하게 하며, 설명 가능한 예측을 생성하는 능력을 제한합니다.
이 연구에서는 인지 평가 이론의 "자극-평가-감정" 감정 생성 과정에 영감을 받아, 대화에서 목표 감정 표현으로부터 자극을 추론하는 단계별 추론 방법인 Emotion-Cause Reasoning Chain (ECR-Chain)을 도입합니다. 구체적으로, 우리는 먼저 ECR-Chain을 몇 가지 예시 프롬프트를 통해 ChatGPT에 소개하여 CEE 작업에서의 성능을 크게 향상시켰습니다. 또한, ChatGPT를 활용하여 ECR-Chain 세트를 자동으로 구축하는 방법을 제안하여, 더 작은 모델들이 지도 학습을 통해 추론 능력을 강화할 수 있도록 하고, Vicuna-7B 모델이 CEE에서 최신 성능을 달성할 수 있도록 지원했습니다.
더 나아가, 우리의 방법은 이러한 생성 언어 모델들이 설명 가능한 방식으로 감정-원인 추론을 효과적으로 수행할 수 있게 합니다. 코드, 데이터 및 자세한 내용은 https://github.com/hzp3517/ECR-Chain에서 확인할 수 있습니다.
Contrastive Representation Learning for Self-Supervised Taxonomy Completion
분류 체계 완성(Taxonomy completion)은 자기 지도 학습 과제로, 새로운 개념을 기존 분류 체계에 추가하여 적절한 상위어와 하위어 쌍에 연결하는 것을 목표로 합니다. 연구자들은 의미적 또는 구조적 정보를 사용하여 분류 체계에서 중요한 관계를 포착하기 위한 여러 접근법을 제안했지만, 대부분 단일 관점에서 훈련 신호를 생성하거나 단순히 무작위 샘플링 전략을 사용하여 다양한 분류 구조 내 관계를 포착하고 고품질 표현을 학습하는 데 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 다양한 관계를 포착하고 분류 체계 완성을 위한 표현을 개선하는 대조 학습 프레임워크인 CoSTC를 제안합니다. CoSTC는 두 가지 대조적 관점, 즉 동일 관점(intra-view)과 상호 관점(inter-view)을 사용하여 풍부한 자기 지도 신호를 제공합니다. 동일 관점 대조에서는 인스턴스 수준의 구별 작업을 수행하여 쿼리 내 및 위치 내의 상관관계를 활용합니다. 상호 관점 대조에서는 다양성과 난이도를 고려한 샘플링 전략을 사용하여 대표적인 쌍을 선택함으로써, 세밀한 쿼리-위치 관계 학습을 강화합니다. 세 가지 데이터셋에 대한 실험 결과, 우리의 접근법이 효과적임을 확인했습니다. 코드는 https://github.com/nyh-a/CoSTC 에서 확인할 수 있습니다.
Beyond What If: Advancing Counterfactual Text Generation with Structural Causal Modeling
이 논문은 반사실적(counterfactual) 탐구의 영역에서 구조적 인과 모델(SCM)을 활용한 텍스트 생성의 다목적 접근법을 소개하며, 전통적인 단일 인과 연구의 범위를 넘어 복잡하고 다층적인 관계를 포괄합니다. 우리는 텍스트 생성에서 이러한 복잡하고 다층적인 인과 관계를 포괄적으로 탐구하기 위해 구조적 인과 모델(SCM)에 기반한 일반화된 접근법을 도입했습니다. 이 방법은 일상적인 이야기에서부터 금융 보고서에 이르기까지 다양한 범위에서 복잡한 인과 상호작용을 처리하는 데 능숙합니다.
구체적으로, 우리의 방법은 텍스트의 각 구성 요소를 불변 요소와 변동 요소로 나타내는 잠재 변수 쌍으로 분리하는 것에서 시작합니다. 이후, 이러한 잠재 변수에 반사실적 개입을 적용하여 복잡한 인과 역학에 의해 영향을 받는 결과를 생성할 수 있습니다. 우리는 공개된 이야기 생성 데이터셋과 특별히 구성된 금융 도메인 데이터셋에서 광범위한 실험을 수행했습니다. 실험 결과, 우리의 접근법은 다양한 자동 및 인간 평가 기준에서 최신 성능을 달성했으며, 다양한 텍스트 생성 맥락에서 그 효과성과 다재다능함을 입증했습니다.
Generate Synthetic Text Approximating the Private Distribution with Differential Privacy
텍스트에서 민감한 정보가 유출될 가능성 때문에, 모델 훈련에 프라이버시를 보호하는 텍스트를 사용하는 것에 대한 사회적 요구가 증가하고 있습니다. 최근에는 차등 프라이버시를 적용한 합성 텍스트를 사용함으로써 개인 정보를 보호할 수 있다는 연구가 많이 이루어졌습니다. 그러나 합성 텍스트와 원본 개인 텍스트 간의 높은 의미적 유사성을 달성하는 문제는 충분히 연구되지 않았습니다. 본 논문에서는 유전 알고리즘의 반복 최적화 접근 방식을 결합하여 합성 텍스트의 분포를 개인 텍스트와 정렬시키는 방법을 제안합니다. 이 방법을 통해 최종 생성된 합성 텍스트는 프라이버시 보호 요구 사항을 충족할 뿐만 아니라 높은 수준의 품질을 유지합니다. 다양한 데이터셋에서 여러 기준과 비교를 통해, 우리는 우리의 합성 텍스트가 개인 텍스트의 유틸리티를 매우 가깝게 유지하면서도, 악의적인 사용자의 멤버십 추론 공격에 견딜 수 있을 만큼 강력한 프라이버시 보호 기준을 제공함을 입증했습니다.
MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge
대형 언어 모델(LLMs)은 다양한 분야에서 뛰어난 성과를 보여주었으며, MedQA와 같은 의료 평가 벤치마크에서도 주목할 만한 성과를 거두었습니다. 그러나 보고된 성능과 실제 의료 환경에서의 실질적인 효과성 사이에는 여전히 상당한 격차가 존재합니다. 이 논문에서는 다각적인 검사 체계를 통해 현재 LLM들이 실제로 의료 지식을 얼마나 잘 습득하고 있는지 체계적으로 탐구하여 이러한 격차의 원인을 분석하고자 합니다. 구체적으로, 우리는 LLM이 여러 측면(비교, 수정, 판별, 검증)에서 의료 지식을 인코딩하고 습득하는 정도와 범위를 동시에 평가할 수 있는 새로운 평가 프레임워크인 MultifacetEval을 개발했습니다.
MultifacetEval 프레임워크를 기반으로, 우리는 두 가지 다각적인 평가 데이터셋인 MultiDiseK(임상 질병 지식 베이스에서 질문을 생성하여 구성)과 MultiMedQA(MedQA의 각 질문을 다각적인 질문으로 다시 작성하여 구성)를 구축했습니다. 이러한 다각적인 데이터셋에 대한 실험 결과, 현재 LLM들이 의료 지식을 습득하는 정도는 기존 의료 벤치마크에서의 성능보다 훨씬 낮으며, 의료 지식을 습득하는 데 깊이, 정확성, 포괄성이 부족하다는 것을 시사합니다. 따라서 현재 LLM은 실제 의료 작업에 적용하기에는 아직 준비가 되어 있지 않다는 결론을 내릴 수 있습니다. 코드와 데이터셋은 https://github.com/THUMLP/MultifacetEval 에서 제공됩니다.
SEMANTIFY: Unveiling Memes with Robust Interpretability beyond Input Attribution
밈(Meme)은 처음에는 유머와 사회적 논평을 위한 목적으로 만들어졌지만, 이제는 공격적인 온라인 콘텐츠를 전달하는 플랫폼으로 변모했습니다. 이러한 콘텐츠를 감지하는 것은 매우 중요하지만, 기존의 심층 학습 기반 밈 공격성 분류기는 투명성이 부족하여 불투명한 블랙박스 시스템처럼 작동합니다. Integrated Gradient와 같은 입력 기여도 해석 방법이 존재하지만, 종종 불충분하고 관련 없는 키워드를 생성하는 경우가 많습니다. 이 격차를 해소하기 위해, 우리는 이론적으로 기반을 둔 다단계 필터링 프로세스를 특징으로 하는 새로운 시스템인 SEMANTIFY를 도입합니다. SEMANTIFY는 미리 정의된 어휘에서 의미 있는 "토큰"을 추출하여, 관련성 있고 포괄적인 해석 가능한 키워드 집합을 생성합니다. 이러한 추출된 키워드는 밈에 숨겨진 의미에 대한 모델의 인식을 드러내며, 투명성을 높입니다. 'leakage-adjusted simulatability'와 같은 해석 가능성 지표를 사용한 SEMANTIFY 평가에서는 다양한 기준을 최대 2.5점까지 능가하는 우수한 성과를 보였습니다. 추출된 키워드의 '관련성'과 '포괄성'에 대한 인간 평가도 그 효과를 추가로 입증했습니다. 또한, 추출된 키워드의 질적 분석은 사례 연구로 활용되어 모델 오류 사례와 그 원인을 밝혀냅니다. SEMANTIFY는 밈 공격성 감지를 위한 더 해석 가능한 멀티모달 시스템의 발전에 기여하며, 실제 응용에 대한 신뢰를 증진시킵니다.
ADELT: Transpilation between Deep Learning Frameworks
우리는 심층 학습 프레임워크 간의 소스-소스 트랜스파일을 위한 새로운 접근 방식인 Adversarial DEep Learning Transpiler(ADELT)을 제안합니다. ADELT는 코드 스켈레톤 트랜스파일과 API 키워드 매핑을 독특하게 분리합니다. 코드 스켈레톤 트랜스파일의 경우, 대형 언어 모델(LLM)에서 몇 샷 프롬프트를 사용하며, API 키워드 매핑의 경우, 코드 전용 BERT에서 문맥적 임베딩을 사용합니다. 이러한 임베딩은 도메인 적대적 설정에서 훈련되어 키워드 번역 사전을 생성합니다. ADELT는 손으로 작성된 규칙이나 병렬 데이터에 의존하지 않고, 라벨이 없는 웹 크롤링된 심층 학습 코퍼스에서 훈련됩니다. 이 시스템은 PyTorch-Keras 및 PyTorch-MXNet 트랜스파일 페어에 대해 pass@1 비율을 각각 16.2점과 15.0점 향상시키며, 최신 트랜스파일러보다 우수한 성능을 보입니다. 우리는 ADELT의 코드를 https://github.com/gonglinyuan/adelt 에서 공개적으로 제공하고 있습니다.
Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning
공간적 추론은 인간 인지와 기계 지능 모두에서 중요한 역할을 하며, 이와 관련된 언어 모델(LM)의 능력에 대한 새로운 연구를 촉진하고 있습니다. 그러나 기존의 벤치마크는 질적 공간적 추론(QSR)을 평가하는 데 있어서 한계를 드러내고 있습니다. 이러한 벤치마크는 보통 지나치게 단순화된 시나리오나 불명확한 자연어 설명을 제공하여 효과적인 평가를 방해합니다.
우리는 현실적인 3D 시뮬레이션 데이터를 기반으로 하여, 다양한 물체와 그들의 공간적 관계를 포함하는 여러 방의 레이아웃을 제시하는 새로운 QSR 평가 벤치마크를 제안합니다. 이 접근법은 기존의 장난감 작업 중심 시나리오와는 달리, 보다 세부적이고 문맥이 풍부한 서사를 통해 공간적 추론을 평가합니다. 우리의 벤치마크는 위상 관계, 방향 관계, 거리 관계 등을 포함한 광범위한 질적 공간적 관계를 포괄하며, 다양한 시점, 세분화 수준, 관계 제약의 밀도를 통해 현실 세계의 복잡성을 모방합니다.
주요 기여 중 하나는 논리 기반의 일관성 검사 도구를 통해 다수의 타당한 해법을 평가할 수 있게 하는 것입니다. 이는 공간적 관계가 종종 해석의 여지가 있는 현실 시나리오와 일치합니다. 고급 LMs에 대한 우리의 벤치마크 평가 결과, 이들이 공간적 추론에서의 강점과 한계를 보여주었습니다. 특히 다중 단계의 공간적 추론과 다양한 시점 설명을 혼합하여 해석하는 데 어려움을 겪고 있으며, 이는 향후 개선이 필요한 영역임을 시사합니다.
LocMoE: A Low-overhead MoE for Large Language Model Training
Mixtures-of-Experts (MoE) 모델은 대형 언어 모델(LLM)을 위한 널리 사용되는 분산 및 통합 학습 방법으로, 모델을 효율적으로 희소화하고 확장할 수 있는 능력 덕분에 선호됩니다. 그러나 MoE의 성능은 부하 불균형과 All-to-All 통신의 높은 지연 시간, 그리고 대규모 전문가 용량으로 인한 상대적으로 불필요한 계산으로 인해 제한됩니다. 부하 불균형은 특정 전문가를 지속적으로 선택하는 기존 라우팅 정책에서 발생할 수 있습니다. 또한, All-to-All 절차에서의 빈번한 노드 간 통신은 훈련 시간을 크게 연장시킵니다. 이러한 성능 문제를 완화하기 위해, 우리는 부하 균형과 로컬리티를 결합하여 일부 노드 간 통신을 노드 내 통신으로 변환하는 새로운 라우팅 전략을 제안합니다. 특히, 우리는 전문가 용량의 최소 임계값이 있으며, 이는 전문가의 게이팅 가중치와 할당된 토큰 간의 최대 각도 편차를 통해 계산된다는 것을 설명합니다. 우리는 이러한 수정 사항을 MindSpore 프레임워크 기반의 PanGu-Σ 모델에 다단계 라우팅을 적용하여 Ascend 클러스터에서 실험을 수행했습니다. 실험 결과, 제안된 LocMoE는 모델 정확도에 영향을 미치지 않으면서도, 해시 라우터나 스위치 라우터와 같은 기존 라우터에 비해 에폭당 훈련 시간을 12.68%에서 22.24%까지 단축시켰음을 입증했습니다.
반응형