분류 전체보기
-
Llava tutorialNew 2024. 12. 3. 14:00
https://colab.research.google.com/github/NielsRogge/Transformers-Tutorials/blob/master/LLaVa/Inference_with_LLaVa_for_multimodal_generation.ipynb#scrollTo=MjlIoxq3u8ef https://github.com/NielsRogge/Transformers-Tutorials/blob/master/LLaVa/Inference_with_LLaVa_for_multimodal_generation.ipynb Building an LLM App with TinyLLaVAhttps://wandb.ai/vincenttu/building_llm_app/reports/Building-an-LLM-Ap..
-
A Survey on Multimodal Large Language Models논문 리뷰/Multimodal 2024. 11. 13. 09:53
MLLM 개요MLLM은 텍스트, 이미지, 비디오, 오디오 등 다양한 유형의 정보를 이해하고 처리할 수 있는 AI 모델입니다. 최근 GPT-4V와 같은 발전으로 MLLM은 빠르게 진화하고 있으며 일반 인공지능(AGI)을 향한 가능한 경로로 주목받고 있습니다.1. 기본 구조 및 교육 전략구조: MLLM에는 일반적으로 사전 학습된 모달리티 인코더, 사전 학습된 LLM(대형 언어 모델) 및 둘을 연결하는 모달리티 인터페이스가 포함됩니다.Modality Encoders: CLIP과 같은 사전 훈련된 인코더를 사용하여 원시 데이터(예: 이미지, 오디오)를 LLM이 해석할 수 있는 형식으로 변환합니다.사전 훈련된 LLM: 방대한 텍스트 데이터에 대해 훈련된 LLM(예: Flan-T5, LLaMA, Vicuna)은 지..
-
A Comprehensive Review of Multimodal LargeLanguage Models: Performance and ChallengesAcross Different Tasks논문 리뷰/Multimodal 2024. 11. 13. 09:43
이기종 데이터 입력 및 처리 방법 1. 텍스트 및 이미지 입력 처리텍스트: 텍스트는 이미 LLM이 이해할 수 있는 형식이므로 변환이 필요하지 않습니다.이미지: 이미지는 LLM이 처리할 수 있는 형식으로 변환되어야 합니다. 이미지 인코더는 이미지 특징을 추출하고 이를 벡터로 변환하는 데 사용됩니다.이미지 인코더: 일반적으로 사용되는 인코더에는 CLIP, ImageBind 및 CLAP가 포함됩니다. 2. 텍스트와 이미지 정보 결합인코더의 이미지 정보와 텍스트 정보를 결합하는 두 가지 기본 방법이 있습니다.● 토큰 수준 융합이미지 특징 벡터를 토큰으로 변환한 다음 이를 텍스트 토큰과 결합하여 LLM에 입력합니다.Q-Former: 쿼리 토큰을 사용하여 이미지 정보를 요약한 다음 입력을 위해 텍스트 토큰과 연..
-
Large Multimodal Agents: A Survey논문 리뷰/Agent 2024. 11. 13. 09:35
LLM 기반 Multimodal Agents (LMA) 연구 분류Planner의 특성과 장기 기억 (Long-term Memory) 유무에 따라 크게 4가지 유형으로 분류할 수 있음 Planner 는 LMA(Large Multimodal Agent)에서 인간의 뇌와 같은 역할을 수행하는 핵심 구성 요소입니다. 다양한 멀티모달 정보를 바탕으로 현재 작업에 대한 심층적인 추론을 수행하고, 그에 맞는 계획을 수립하는 역할을 담당플래너장기 기억주요 기능폐쇄형 LLM(예: GPT-3.5)없음추론을 위해 프롬프트를 사용합니다. 기본 작업; 복잡한 환경에서는 제한적입니다.미세 조정된 LLM(예: LLaMA, LLaVA)없음다중 모드 작업에 맞게 미세 조정되었습니다. 유형 I에 비해 향상된 계획 및 실행; 장기 기억력..
-
Selective Generation for Controllable Language Models논문 리뷰/NeurIPS 2024 2024. 11. 12. 14:43
NotebookLM 요약 이 논문은 생성 언어 모델(GLM)의 신뢰성을 높이기 위해 제안된 선택적 생성(selective generation) 방법에 대해 설명합니다. GLM은 종종 환각(hallucination) 문제, 즉 사실이 아닌 정보를 생성하는 문제를 겪는데, 선택적 생성은 이러한 문제를 해결하기 위해 모델이 확신하지 못하는 경우 답변을 거부하는 기능을 도입합니다. 논문에서는 텍스트적 의미 포함(textual entailment) 개념을 활용하여 생성된 답변의 정확성을 평가하고, 이를 통해 오류 발생률을 제어하는 두 가지 알고리즘 SGenSup과 SGenSemi를 제안합니다. SGenSup은 지도 학습 방식으로, 인간이 텍스트적 의미 포함을 라벨링한 데이터를 사용합니다. 반면에 SGenSemi는..
-
법률 LLMNew 2024. 9. 10. 09:39
인텔리콘연구소, 법률 특화 LLM '코알라' 개발 성공 소형언어모델(sLLM) '코알라(KOALLA)' 개발 직접선호최적화(DPO)같은 기법과 학습 데이터 구성 자체를 최적화하는 데이터 재규격화(Renormalization) 기술을 개발, 추가 학습을 진행했다.데이터 재규격화 기법은 인텔리콘이 고안한 특허 기술로, 방대한 학습 데이터에서 성능 향상에 불필요한 데이터를 제거하는 데이터 디노이징(Data-denoizing) 기법과 실제 사용자의 행동 패턴 데이터를 융합해 리셔플링(Re-shuffling)하는 기술을 포함한다. 출처 : AI타임스(https://www.aitimes.com) superlawyer https://superlawyer.co.kr/?utm_source=Google_SA&utm_me..
-
ValueError: `rope_scaling` must be a dictionary with with two fields, `type` and `factor`공부/error 2024. 8. 27. 15:08
https://sjkoding.tistory.com/94 [LLM]Llama 3.1 설치 및 ValueError: `rope_scaling` 해결방법 (+ vLLM 에러 해결 such as '_OpNamespace' '_C' object has nhttps://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct meta-llama/Meta-Llama-3.1-8B-Instruct · Hugging FaceThe information you provide will be collected, stored, processed and shared in accordance with the Meta Privacy Policy. LLAMA 3.1 COMMUNITY Lsjkodi..
-
nlp6New 2024. 8. 22. 10:14
MEDVOC: Vocabulary Adaptation for Fine-tuning Pre-trained Language Models on Medical Text Summarization 이 연구는 BERTSumAbs, BART, PEGASUS와 같은 사전 학습된 언어 모델(PLM)을 의료 텍스트 요약에 맞게 미세 조정하기 위한 동적 어휘 적응 전략인 MEDVOC을 제안합니다. 기존의 요약 도메인 적응 접근법과 달리, MEDVOC은 어휘를 최적화 가능한 매개변수로 간주하고, 다운스트림 작업의 참조 요약에만 조건화된 프래그먼트 점수를 기반으로 PLM 어휘를 최적화합니다. 이전의 어휘 적응 작업(주로 분류 작업에만 제한됨)과 달리, 요약 작업을 기반으로 어휘를 최적화하는 것은 대규모 요약 데이터셋에 대한 매우..