욤미의 개발일지

[논문 리뷰] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models 본문

Paper Review

[논문 리뷰] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models

욤미 2025. 2. 12. 18:48
728x90
반응형

Ming Jin1∗ , Shiyu Wang2∗ , Lintao Ma2 , Zhixuan Chu2 , James Y. Zhang2 , Xiaoming Shi2 , Pin-Yu Chen3 , Yuxuan Liang6 , Yuan-Fang Li1 , Shirui Pan4† , Qingsong Wen5†

1 Monash University 2 Ant Group 3 IBM Research 4 Griffith University 5 Alibaba Group 6 The Hong Kong University of Science and Technology (Guangzhou)

{ming.jin, yuanfang.li}@monash.edu, pin-yu.chen@ibm.com yuxliang@outlook.com, s.pan@griffith.edu.au, qingsongedu@gmail.com {weiming.wsy,lintao.mlt,chuzhixuan.czx,james.z,peter.sxm}@antgroup.com

 

 2023.10

384회 인용 (2025.02.12 기준)

 

Paper


  • Time Series + Natural Language 두 개의 서로 다른 Modality를 align하는 LLM 기반의 프레임워크

모델의 구조 변경은 X, input을 전처리 하는 과정을 거침LLM & Time-Series Data

  • LLM: 데이터로 부터 Semantic Information과 Knowledge Representation을 학습한 모델을 바탕으로 다양한 Task를 수행
    • NLP, CV 분야에서 우수한 성능을 보였으며 최근에는 Time-Series data로 까지 확장
      1. 기존 LLM에 Time-series data를 이용
      2. Time-series data에 맞는 LM을 설계하고 pre-training한 후 다양한 downstream task에 맞게 fine-tuning(Representation Learning)

학습 종류

  • 숫자 데이터를 토크나이저를 통해 텍스트 시퀀스로 구성하여 학습
  • 숫자 데이터를 그대로 입력으로 사용
  • self-supervised 방식으로 데이터에 대한 representation을 학습하고 downstream task 에 맞는 head를 추가하여 재학습

LLM&TS 한계점

  • TS는 대규모 데이터를 구하기가 어렵다 → pre training이 어려움
  • 각 데이터셋의 특징과 모양이 상이하다 → 통계적 특성, scale의 차이
  • 적절한 pre-training object의 부재

Method

 💡 Patch Reprograming: 서로 다른 modal data Time-Series data와 Natural Language를 align하여 TS에 대해 모델이 이해하도록 함 Prompt-as-Prefix(PaP): Time series data의 사전정보를자연어로 제공하여 LLM의 Pattern recognition과 Reasoning ability를 향상 → 데이터에 대한 가이드라인 제공(dataset context, task instruction, input statistics)
  1. input: channel independence(feature를 개별적으로 다룸)
  2. Patch Reprograming, Prompt-as-Prefix
  3. Using pre-trained and forzen LLM
  4. output projection

Reversible Instance Normalization(RevIN)

  • 시계열 데이터는 시간 변화에 따라 분포가 변화는 경우가 대부분이다 = Non stationary
  • train/test데이터 간, 혹은 lookback window와 forecasting horizon에서 발생 → 모델이 잘 generalization 되지 않는다.
  • 이러한 distribution shift 문제를 해결하기 위해서 input sequence에 대해서 normalize를 진행하고 도출된 original distribution information과 scale과 shift를 조정하는 learnable parameter를 바탕으로 output sequence에서 다시 de-normalize를 진행

728x90
반응형
Comments