목록NLP (13)
욤미의 개발일지
불용어(stopword)란, 분석에 큰 의미가 없는 단어 토큰을 의미갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요하다. 이러한 작업을 불용어 제거라고 한다. 여기서 큰 의미가 없다라는 것은 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들을 말합니다. 불용어는 텍스트에 빈번하게 등장하기 때문에 중요한 단어로 보일 수 있지만 문맥적으로는 큰 의미가 없는 단어이므로 사전에 제거해줘야한다.영어영어에서 a, the, I, my, me, over, 조사, 접미사 같은 단어들은 문장에서 자주 등장하지만 실제 의미 분석에 거의 기여하는 바가 없는 경우가 많다.NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지..

Language Model Scaling Laws for LMs(OpenAI, 2022)에서 LM의 performance는 model size, dataset size, amount of compute가 커짐에 따라 향상됨을 증명했다. 대규모 말뭉치에서 사전학습된 언어 모델은 성능이 좋아지고 그 크기도 커졌다. → GPT 시리즈의 등장 Overview GPT-1 (Generative Pre-trained Transformer, 2018.06.11) Transformer의 디코더 부분만 사용하여 언어 생성 모델을 구성하며, 입력에 대한 출력의 확률을 계산한다. 비지도 사전학습을 통해 문맥을 이해하고, 지도 학습으로 미세조정(fine-tuning)하는 모델 GPT-2 (2019.02.14) GPT-1 보다 ..

[Lecture 15] 선형 독립과 선형 변환 Linear Combinations(선형 결합) $\mathbb{R}^n$ 에서 $c_1\textbf{v}_1 + \cdots + c_p\textbf{v}_p$ matrix equation $Ax=\textbf{b}$ $$\begin{bmatrix} 60 & 5.5 & 1\\ 65 & 5.0 & 0 \\ 55 & 6.0 & 1 \end{bmatrix} \begin{bmatrix} x_1\\ x_2 \\ x_3 \end{bmatrix} =\begin{bmatrix} 66\\ 74 \\ 78 \end{bmatrix}$$ vector equation $\textbf{a}_1x_1 + \textbf{a}_2x_2 + \textbf{a}_3x_3 = \textbf{b..
[Lecture 14] 선형대수 기초와 선형 시스템 Scalar: 숫자 하나 Vector: 숫자 리스트, 크기와 방향을 가지고 있다. $\mathbb{R}$ : 실수 전체집합 $x=\begin{bmatrix} 1\\ 0 \\ 2 \end{bmatrix} \in \mathbb{R}^3$ : 3차원 벡터, 3차원 전체 실수 집합 중 하나 $A=\begin{bmatrix} 1 & 6\\ 0 & 4 \\ 5 & 2 \end{bmatrix} \in \mathbb{R}^{3 \times 2}$ , 3rows and 2 columns, 3 by 2 column vector: 수직(vertical) 벡터 → 수직형태가 default vector $x=\begin{bmatrix} x_1\\ x_2 \\ \vdots \\..
[Lecture 13] Web Web Page 서버에 요청을 보내면 서버는 리소스를 사용자에게 보여줌 웹 브라우저를 통해 포맷팅 되어 화면에 나타난다. html은 xml 구조를 가진다. → F12키로 Development Tool 확인 가능 html을 가져와서 beautiful soup 등 xml parser로 해석 가능 Requests 웹페이지를 읽기 위한 라이브러리 conda install requests import requests url = '' response = requests.get(url) # GET으로 접근 print(response.status_code) # 결과 코드, 200 정상 제대로 데이터를 가져옴/ 404 웹페이지를 찾을 수 없다. / 500 웹 서버에 문제가 있다. print..
[Lecture 12] Setting & Exception & Logging Programming Setting 실행할 때 마다 필요한 설정 값 딥러닝 학습 횟수(epoch), 학습 계수(language rate), gpu 개수 → Command Line Argument(명령행 인자)로 입력하면 편리함 한번 설정하면 수정을 잘 안하는 설정 값 폴더 위치, 포트 → 설정 파일에서 불러들이기(YAML, ConfigParser) Command Line Argument 콘솔 창에서 프로그램 실행 시 프로그램에 넘겨주는 인자 값 Command-line Interface(CLI)에서 흔히 쓰는 방식 공백 기준으로 분리되며 문자열 형태로 전달 import sys, sys.argv로 접근 가능 argparser Com..