본문 바로가기
728x90

인공신경망(DL)18

Transformer / BERT, GPT Transformer의 장점과 주요 프로세스인 Self-Attention에 대해 이해하고 설명할 수 있다. 트랜스포머를 발표한 논문 제목은 왜 "Attention is All You Need"인지 설명할 수 있다. Positional Encoding을 적용하는 이유에 대해서 설명할 수 있다. Masked Self-Attention가 트랜스포머 구조 중 어디에 적용되며 어떤 역할을 하는지 설명할 수 있다. 기존 RNN과 비교하여 Transformer가 가지는 장점에 대해서 설명할 수 있다. GPT, BERT 그리고 다른 모델에 대해서 개략적으로 설명할 수 있다. GPT(Generative Pre-Training) 사전 학습된 언어 모델(Pre-trained LM)의 Pre-training과 Fine-tun.. 2021. 8. 22.
Recurrent Neural Network, RNN 언어 모델 (Language Model) 통계 기반 언어모델을 이해하고 설명할 수 있습니다. 통계 기반 언어모델의 한계를 이해하고 이를 극복하기 위해 등장한 신경망 언어 모델의 장점을 설명할 수 있습니다. 순환 신경망 (Recurrent Neural Network, RNN) RNN의 구조와 작동 방식을 이해하고 설명할 수 있습니다. RNN의 장점과 단점을 설명하고 이해할 수 있습니다. LSTM & GRU LSTM과 GRU가 고안된 배경과 구조를 연관지어 설명할 수 있습니다. 두 방법의 차이에 대해서 설명할 수 있습니다. Attention Attention이 탄생하게 된 배경에 대해서 설명할 수 있습니다. Attention의 장점에 대해서 설명하고 Attention 으로도 해결할 수 없는 RNN의 구조적 .. 2021. 8. 22.
분산표현(Distributed Representation, word2Vec, FastText) 단어의 분산 표현(Distributed Representation) 원-핫 인코딩의 개념과 단점에 대해서 이해할 수 있습니다. 분포 기반의 표현, 임베딩이 무엇인지 설명할 수 있습니다. Word2Vec CBoW와 Skip-gram의 차이에 대해서 설명할 수 있습니다. Word2Vec의 임베딩 벡터를 시각화한 결과가 어떤 특징을 가지는지 설명할 수 있습니다. fastText OOV 문제가 무엇인지에 대해 설명할 수 있습니다. 철자(Character) 단위 임베딩 방법의 장점에 대해 설명할 수 있습니다. 정리 : https://github.com/codestates/AIB04_Discussion/discussions/18 분산표현 Distributer Representation 'good 과 beautifu.. 2021. 8. 21.
NLP, Natural Language Processing 자연어처리 자연어처리를 통해 어떤 일을 할 수 있는지 알 수 있습니다. 전처리(Preprocessing) 토큰화(Tokenization)에 대해 설명할 수 있으며 SpaCy 라이브러리를 활용하여 토큰화를 진행할 수 있습니다. 불용어(Stop words)를 제거하는 이유를 설명할 수 있고, 불용어 사전을 커스터마이징한 후 해당하는 내용을 토큰화에 적용할 수 있습니다. 어간 추출(Stemming)과 표제어 추출(Lemmatization)의 차이점을 알고 각각의 장단점에 대해 설명할 수 있습니다. 등장 횟수 기반의 단어 표현(Count-based Representation) 문서-단어 행렬(Document-Term Matrix, DTM)을 이해하고 Bag-of-words 에 대해서 설명할 수 있습니다. TF-.. 2021. 8. 21.
Neural Network Hyperparameter Part 1: 대표적인 하이퍼 파라미터를 설명 할 수 있습니다 Part 2: ETF (Experiment Tracking Framework)에 대해 알아보고 적용할 수 있습니다. Part 3: (Optional) RandomSearch를 사용해서 하이퍼 파라미터 공간에서 최적의 하이퍼 파라미터를 찾을 수 있습니다 진행방식 데이터를 다운로드 받고 읽어옴(load) 데이터 클리닝을 진행 (필수는 아니지만 추천) / StandardScaler, MinMaxScaler Keras MLP model을 만들고, 학습 진행 * Hyperparameter batch_size training epochs optimizer learning rate (optimizer에 따라서 해당되면) momentum (optimizer.. 2021. 8. 16.
기울기 소실 Vanishing, 발산 Exploding 기울기 소실(Gradient Vanishing)과 발산(Exploding) 깊은 인공 신경망을 학습하다보면 역전파 과정에서 입력층으로 갈수록 기울기(Gradient)가 점차적으로 작아지는 현상이 발생 == 가중치 업데이트가 제대로 안된다. 결국은 최적의 모델을 찾을 수 없게 된다. 이를 기울기 소실(Gradient Vanishing)이라고 한다. 반대의 경우가 기울기 발산(Gradient Exploding) 1. ReLU와 ReLU의 변형들 Sigmoid 함수를 사용하면 입력의 절대값이 클 경우에 Sigmoid 함수의 출력값이 0 또는 1에 수렴하면서 기울기가 0에 가까워진다. 그래서 역전파 과정에서 전파 시킬 기울기가 점차 사라져서 입력층 방향으로 갈수록 제대로 역전파가 되지 않는 기울기 소실 문제가 .. 2021. 8. 15.
Weight Regularization 과적합 방지 Part 1: 모델 아키텍쳐를 어떻게 선택하는 지 배우게 됩니다. Part 2: 가중치의 규제(Regularization) 전략을 배웁니다. Part 3: 다양한 활성함수를 사용함에 발생하는 trade-off에 대해서 논의해볼 수 있어야 합니다. 과적합을 피하는 방법 데이터 양 늘리기 모델 복잡도 줄이기 ( 학습할 파라미터 수 줄이기 ) 복잡도는 은닉층(hidden layer)의 수나 매개변수의 수 등으로 결정 인공 신경망에서는 모델에 있는 매개변수들의 수를 모델의 수용력(capacity)이라고 한다. 적절한 layer 수, node 수, learning_rate ...(하이퍼파라미터 조정 GridSearchCV) weight decay (정보에 제약을 가한다 ) Dropout 정규화를 한다는것은 신경망.. 2021. 8. 15.
sigmoid 미분 * sigmoid 함수 미분 (= Logistic Function), deep learning 에선 sigmoid라고 불림 https://towardsdatascience.com/derivative-of-the-sigmoid-function-536880cf918e 1단계 2단계 3단계 4단계 5단계 6단계 7단계 8단계 9단계 마지막 2021. 8. 14.
728x90