'분류 전체보기' 카테고리의 글 목록 (4 Page)

[Python] 반복문(for문)으로 변수 여러개 한 번에 선언하기, globals()

2024.06.09·

Programming/Python

데이터 분석 작업을 할 때 종종 반복문을 통해서 변수를 여러개 생성하고 싶을 때가 있다.이 때, Python에서 내장 함수로 제공하는 globals()를 사용할 수 있다.globals() globals()는 현재 프로그램에 대한 모든 전역 변수와 기호가 포함된 딕셔너리를 반환한다. 이제 globals() 메서드를 통해서 전역 변수를 선언해보자. 우리는 globals() 메서드를 사용해 코드의 전역 변수를 수정할 수 있다. globals()를 사용해 전역변수 선언 방법 globlas()["변수 이름"] = '값' Example:globals()["name"] = "HaSeong"print("The name is: ", name)Output: The name is HaSeong 반복문에서 globals()..

[NLP] 토크나이저(Tokenizer) 비교 Mecab, Okt, Komoran, Kannanum, Kkma

2024.06.05·

Data Science/NLP

NLP 태스크의 전처리 과정에서, 토큰화(tokenization), 정제(cleaning), 정규화(normalization)와 같은 작업이 수행된다. 토큰화란? (Tokenization) 토큰화는 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업이다.토큰의 단위는 상황에 따라 다르지만, 보통 의미있는 단위를 토큰으로 정의한다.ex) 단어, 형태소 한국어 토큰화 영어는 New York같은 합성어나 There's와 같은 줄임말에 대한 예외처리만 한다면, 띄어쓰기를 기준으로 토큰화를 수행해도 의미를 가지고 있는 단위로 볼 수 있는 단어 토큰화가 잘 작동한다.-> 영어는 대부분 단어 단위로 띄어쓰기가 이루어지기 때문이다. 하지만 한국어에서는 띄어쓰기를 기준으로 토큰화를 하면 제대..

목적 함수(Objective Function) vs 비용 함수(Cost Function) vs 손실 함수(Loss Function)

2024.06.03·

Data Science/ML & DL

목적 함수 (Objective Function) 가장 큰 범위의 개념, 모델이 최적화하고자 하는 함수머신러닝 모델의 목표는 목적함수를 최소화 or 최대화 하는 것일반적으로 손실 함수(Loss Function)이나 비용 함수(Cost Function)을 포함Example)선형 회귀에서 잔차 제곱합(SSE: Sum of Squared Errors)을 최소화 하는 것분류 문제에서 로그 손실(Log Loss)을 최소화 하는 것 비용 함수 (Cost Function) 전체 데이터셋에 대해 모델의 성능을 평가하는 함수모델이 전체 데이터셋에 대해 얼마나 잘 수행하는지를 측정일반적으로 여러 손실 함수(Loss Function)의 평균 또는 합모델 학습 과정에서 최소화 하려는 대상Example)평균 제곱 오차 (MSE:..

확률적 경사 하강법(SGD)이란? 배치 학습 (Batch learning) vs 점진적 학습 (Incremental learning)

2024.06.02·

Data Science/ML & DL

배치 학습 (Batch learning) 한 번에 모든 훈련 데이터를 학습시키는 방법새로운 데이터를 추가해 재학습 시키려면, 시간과 자원을 많이 소모일반적으로 오프라인 환경에서 수행되므로, 오프라인 학습(Offline leanring)이라고 부름 점진적 학습 (Incremental learning) 일반적으로 학습이 끝난 모델에 대해, 미니배치(Mini-batch) 라 부르는 작은 묶음 단위의 데이터를 주입하여 학습매 학습 단계가 빠르고 비용이 적게 들어, 시스템은 데이터가 도착하는대로 즉시 학습 가능연속적으로 데이터를 받고 빠른 변화에 스스로 적응해야 하는 시스템에 적합. ex)주가 예측자원이 한정된 환경에 적합이미 학습된 데이터는 필요하지 않아, 저장공간 절약 가능일반적으로 온라인 환경에 수행되므로..

티스토리툴바