스택큐힙리스트

당신은 컴퓨터 전문가입니다. 신경망에서 훈련 세트, 검증 세트 및 테스트 세트의 차이점은 무엇인가요? 본문

카테고리 없음

당신은 컴퓨터 전문가입니다. 신경망에서 훈련 세트, 검증 세트 및 테스트 세트의 차이점은 무엇인가요?

스택큐힙리스트 2023. 12. 20. 01:30
반응형

   def train(self, train, validation, N=0.3, M=0.1):
# N: 학습률
# M: 모멘텀 인자
정확도 = list()
while(True):
오차 = 0.0
for p in train:
입력, 대상 = p
self.update(입력)
오차 = 오차 + self.backPropagate(대상, N, M)
print 검증
총계 = 0
for p in validation:
입력, 대상 = p
출력 = self.update(입력)
총계 += sum([abs(대상 - 출력) for 대상, 출력 in zip(대상, 출력)]) # 대상과 출력 간의 절대 차이의 합을 계산
정확도.append(총계)
print min(정확도)
print sum(정확도[-5:])/5
#if i % 100 == 0:
print '오차 %-14f' % 오차
if ? < ?:
break

편집


검증 데이터로 평균 오차 0.2를 얻을 수 있으며, 아마도 20번의 훈련 반복 후에 이는 80%일 것입니다.

평균 오차 = 검증 타겟과 출력값 사이의 절대 차이의 합 / 검증 데이터 입력 크기.


1
평균 오차 0.520395
검증
0.246937882684
2
평균 오차 0.272367
검증
0.228832420879
3
평균 오차 0.249578
검증
0.216253590304
...
22
평균 오차 0.227753
검증
0.200239244714
23
평균 오차 0.227905
검증
0.199875013416

답변 1

훈련 및 검증 세트는 훈련 동안 사용됩니다.


각 epoch에 대해
각 훈련 데이터 인스턴스에 대해
오차를 네트워크에 전파시킴
가중치 조정
훈련 데이터에 대한 정확도 계산
각 검증 데이터 인스턴스에 대해
검증 데이터에 대한 정확도 계산
임계값 검증 정확도가 충족되면
훈련 중지
그렇지 않으면
계속 훈련

훈련이 완료되면 테스트 세트에 대해 실행하여 정확도가 충분한지 확인합니다.


훈련 세트: 이 데이터 세트는 신경망의 가중치를 조정하는 데 사용됩니다.

검증 세트: 이 데이터 세트는 오버피팅을 최소화하기 위해 사용됩니다. 이 데이터 세트로 네트워크의 가중치를 조정하지 않고, 트레이닝 데이터 세트보다 정확도가 실제로 증가하는지 확인하기 위해 사용됩니다. 즉, 네트워크에게 이전에 보여주지 않았거나 트레이닝하지 않은 데이터 세트(검증 데이터 세트)에 대한 정확도가 증가하는지 확인합니다. 트레이닝 데이터 세트의 정확도가 증가하지만, 검증 데이터 세트의 정확도가 동일하거나 감소하면, 신경망이 오버피팅되었으며 트레이닝을 중지해야 합니다.


테스트 세트: 이 데이터 세트는 최종 솔루션을 테스트하기 위해서만 사용되며, 실제 예측 능력을 확인하기 위해 사용됩니다.

답변 2

훈련, 검증 및 테스트 세트는 신경망에서 다양한 용도로 사용되는 데이터 세트입니다. 훈련 세트는 모델이 학습하는 데 사용되는 데이터의 부분집합입니다. 일반적으로, 훈련 세트는 모델에 대한 많은 양의 다양한 입력과 그에 상응하는 목표 출력으로 구성됩니다.
검증 세트는 훈련 세트로 학습된 모델의 성능을 평가하는 데 사용됩니다. 훈련 단계에서 모델은 훈련 세트의 데이터를 사용하여 가중치와 편향을 조정하여 학습합니다. 그런 다음 검증 세트의 데이터를 사용하여 모델의 일반화 능력을 평가하고 하이퍼파라미터 등의 조정을 수행합니다.
테스트 세트는 최종 모델의 전체 성능을 검증하기 위해 사용됩니다. 이 세트는 모델이 이전에 보지 못한 완전히 새로운 데이터로 구성되어 있습니다. 테스트 세트는 모델의 일반화 능력을 정량화하고, 훈련 단계에서의 과적합 여부를 확인하는 데 도움을 줍니다.
각 데이터 세트는 독립적이며 중복되지 않아야 합니다. 왜냐하면 모델이 동일한 데이터를 여러 번 보는 것은 부정확한 성능 측정 결과를 가져올 수 있기 때문입니다.
좋은 신경망 모델을 개발하기 위해 적절한 데이터 분할 방법이 필요합니다. 일반적으로, 훈련 세트는 모델을 충분히 학습시키기 위해 크고 다양한 데이터를 포함해야 합니다. 검증 세트는 하이퍼파라미터 튜닝을 위한 모델의 일반화 능력 평가에 사용되며, 테스트 세트는 최종 모델의 일반화 능력을 정량화하는 데 사용됩니다. 정확한 분할 비율은 문제의 특성에 따라 다를 수 있으며, 일반적으로는 전체 데이터의 약 70-80%를 훈련 세트로, 나머지를 검증 및 테스트 세트로 할당하는 것이 일반적입니다.
훈련, 검증 및 테스트 세트의 적절한 활용은 모델의 일반화 능력을 개선하는 데 중요한 역할을 합니다. 이를 통해 더욱 정확하고 신뢰할 수 있는 모델을 개발할 수 있습니다.
[검색 엔진 최적화(SEO) 관련 키워드: 신경망, 훈련 세트, 검증 세트, 테스트 세트, 데이터 분할, 모델 일반화 능력, 하이퍼파라미터, 과적합, 성능 평가, 데이터셋]

반응형
Comments