반응형
Notice
Link
목록연산단위충족문제 (1)
스택큐힙리스트
프로세서 폭의 배수가 아닌 uop 개수를 가진 루프를 실행할 때 성능이 감소되나요?
저는 최근 x86 프로세서에서 다양한 크기의 루프가 몇 개의 uop에 따라 어떻게 수행되는지 궁금합니다. 다른 질문(링크)에서 이 문제를 제기한 Peter Cordes의 인용문이 있습니다: 루프가 4개의 uop의 배수가 아닌 경우 루프 버퍼에서 나오는 uop 대역폭이 상수적으로 1 사이클당 4개가 아니라는 점을 발견했습니다. (즉, abc, abc, ...가 아닌 abca, bcab, ...). Agner Fog의 마이크로아키텍처 문서에서는 루프 버퍼의 이러한 한계에 대해 명확히 설명되지 않았습니다. 이 문제는 루프가 최대 uop 처리량으로 실행되기 위해 N 개의 uop의 배수여야 하는지 여부에 대한 문제입니다. 여기서 N은 프로세서의 너비입니다. (최근 Intel 프로세서의 경우 4입니다). 너비와 u..
카테고리 없음
2023. 10. 26. 12:26