'2023/10/25 글 목록

Notice

Link

« 2023/10 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록2023/10/25 (11)

스택큐힙리스트

인덱스 주소 지정 모드를 사용할 때 병목현상

나는 이 시퀀스가 3개의 retire 슬롯을 필요로 하며 백엔드에는 다른 병목 현상이 없어야 하므로 스루풋이 0.75가 될 것으로 예상합니다. IACA도 이 스루풋을 보고합니다. 그러나 실제 스루풋은 1입니다(µops가 디코더에서 온 것이든 DSB에서 온 것이든 독립적입니다). 이 경우 병목은 무엇인가요? 인덱스 주소 모드가 없는 경우,cmp rbx, qword ptr [r14]; nop 의 처리량은 0.5입니다. 예상대로입니다.답변 1IACA의 파이프라인 모델은 꽤 순진해보입니다. Sandybridge의 4의 배수 uop 이슈 효과에 대해 알지 못하는 것 같습니다 (예: 6 uop 루프는 8과 같은 비용이 발생합니다). 또한 IACA는 Haswell에서 add eax, [rdi+rdx] 마이크로 퓨즈드..

카테고리 없음 2023. 10. 25. 10:32

무부호 64비트를 더블로 변환하는 방법: g++에서 이 알고리즘의 이유

단순하게는, %rcx를 절반으로 나눌 수 있고, %xmm0에서 double로 변환한 후에 %xmm0에 자기 자신을 더하여 원래의 값을 얻을 수 있습니다 (물론, 64비트 정수에서 64비트 부동 소수점으로 전환하면 일부 하위 정밀도를 손실하게 됩니다).하지만 코드가 하는 일은 아닙니다: %rcx 의 최하위 비트를 저장한 다음 결과에 이를 다시 or 연산합니다. 왜 그렇게 하는 건가요?? 그리고 이 최하위 비트들은 어쨌든 잃어버리게 될 텐데 왜 귀찮게 이렇게 하는 걸까요 (혹시 제가 잘못 이해한 건가요)? (최적화에 관계없이 동일한 알고리즘이 사용되는 것 같습니다; 여기서는 보다 쉽게 보기 위해 -O3 옵션을 사용했습니다.)답변 1이것은 특정 인스턴스에서 round-to-odd를 구현하는 정확한 방법입니다...

카테고리 없음 2023. 10. 25. 09:14

성능 최적화 x86-64 어셈블리 - 정렬과 분기 예측

_strlen64_sse2: rdi와 rdi를 비교하여 테스트합니다. 0으로 jz (점프하지 않음)합니다. ; ... 동일한 테스트를 실행하는데 이제는 0.59초까지 걸립니다. 그러나 이 체크 이후의 코드를 정렬하면: _strlen64_sse2: rdi와 rdi를 비교하여 테스트합니다. 0으로 jz (점프하지 않음)합니다. 8만큼 정렬합니다. ; ... 원래의 공연은 돌아왔습니다. 4는 아무런 변화도 없으므로 정렬을 위해 8을 사용했습니다. 이것에 대해 설명하고 코드 섹션을 정렬할 때와 정렬하지 않아야 할 때에 대한 조언을 주실 수 있을까요? 수정 2 물론, 모든 분기 대상을 정렬하는 것만큼 간단하지는 않습니다. 그렇게 하면 보통 성능이 나빠질 수 있습니다. 위와 같은 특정한 경우를 제외하고는요.답변 1..

카테고리 없음 2023. 10. 25. 09:14

SSE float 벡터의 감소

SSE 내장 함수를 사용하여 float 벡터의 합 요소를 어떻게 얻을 수 있나요? 간단한 직렬 코드: void(float *input, float &result, unsigned int NumElems) { result = 0; for(auto i=0; i

카테고리 없음 2023. 10. 25. 09:14

이전 Prev 1 2 3 Next 다음

목록2023/10/25 (11)

스택큐힙리스트

티스토리툴바