SSE 내장 함수를 사용하여 float 벡터의 합 요소를 어떻게 얻을 수 있나요? 간단한 직렬 코드: void(float *input, float &result, unsigned int NumElems) { result = 0; for(auto i=0; i