목록클라우드컴퓨팅 (134)
스택큐힙리스트
Spark는 리듀스 작업의 수를 계산하기 위해 어떤 공식을 사용하나요? 저는 몇 개의 Spark-sql 쿼리를 실행하고 있는데, 리듀스 작업의 수는 항상 200입니다. 이러한 쿼리의 맵 작업 수는 154입니다. 저는 Spark 1.4.1을 사용하고 있습니다. 이것은 기본적으로 200으로 설정된 spark.shuffle.sort.bypassMergeThreshold와 관련이 있나요?답변 1당신이 원하는 것은 spark.sql.shuffle.partitions 입니다. Spark SQL 성능 튜닝 가이드에 따르면: | 속성 이름 | 기본값 | 의미 | +-----------------------------+-------+----------------------------------------------+ |..
저는 Authorization HTTP 헤더 유형으로 가장 적절한 것이 무엇인지 궁금합니다. JWT 토큰에 대해요. 아마도 가장 인기 있는 타입 중 하나는 Basic입니다. 예를 들면: Authorization: Basic QWxhZGRpbjpvcGVuIHNlc2FtZQ== 이 헤더는 로그인과 비밀번호와 같은 두 가지 매개변수를 처리합니다. 그래서 JWT 토큰에는 관련이 없습니다. 또한, Bearer 타입에 대해 들어봤습니다. 예를 들면: Authorization: Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzdWIiOiIxMjM0NTY3ODkwIiwibmFtZSI6IkpvaG4gRG9lIiwiYWRtaW4iOnRydWV9.TJVA95OrM7E2cBab30RMHr..
에러가 발생하고 있습니다. line = ''.join(line.split()) TypeError: sequence item 0: expected str instance, bytes found 이 코드는 파이썬 2.x 버전에서는 잘 작동하지만, 3.4 버전에서는 작동하지 않고 있습니다. 이에 대한 적절한 해결책을 제시해주세요.답변 1그러나 이 경우에는 바이트 객체를 다루기 때문에 str 관련 메서드를 사용할 수 없습니다. 바이트 객체 자체에는 join() 메서드가 있으며 str.join과 동일한 방식으로 사용할 수 있습니다. 또는 io.BytesIO를 사용하거나 bytearray 객체를 사용하여 인플레이스 연결을 수행할 수도 있습니다. 문서에서 언급한대로 bytearray 객체는 가변이며 효율적인 과다할당..
java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv은 Parquet 파일이 아닙니다. 꼬리 부분에 기대되는 매직 넘버 [80, 65, 82, 49] 대신 [49, 59, 54, 10]이 발견되었습니다. at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun..