목록빅데이터 (364)
스택큐힙리스트
I'm using Html5 Server Sent Events. The server side is Java Servlet. I have a json array data wants to pass to server. var source = new EventSource(../GetPointVal?id=100&jsondata= + JSON.stringify(data)); 만약 배열의 크기가 작다면, 서버 측에서는 querystring을 얻을 수 있습니다. 하지만 배열의 크기가 크다면 (아마도 수천 개의 문자 이상), 서버는 querystring을 얻을 수 없습니다. new EventSource(...)에서 POST 메서드를 사용하여 querystring 길이 제한을 피할 수 있는 서버에 json 배열을 전달할 ..
스파크 데이터프레임에서 알고 있는대로, 다음 데이터프레임 스냅샷에 표시된 것처럼 여러 열은 동일한 이름을 가질 수 있습니다: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=125231, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0047, 3: 0.0, 4: 0.0043})), Row(a=107831, f=SparseVect..
저는 spark-csv를 사용하여 DataFrame에 데이터를 로드하고 있습니다. 간단한 쿼리를 수행하고 내용을 표시하고 싶습니다: val df = sqlContext.read.format(com.databricks.spark.csv).option(header, true).load(my.csv) df.registerTempTable(tasks) results = sqlContext.sql(select col from tasks); results.show() col이 잘려 보입니다: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |201..
Spark는 리듀스 작업의 수를 계산하기 위해 어떤 공식을 사용하나요? 저는 몇 개의 Spark-sql 쿼리를 실행하고 있는데, 리듀스 작업의 수는 항상 200입니다. 이러한 쿼리의 맵 작업 수는 154입니다. 저는 Spark 1.4.1을 사용하고 있습니다. 이것은 기본적으로 200으로 설정된 spark.shuffle.sort.bypassMergeThreshold와 관련이 있나요?답변 1당신이 원하는 것은 spark.sql.shuffle.partitions 입니다. Spark SQL 성능 튜닝 가이드에 따르면: | 속성 이름 | 기본값 | 의미 | +-----------------------------+-------+----------------------------------------------+ |..