목록"알고리즘" (3)
스택큐힙리스트
중첩된 JSON의 출력 스키마를 정의하는 권장 방법은 무엇인가요? 내가 사용하는 방법은 이상하게 느껴집니다. # planner에 추가 -> from langchain.experimental.plan_and_execute import load_chat_planner # 설계 응답 스키마 정의 refinement_response_schemas = [ ResponseSchema(name=plan, description={'1': {'step': '','tools': [],'data_sources': [],'sub_steps_needed': bool}, '2': {'step': '','tools': [],'data_sources': [], 'sub_steps_needed': bool},}),] # 설명에서 JS..
만약에 DataFrame 없이 case class로부터 StructType (즉, DataFrame.schema)를 생성하고 싶다면 어떻게 해야 하나요? 쉽게 다음을 할 수 있습니다: case class TestCase(id: Long) val schema = Seq[TestCase]().toDF.schema 하지만 스키마만 필요한데 실제로 DataFrame을 생성하는 것은 비효율적인 것 같습니다. SQLContext.createDataFrame와 같은 방식으로 수행할 수 있습니다: import org.apache.spark.sql.catalyst.ScalaReflection val schema = ScalaReflection.schemaFor[TestCase].dataType.asInstanceOf[S..
나는 https://github.com/databricks/spark-csv를 사용하고 있습니다. 단일 CSV를 작성하려고 시도하고 있지만, 폴더를 만들고 있습니다. 경로와 파일 이름과 같은 매개변수를 받아 해당 CSV 파일을 작성하는 스칼라 함수가 필요합니다.답변 1파일을 만드는 중입니다. 각 파티션은 개별적으로 저장되기 때문에 여러 파일이 들어있는 폴더가 생성됩니다. 하나의 출력 파일 (여전히 폴더 안에 있는)이 필요한 경우 repartition을 사용할 수 있습니다(상위 스트림 데이터가 큰 경우에 권장되며 셔플이 필요합니다): df .repartition(1) .write.format(com.databricks.spark.csv) .option(header, true) .save(mydata.csv..