'2023/11/03 글 목록 (4 Page)

Notice

Link

« 2023/11 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록2023/11/03 (15)

스택큐힙리스트

PySpark 데이터프레임 - 판다스로 변환하지 않고 열거하는 방법?

나는 매우 큰 pyspark.sql.dataframe.DataFrame인 df를 가지고 있습니다. 내가 필요한 레코드를 작성할 수 있는 방법이 필요합니다 - 따라서 특정 인덱스로 레코드에 액세스할 수 있습니다. (또는 인덱스 범위로 레코드 그룹을 선택할 수 있습니다) Pandas에서는 다음과 같이 할 수 있었습니다. indexes=[2,3,6,7] df[indexes] 여기서 비슷한 기능을 원합니다, (그리고 dataframe을 pandas로 변환하지 않는다면) 내가 할 수 있는 최선은 다음과 같습니다: 원래 데이터프레임의 모든 객체를 열거하는 것입니다: indexes=np.arange(df.count()) df_indexed=df.withColumn('index', indexes) where() 함수를..

카테고리 없음 2023. 11. 3. 23:25

HDFS에서 데이터를 다른 HDFS로 복사하는 방법은 무엇인가요?

저는 두 개의 HDFS 설정이 있고, HDFS1에서 HDFS2로 테이블을 복사하려고 합니다. HDFS1에서 HDFS2로 데이터를 복사하는 방법은 무엇인가요? Sqoop 또는 다른 명령 줄을 통해 가능한가요?답변 1DistCp (분산 복사)는 클러스터 간 데이터 복사에 사용되는 도구입니다. 맵리듀스를 사용하여 데이터의 분산, 오류 처리 및 복구, 보고를 수행합니다. 이는 파일과 디렉토리 목록을 맵 작업의 입력으로 확장하여 소스 목록에서 지정된 파일의 파티션을 각각 복사합니다. 사용법: $ hadoop distcp 예제: $ hadoop distcp hdfs://nn1:8020/file1 hdfs://nn2:8020/file2 nn1의 file1이 nn2로 file2라는 파일명으로 복사됩니다. 지금을 기준으..

카테고리 없음 2023. 11. 3. 23:25

다이나모디비 쿼리 오류 - 쿼리 키 조건은 지원되지 않습니다.

$result = $dynamodbClient->createTable(array( 'TableName' => '피드', 'AttributeDefinitions' => array( array('AttributeName' => '사용자_아이디', 'AttributeType' => 'S'), array('AttributeName' => '피드_가이드', 'AttributeType' => 'S'), array('AttributeName' => '상태_아이디', 'AttributeType' => 'N'), ), 'KeySchema' => array( array('AttributeName' => '피드_가이드', 'KeyType' => 'HASH'), ), 'GlobalSecondaryIndexes' => arra..

카테고리 없음 2023. 11. 3. 23:25

이전 Prev 1 2 3 4 Next 다음

목록2023/11/03 (15)

스택큐힙리스트

티스토리툴바