| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 인공지능
- 자바스크립트
- 컴퓨터비전
- 파이썬
- 버전관리
- 빅데이터
- 소프트웨어공학
- 웹개발
- 데이터분석
- 프로그래밍언어
- 클라우드컴퓨팅
- 사이버보안
- 딥러닝
- 자료구조
- 컴퓨터공학
- springboot
- 소프트웨어
- 디자인패턴
- 알고리즘
- 데이터과학
- 네트워크보안
- 데이터구조
- 네트워크
- 보안
- I'm Sorry
- Yes
- 컴퓨터과학
- 데이터베이스
- 프로그래밍
- 머신러닝
- Today
- Total
목록전체 글 (1964)
스택큐힙리스트
저는 상당량의 데이터(100GB)를 저장하기 위해 Cassandra 2.0.9를 사용하고 있습니다. 이 데이터를 빠른 방법으로 CSV로 내보내고 싶습니다. 다음을 시도해 보았습니다: sstable2json - 이 도구는 데이터를 하나의 행에 넣고 복잡한 스키마를 사용하기 때문에 해석하기 어려운 매우 큰 JSON 파일을 생성합니다. 데이터 파일 크기 300MB에 대해서 약 2GB의 json 파일이 생성됩니다. 덤프하는 데 많은 시간이 소요되며 Cassandra는 내부 메커니즘에 따라 소스 파일 이름을 변경하는 경향이 있습니다. COPY - 많은 레코드로 인해 빠른 EC2 인스턴스에서 시간 초과가 발생합니다. CAPTURE - 위와 동일하게 시간 초과가 발생합니다. 페이징으로 읽기 - 이를 수행하기 위해 t..
닫힘. 이 질문은 의견 기반으로 되어있습니다. 현재로선 답변을 받을 수 없습니다. 이 질문을 개선하고 싶으신가요? 사실과 인용을 통해 질문을 업데이트하여 답변할 수 있도록 만들어주세요. 이 게시글을 편집하십시오. 닫힘 7년 전. 이 질문을 개선하기 위키피디아에 언급된 대로 데이터 마이닝 프로세스의 전반적인 목표는 데이터 세트에서 정보를 추출하고 이를 이해 가능한 구조로 변환하여 추가적인 사용을 위해 활용하는 것입니다. 빅 데이터와 어떤 관련이 있나요? Hadoop이 병렬로 데이터 마이닝을 수행한다고 말해도 되나요?답변 1이것은 여러 문제에 적용되므로, Hadoop에서의 실제 데이터 마이닝은 잘 동작하지 않는 것 같습니다. 모두가 이것을 시도하고 많은 회사들이 이 제품을 판매하지만, 비-빅 버전보다는 그리..
저는 HIVE 0.11에서 간단한 명령을 사용하고 있습니다: SELECT DISTINCT * FROM first_working_table; 그리고 다음과 같은 오류 메시지를 받고 있습니다: 실패: SemanticException TOK_ALLCOLREF는 현재 컨텍스트에서 지원되지 않습니다. 어떤 이유로 발생하는지 알고 계신 분 계십니까? 어떻게 해결할 수 있을까요? 감사합니다, Gal.답변 1Hive는 DISTINCT * 구문을 지원하지 않습니다. 동일한 결과를 얻으려면 테이블의 모든 필드를 수동으로 지정해야 합니다: first_working_table에서 DISTINCT field1, field2, ...., fieldN을 선택합니다. 답변 2에러 메시지: TOK_ALLCOLREF는 현재 컨텍스트에서..
RODBC 패키지의 표준 sqlSave 함수는 대량의 데이터에 대해 비효율적으로 작동하여 (매개변수 fast = TRUE) 심각하게 느립니다. 데이터를 어떻게 작성하여 로깅을 최소화하고 빠르게 작성할 수 있을까요? 현재 시도 중인 방법: toSQL = data.frame(...); sqlSave(channel,toSQL,tablename=Table1,rownames=FALSE,colnames=FALSE,safer=FALSE,fast=TRUE); 답변 1로컬로 CSV에 데이터를 쓰고 BULK INSERT를 사용하여(MS SQL Server에 있는 sqlSave와 유사한 사전에 구축된 기능으로 즉시 사용할 수 없음) 데이터를 매우 빠르게 MS SQL Server에 쓸 수 있습니다. toSQL = data.f..