| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 자료구조
- 웹개발
- 딥러닝
- 알고리즘
- 네트워크보안
- 네트워크
- 파이썬
- 컴퓨터과학
- 데이터분석
- 클라우드컴퓨팅
- 데이터구조
- 데이터과학
- 인공지능
- 컴퓨터비전
- 사이버보안
- 소프트웨어
- I'm Sorry
- 소프트웨어공학
- 자바스크립트
- 데이터베이스
- 버전관리
- 디자인패턴
- Yes
- 컴퓨터공학
- 머신러닝
- springboot
- 프로그래밍
- 프로그래밍언어
- 빅데이터
- 보안
- Today
- Total
목록2023/11/02 (15)
스택큐힙리스트
나는 방대한 텍스트 데이터를 가지고 있습니다. 전체 데이터베이스는 UTF-8의 텍스트 형식입니다. 내 전체 텍스트 데이터에서 가장 반복되는 구문 목록이 필요합니다. 예를 들어, 원하는 출력은 다음과 같습니다: { 'a': 423412341, 'this': 423412341, 'is': 322472341, 'this is': 222472341, 'this is a': 122472341, 'this is a my': 5235634 } 각 구문을 처리하고 저장하는 데는 큰 데이터베이스의 크기가 필요합니다. 예를 들어 MySQL이나 MongoDB에 저장합니다. 이 결과를 찾기 위해 더 효율적인 데이터베이스나 알고리즘이 있을까요? Solr, Elasticsearch 또는 기타 등등... 내가 각 구문마다 최대 1..
def myJFunc(df): ... # 초기화 jnum 카운터 ... jnum = 0; ... # 각 행의 데이터프레임을 반복 (첫 번째 / 제로 제외) ... for i in range(1,len(df)): ... # 사용자가 변경되었는지 확인 ... if df.User.loc[i] == df.User.loc[i-1]: ... # 시간이 1 (시간) 이상 증가했는지 확인 ... if abs(df.Time.loc[i]-df.Time.loc[i-1])>1: ... # 새로운 열 업데이트 ... df['newcol2'].loc[i-1] = 1; ... df['newcol1'].loc[i] = 1; ... # jnum 증가 ... jnum += 1; ... # 내용이 변경되었는지 확인 ... if df.Co..
저는 Hbase 쉘에 여러 개의 테이블이 있습니다. 이 테이블을 파일 시스템으로 복사하고 싶습니다. 일부 테이블은 100GB를 초과합니다. 하지만 로컬 파일 시스템에는 남은 공간이 55GB만 남아 있습니다. 그러므로 hbase 테이블의 크기를 알고 싶어서 작은 크기의 테이블만 내보낼 수 있기를 원합니다. 어떤 제안이든 환영합니다. 감사합니다, 가우탐답변 1다음을 시도하세요. hdfs dfs -du -h /hbase/data/default/ (또는 /hbase/ - 사용하는 HBase 버전에 따라 다름) 이 명령은 테이블의 파일이 사용하는 공간을 보여줍니다. 도움이 되었으면 좋겠습니다.답변 2HBase 테이블 크기를 결정하는 방법에 대해 알아보겠습니다. HBase 테이블의 크기를 결정하는 몇 가지 방법이 ..
나는 한 대의 노드에서 잘 작동하는 작은 Scala 프로그램을 가지고 있습니다. 그러나 이것을 여러 노드에서 실행되도록 확장하려고 합니다. 이것은 내 첫 번째 시도입니다. Spark에서 RDD가 작동하는 방법을 이해하려고 하기 때문에, 이 질문은 이론을 중심으로 하며 100% 정확하지 않을 수 있습니다. 예를 들어, 다음과 같이 RDD를 생성한다고 가정해 봅시다: val rdd = sc.textFile(file) 이제 이렇게 한 번 해 놓으면, 모든 노드가 파일 경로에 액세스 할 수 있다고 가정할 때, file에서의 파일은 이제 노드들 사이로 분할되어 있는 것을 의미합니까? 두 번째로, RDD의 객체 수를 계산하려고 합니다 (간단합니다). 그러나 RDD의 객체에 적용해야할 계산에 사용해야하는 해당 수를 ..