목록클라우드컴퓨팅 (134)
스택큐힙리스트
나는 방대한 텍스트 데이터를 가지고 있습니다. 전체 데이터베이스는 UTF-8의 텍스트 형식입니다. 내 전체 텍스트 데이터에서 가장 반복되는 구문 목록이 필요합니다. 예를 들어, 원하는 출력은 다음과 같습니다: { 'a': 423412341, 'this': 423412341, 'is': 322472341, 'this is': 222472341, 'this is a': 122472341, 'this is a my': 5235634 } 각 구문을 처리하고 저장하는 데는 큰 데이터베이스의 크기가 필요합니다. 예를 들어 MySQL이나 MongoDB에 저장합니다. 이 결과를 찾기 위해 더 효율적인 데이터베이스나 알고리즘이 있을까요? Solr, Elasticsearch 또는 기타 등등... 내가 각 구문마다 최대 1..
저는 상당량의 데이터(100GB)를 저장하기 위해 Cassandra 2.0.9를 사용하고 있습니다. 이 데이터를 빠른 방법으로 CSV로 내보내고 싶습니다. 다음을 시도해 보았습니다: sstable2json - 이 도구는 데이터를 하나의 행에 넣고 복잡한 스키마를 사용하기 때문에 해석하기 어려운 매우 큰 JSON 파일을 생성합니다. 데이터 파일 크기 300MB에 대해서 약 2GB의 json 파일이 생성됩니다. 덤프하는 데 많은 시간이 소요되며 Cassandra는 내부 메커니즘에 따라 소스 파일 이름을 변경하는 경향이 있습니다. COPY - 많은 레코드로 인해 빠른 EC2 인스턴스에서 시간 초과가 발생합니다. CAPTURE - 위와 동일하게 시간 초과가 발생합니다. 페이징으로 읽기 - 이를 수행하기 위해 t..
주요 초점이 기계 학습 알고리즘 구현에 있으므로, 대용량 데이터를 적재하고 자체 알고리즘을 업로드하여 분산 처리를 고려하지 않고도 데이터를 처리할 수 있는 충분한 CPU 자원을 제공하는 실행 중인 플랫폼이 있는지 여부를 여쭤보고 싶습니다. 그럼에도 불구하고, 이와 같은 플랫폼이 존재하든 존재하지 않든, 특정 고객 요구에 맞게 전체 시스템을 제작하여 생산에 넣을 수 있는 팀에서 일할 정도로 충분히 큰 그림을 그리고 싶습니다. 예를 들어, 소매업자는 매일 구매를 분석하고자 하므로 매일 기록을 처리할 수 있는 인프라에 모든 일일 레코드를 업로드해야 합니다. 이를 위해 맞춤형 기계 학습 알고리즘을 사용해 데이터를 처리할 수 있는 충분한 능력을 갖춘 시설이 필요합니다.위의 내용을 간단한 질문으로 정리하면: 기계 ..