| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 웹개발
- 프로그래밍
- 사이버보안
- 데이터베이스
- 머신러닝
- springboot
- 디자인패턴
- 파이썬
- 소프트웨어
- 데이터분석
- 데이터과학
- 소프트웨어공학
- 자바스크립트
- Yes
- 딥러닝
- 보안
- I'm Sorry
- 데이터구조
- 프로그래밍언어
- 버전관리
- 클라우드컴퓨팅
- 컴퓨터과학
- 알고리즘
- 자료구조
- 네트워크
- 인공지능
- 컴퓨터공학
- 네트워크보안
- 빅데이터
- 컴퓨터비전
- Today
- Total
목록전체 글 (1964)
스택큐힙리스트
내 프로젝트에는 대량의 데이터가 있습니다. 각각 약 1GB의 npy 파일에 약 750k개의 레코드와 레이블이 포함되어있는 총 60GB의 데이터가 있습니다. 각 레코드는 345 개의 float32 타입이며 레이블은 5 개의 float32 타입입니다. 저는 tensorflow 데이터셋 문서와 큐/스레드 문서를 읽었지만, 훈련을 위한 입력값을 어떻게 처리해야할지와 모델과 가중치를 어떻게 저장해야할지 알 수 없습니다. 제 모델은 매우 간단하며, 다음과 같습니다: x = tf.placeholder(tf.float32, [None, 345], name='x') y = tf.placeholder(tf.float32, [None, 5], name='y') wi, bi = weight_and_bias(345, 2048)..
지금은 이미 처리된 데이터로 두 개의 데이터 프레임이 있습니다. 하나는 X_train이며(7백만 항목 * 200 열 이름이 있는 특징) 다른 하나는 training_y입니다(7백만 항목 * 1 레이블). 열 이름, 행 인덱스 등을 유지하면서 이를 효율적으로 TFrecord 파일에 저장하는 방법과 각 파일마다 100,000개의 항목이 포함되도록 원하고 있습니다. 모든 것을 TFrecord로 처리하면 tensorflow에 구현된 셔플링과 배치 기능을 활용할 수 있습니다. 이 파일 형식으로 2TB의 데이터를 쓸 필요가 있는데, 매우 효율적인 방법으로 레코드를 작성해야 할 것 같습니다. Google에서 판다스 데이터 프레임을 TFRecords로 작성하는 방법를 검색해보았지만 좋은 예제를 찾지 못했습니다. 대부분..
저는 쿠버네티스에서 Ingress와 로드 밸런서의 역할에 대해 혼란스러움을 많이 느끼고 있습니다. 내가 이해한 바에 따르면 Ingress는 클러스터에서 실행 중인 서비스로의 인터넷에서 들어오는 트래픽을 매핑하는 데 사용됩니다. 로드 밸런서의 역할은 트래픽을 호스트로 전달하는 것입니다. 이 관점에서 Ingress와 로드 밸런서는 어떻게 다른가요? 또한 쿠버네티스 내부의 로드 밸런서 개념은 Amazon ELB와 ALB와 어떻게 비교되나요?답변 1서버 { server_name kubernetes.foo.bar; listen 80; listen [::]:80; set $proxy_upstream_name -; location ~* ^/web2\/?(?.*) { set $proxy_upstream_name app..
저는 380만 개의 행과 한 개의 열이있는 판다스 데이터프레임을 가지고 있으며, 이들을 인덱스별로 그룹화하려고합니다. 인덱스는 고객 ID입니다. 인덱스별로 qty_liter를 그룹화하려고합니다: df = df.groupby(df.index).sum() 그러나 연산을 완료하는 데에 시간이 오래 걸립니다. 매우 큰 데이터 세트를 다루는 대체 방법이 있나요? 다음은 df.info()입니다: Index: 3842595 entries, -2147153165 to \N Data columns (total 1 columns): qty_liter object dtypes: object(1) memory usage: 58.6+ MB 데이터는 다음과 같습니다: 답변 1문제는 데이터가 숫자가 아니기 때문입니다. 문자열을 처..