목록머신러닝 (265)
스택큐힙리스트
저는 jinja2를 사용하고 있으며, 매크로를 호출하는 것과 유사한 구문으로 파이썬 함수를 헬퍼로 호출하고 싶습니다. jinja2는 함수 호출을 방지하려고 하는 듯한데, 함수를 템플릿에 매크로로 복사하여 중복해서 사용해야 한다는 점이 귀찮습니다. 이를 해결할 수 있는 간단한 방법이 있을까요? 그리고 확장 기술을 사용하지 않고도 jinja2에서 파이썬 함수 집합을 가져와 사용할 수 있는 방법이 있을까요?답변 1Flask를 사용하는 경우, 이것을 __init__.py에 넣으세요: def clever_function(): return u'안녕하세요' app.jinja_env.globals.update(clever_function=clever_function) 그리고 템플릿에서 {{ clever_function..
지금은 이미 처리된 데이터로 두 개의 데이터 프레임이 있습니다. 하나는 X_train이며(7백만 항목 * 200 열 이름이 있는 특징) 다른 하나는 training_y입니다(7백만 항목 * 1 레이블). 열 이름, 행 인덱스 등을 유지하면서 이를 효율적으로 TFrecord 파일에 저장하는 방법과 각 파일마다 100,000개의 항목이 포함되도록 원하고 있습니다. 모든 것을 TFrecord로 처리하면 tensorflow에 구현된 셔플링과 배치 기능을 활용할 수 있습니다. 이 파일 형식으로 2TB의 데이터를 쓸 필요가 있는데, 매우 효율적인 방법으로 레코드를 작성해야 할 것 같습니다. Google에서 판다스 데이터 프레임을 TFRecords로 작성하는 방법를 검색해보았지만 좋은 예제를 찾지 못했습니다. 대부분..
질문:: >>> oe = OneHotEncoder(inputCol=c_idx,outputCol=c_idx_vec) >>> fe = oe.transform(ff) >>> fe.show() +----+---+-----+-------------+ | x| c|c_idx| c_idx_vec| +----+---+-----+-------------+ | 1.0| a| 0.0|(2,[0],[1.0])| | 1.5| a| 0.0|(2,[0],[1.0])| |10.0| b| 1.0|(2,[1],[1.0])| | 3.2| c| 2.0| (2,[],[])| +----+---+-----+-------------+ 물론, 이 동작은 변경될 수 있습니다: >>> oe.setDropLast(False) >>> fl = oe.tra..
저는 상당량의 데이터(100GB)를 저장하기 위해 Cassandra 2.0.9를 사용하고 있습니다. 이 데이터를 빠른 방법으로 CSV로 내보내고 싶습니다. 다음을 시도해 보았습니다: sstable2json - 이 도구는 데이터를 하나의 행에 넣고 복잡한 스키마를 사용하기 때문에 해석하기 어려운 매우 큰 JSON 파일을 생성합니다. 데이터 파일 크기 300MB에 대해서 약 2GB의 json 파일이 생성됩니다. 덤프하는 데 많은 시간이 소요되며 Cassandra는 내부 메커니즘에 따라 소스 파일 이름을 변경하는 경향이 있습니다. COPY - 많은 레코드로 인해 빠른 EC2 인스턴스에서 시간 초과가 발생합니다. CAPTURE - 위와 동일하게 시간 초과가 발생합니다. 페이징으로 읽기 - 이를 수행하기 위해 t..