목록데이터과학 (85)
스택큐힙리스트
어떻게 RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row])를 Dataframe org.apache.spark.sql.DataFrame으로 변환할 수 있을까요? 제가 데이터프레임을 .rdd를 사용하여 RDD로 변환했는데, 처리를 한 후에 데이터프레임으로 다시 변환하고 싶습니다. 어떻게 할 수 있을까요?답변 1val dfWithoutSchema = spark.createDataFrame(rdd) dfWithoutSchema.show() +------+--------------------+ | _1| _2| +------+--------------------+ | first|[2.0, 1.0, 2.1, 5.4]| | test|[1.5, 0.5, 0.9, 3.7..
GitHub에는 여러 프로젝트가 있으며, 이 모든 프로젝트에는 내 리포지토리가 얼마나 많은 트래픽을 받고 있는지 확인할 수 있는 트래픽 그래프가 있습니다. 내가 링크한 블로그 포스트는 방문자에 대해 매우 모호하게 설명합니다: ..방문자 수 및 고유 방문자 수... 내 리포지토리 중 일부에는 매일 활동이 있어 이상하게 느껴지는데, 대부분의 조회수가 내 것인지 확신할 수 없고, 내 것이 맞다면 왜 고유 방문자라고 나와있을까요? 나만이 유일한 방문자이기 때문이라면서요. 질문: GitHub에서 사용되는 트래픽 그래프에는 자신이 소스를 탐색하는 경우에도 나 자신이 포함됩니까? 아주 사소하지만, 내가 받는 조회수가 소스를 탐색하는 나 자신인지 아니면 진짜로 내 소스를 브라우징하는 사람들이 있는지 궁금합니다.구체적으..
저는 회사 GitHub 계정을 가지고 있으며, 자동화를 위해 생성되는 모든 저장소를 백업하고 싶습니다. 다음과 같은 방식으로 하려고 했습니다: git clone [email protected]:company/*.git 또는 비슷한 방식이 작동할 것으로 기대했지만, 와일드카드를 지원하지 않는 것 같습니다. Git에서 권한이 있는 경우에 모든 것을 복제하고 가져올 수 있는 방법이 있을까요?답변 1gh repo list --limit --json nameWithOwner --jq '.[].nameWithOwner' | \ parallel -j gh repo clone 이것은 gh의 내부 jq 라이브러리를 사용하며, 독립형 jq가 아닙니다. 위의 기존 체크아웃 업데이트 옵션을 사용하는 경우, 위 스크립트에 이것..
나는 커스텀 SSH 명령을 사용하여 Git 리포지토리를 클론하려고 시도하고 있습니다. GIT_SSH 환경 변수를 다음과 같이 설정하여 SSH 명령을 설정했습니다. export GIT_SSH=/usr/bin/ssh -o StrictHostKeyChecking=no -i /home/me/my_private_key. 하지만 이전 명령 이후에 다음 명령을 실행하면 다음과 같은 이상한 오류가 발생합니다. error: /usr/bin/ssh -o StrictHostKeyChecking=no -i /home/me/my_private_key를 실행할 수 없습니다. fatal: 포크할 수 없음 이 문제를 해결하는 데 도움을 줄 수 있을까요?답변 1GIT_SSH 환경 변수에 옵션을 제공할 수 없습니다. git 매뉴얼에 다..