TACC의 슈퍼컴퓨터, 인간 진화의 급격한 유전체 변화 연구에 AI 기술 활용

인간이 어떻게 진화했는지에 대한 미스터리는 여전히 과학적 탐구의 원동력이 되고 있습니다. 특히 연구자들은 복잡한 뇌, 언어 능력, 직립 보행 자세 등 인간을 유인원 친척들과 구별짓는 특징들의 기원이 된 고대 유전적 변화를 탐구하고 있습니다.

"우리 연구에서 발견한 것은 골격, 신경정신과적, 색소, 콜레스테롤 합성 등 다양한 특성들이 인류 역사의 서로 다른 시점에서 가속화되었다는 점입니다," 2025년 1월 Cell Genomics에 게재된 연구의 공동 저자인 바게시 나라심한(Vagheesh Narasimhan)이 말했습니다. 나라심한은 텍사스 대학교 오스틴(UT Austin)의 자연과학 대학 조교수입니다.

Vagheesh Narasimhan, UT Austin. (Credit: UT Austin)

이 연구는 세 가지 강력한 데이터 소스를 통합했습니다: 화석에서 추출한 고대 DNA; UK Biobank의 수십만 명 참가자들로부터 얻은 뇌, 골격 및 주요 장기의 구조를 보여주는 3D MRI 스캔; 그리고 인간 게놈이 침팬지, 오랑우탄 및 기타 유인원과 어떻게 일치하고 차이가 나는지 매핑한 비교 기능 유전체학. 이러한 데이터셋을 층층이 쌓음으로써 연구자들은 인간 특유의 진화적 변화와 유전적 돌연변이가 어디서 발생했는지 밝혀낼 수 있었습니다.

"우리는 인간과 다른 영장류, 특히 레서스 마카크 원숭이 사이의 배아 발달 과정에서 유전자 발현과 유전자 조절을 살펴보았습니다," 나라심한은 말했습니다. "그런 다음 유전체 농축 분석을 수행했는데, 이는 우리의 진화적 주석과 특성과 관련된 주석 간의 중복이 게놈 전체 평균과 비교하여 우연보다 더 많은지 여부를 결정합니다."

Frontera(상단), Lonestar6(하단 좌측), Corral(하단 우측)은 텍사스 고급 컴퓨팅 센터의 전략적 국가 컴퓨팅 슈퍼컴퓨팅 자원입니다. (Credit: Jorge Salazar, TACC)

나라심한과 동료들은 이 방법을 활용하여 특정 특성과 관련된 인간 게놈 섹션이 특정 시간 간격에서 폭발적으로 변화했는지 살펴보았습니다.

텍사스 고급 컴퓨팅 센터(TACC)의 첨단 컴퓨팅 파워를 통해 과학자들은 주요 인간 특성이 언제 주요 진화적 변화를 겪었는지 식별할 수 있었습니다. TACC는 나라심한에게 Frontera와 Lonestar6 슈퍼컴퓨터의 할당량과 함께 Corral 시스템의 데이터 저장 및 관리 자원을 제공하여 연구를 지원했습니다.

Lonestar6는 연구자들이 UK Biobank에서 얻은 심장, 뇌, 간, 췌장의 80,000개 3D MRI 이미지와 엉덩이, 무릎, 척추 및 전신 X-레이 스캔을 처리하는 데 도움을 주었습니다.

"우리는 TACC GPU(그래픽 처리 장치) 자원, 특히 이런 유형의 데이터를 처리할 수 있는 많은 GPU가 있는 Lonestar6를 사용하여 이미징 데이터에 대한 분할 및 분류를 위한 AI 모델을 훈련시켰습니다," 나라심한이 말했습니다.

이 연구와 관련된 영장류 진화의 주요 시점이 강조되어 있습니다. 진화적 시간 기간에 해당하는 유전체 주석이 타임라인에 색상으로 표시되어 있습니다. (Credit: DOI:10.1016/j.xgen.2024.100740)

"유전체 분석을 수행하기 위해 우리는 Frontera의 CPU(중앙 처리 장치) 인프라를 많이 사용합니다. 주로 게놈이 매우 큰 데이터 문제이기 때문입니다," 그는 덧붙였습니다. "Frontera와 같은 슈퍼컴퓨팅 클러스터에서 많은 수의 CPU 노드를 갖는 것은 계산 시간을 선형 프로세스에서 병렬 프로세스로 줄이고 연구가 진행되도록 하는 데 엄청나게 유용했습니다."

TACC의 Corral 데이터 저장소에 있는 HIPAA 보호 기능을 통해 나라심한은 Lonestar6의 GPU와 Frontera의 CPU라는 두 가지 다른 환경에서 동시에 계산을 수행할 수 있었습니다.

"TACC의 이 통합 엔터프라이즈 없이는 이 작업을 수행하는 것이 불가능합니다," 나라심한이 말했습니다.

나라심한은 2024년 11월에 운영을 시작한 TACC의 AI 중심 Vista 슈퍼컴퓨터의 새로운 GPU 컴퓨팅 용량에 대해 기대하고 있습니다.

"곧 Vista를 사용하여 우리 작업을 계속하기를 바랍니다," 그가 말했습니다. "새로운 데이터 생성 속도에 발맞추려는 TACC의 비전은 혁신적입니다."

나라심한이 2025년 4월 Science 저널에 발표한 최근 연구에서도 TACC의 지원을 인정하고 있습니다. 이 연구는 골반 비율과 골관절염, 보행 속도 및 요통과 같은 특성 간의 유전적 상관관계를 발견했으며, 이는 산과적 딜레마(어머니의 산도 크기와 아이의 뇌 크기 사이의 생물학적 절충)의 측면에 대한 통찰력을 제공합니다.

"인간 게놈의 변화를 진정으로 이해하기 위해서는 30억 개의 DNA 염기 각각에서 무슨 일이 일어나고 있는지 살펴보기 위해 방대한 수의 개인으로부터 엄청난 양의 데이터가 필요합니다," 나라심한이 말했습니다. "이는 슈퍼컴퓨팅 인프라를 사용해야만 해결할 수 있는 기념비적인 데이터 문제입니다."