브라질과 같은 거대하고 다양한 인구를 가진 국가에서 진정한 의미의 '소버린 AI'를 구축하려면 무엇이 필요할까요? 핵심은 현지 데이터입니다. 영어 중심의 데이터로 훈련된 AI는 문화적 맥락과 언어적 뉘앙스를 놓치기 쉽습니다. NVIDIA가 공개한 'Nemotron-Personas-Brazil'은 바로 이 문제를 해결하기 위한 오픈 데이터셋입니다. 이 데이터셋에 대한 자세한 내용은 근거자료에서 확인할 수 있습니다.
![]()
데이터셋의 핵심 가치와 구성
이 데이터셋은 브라질 지리통계원(IBGE)의 공식 인구조사 및 노동 데이터를 기반으로 통계적으로 근거를 둔 완전 합성(Fully Synthetic) 페르소나 600만 개를 제공합니다. 실제 개인 정보는 전혀 포함되지 않으면서도 브라질 사회의 인구통계학적, 지리적, 직업적 분포를 정확히 반영합니다.
주요 구성 요소는 다음과 같습니다:
- 규모: 약 14억 토큰 (페르소나 토큰 약 4.5억 개)
- 범위: 브라질 26개 주 및 연방구 전체 커버리지
- 다양성: 1,500개 이상의 직업 카테고리, 약 45.7만 개의 고유 포르투갈어 이름
- 라이선스: 상업적 사용이 가능한 CC BY 4.0

기술적 구축 방식과 실무적용
데이터는 NVIDIA의 복합 AI 시스템인 NeMo Data Designer를 통해 생성되었습니다. 확률적 그래픽 모델을 사용해 통계적 근거를 확보하고, GPT-OSS-120B 모델이 자연스러운 브라질 포르투갈어로 내러티브를 생성했습니다.
| 적용 분야 | 설명 |
|---|---|
| 다중 대화 생성 | 페르소나를 시드로 활용해 현실적인 대화 데이터셋 생성 |
| 도메인 특화 AI | 문화적 인식을 갖춘 AI 어시스턴트 훈련 |
| 편향 테스트 | 도시 vs 농촌, 연령대, 교육 수준별 모델 성능 평가 |

결론: 왜 이 데이터셋이 중요한가?
Nemotron-Personas-Brazil은 고품질 데이터에 대한 접근성을 민주화합니다. 기업 전용 데이터셋에 의존하던 과거와 달리, 이제 누구나 비용이나 프라이버시 걱정 없이 문화적으로 정확한 AI를 구축할 수 있는 기반이 마련되었습니다. 이는 브라질 개발자들에게 주권 AI 개발의 문을 열어줄 뿐만 아니라, 글로벌 개발자들에게도 브라질 시장에 맞춤화된 모델을 만드는 길을 제시합니다. Hugging Face에서 바로 데이터셋을 불러와 실험을 시작해 보세요.