멀티모달 AI가 엔터프라이즈로 들어오다
텍스트 생성에 머물렀던 AI가 이제는 이미지, 문서, 비디오, 음성을 동시에 이해하고 추론하는 멀티모달 시대로 접어들었습니다. 기업에서는 단순히 '챗봇'을 넘어, 금융 리포트 분석, 코드 생성 에이전트, 복합 문서 인텔리전스 등 실제 업무에 투입할 수 있는 고성능 멀티모달 모델을 원하고 있습니다.
이런 요구에 맞춰 등장한 것이 StepFun의 Step 3.7 Flash입니다. 이 모델은 198B(1,980억) 파라미터의 MoE(Mixture-of-Experts) 구조로, 실제 추론 시에는 약 11B 파라미터만 활성화되어 효율적이면서도 강력한 성능을 냅니다. NVIDIA GPU 가속 인프라에서 최적화되어 있으며, NVIDIA NIM과 NeMo 프레임워크를 통해 프로덕션 환경에 바로 적용할 수 있도록 설계되었습니다.
이 글에서는 Step 3.7 Flash의 핵심 스펙과 함께, NVIDIA 생태계에서 실제로 배포하고 미세 조정(fine-tuning)하는 방법을 단계별로 살펴보겠습니다.

Step 3.7 Flash 주요 스펙 및 아키텍처
Step 3.7 Flash는 비전-언어(Vision-Language) MoE 모델로, 이미지와 비디오를 네이티브 입력으로 받아들입니다. 특히 256K 토큰의 긴 컨텍스트 윈도우를 지원하여, 수백 페이지 분량의 금융 보고서나 과학 논문도 한 번에 처리할 수 있습니다.
| 항목 | 사양 |
|---|---|
| 전체 파라미터 | 198B |
| 비전 인코더 파라미터 | 1.8B |
| 활성 파라미터 (추론 시) | 11B |
| 컨텍스트 길이 | 256K |
| 전문가(Experts) 수 | 288개 (활성 8개) |
| 양자화 포맷 | NVFP4 (Hugging Face 제공) |
세 가지 추론 수준(Low/Medium/High)을 지원하여, 태스크의 복잡도에 따라 연산량을 조절할 수 있습니다. 예를 들어 간단한 문서 분류는 Low로 빠르게 처리하고, 복잡한 멀티스텝 추론이 필요한 금융 분석은 High로 설정하면 됩니다.
NVIDIA NIM을 이용한 프로덕션 배포
NVIDIA NIM은 최적화된 컨테이너화 추론 마이크로서비스입니다. Step 3.7 Flash를 개발 환경에서 프로덕션으로 쉽게 이전할 수 있도록 도와줍니다. 아래는 OpenAI 호환 API를 통해 NIM 서버에 요청을 보내는 예제입니다.
from openai import OpenAI
# NIM 서버 주소 (로컬 또는 클라우드)
client = OpenAI(
base_url="http://0.0.0.0:8000/v1",
api_key="no-key-required" # NIM은 키 불필요
)
completion = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[{"role": "user", "content": "입자 물리학이 뭔가요?"}],
temperature=0.5,
top_p=1,
max_tokens=1024,
stream=True
)
for chunk in completion:
if chunk.choices[0].delta.content is not None:
print(chunk.choices[0].delta.content, end="")
참고: NIM 컨테이너는 NVIDIA Container Registry에서 다운로드할 수 있으며(엔터프라이즈 라이선스 필요), 온프레미스, 클라우드, 하이브리드 환경 어디서든 실행 가능합니다.
NVIDIA NeMo로 Day 0 파인튜닝
Step 3.7 Flash는 NeMo 프레임워크를 통해 도메인 특화 데이터로 바로 미세 조정할 수 있습니다. NeMo Automodel 라이브러리는 PyTorch 기반의 n-D 병렬 처리를 지원하며, Hugging Face 체크포인트를 변환 없이 그대로 사용할 수 있습니다. Hopper GPU에서 600 tokens/sec 속도로 SFT(Supervised Fine-Tuning) 및 LoRA를 지원합니다.
# NeMo Automodel을 사용한 파인튜닝 예시 (간략)
from nemo.collections import llm
# Hugging Face에서 모델 로드
model = llm.HFAutoModelForCausalLM.from_pretrained("stepfun/step-3.7-flash")
# LoRA 설정
lora_config = {
"r": 16,
"lora_alpha": 32,
"target_modules": ["q_proj", "v_proj"]
}
# 학습 실행 (실제 코드는 NeMo 문서 참조)
# trainer.fit(model, data_module)
![]()
실무 적용 시 주의사항 및 한계
Step 3.7 Flash는 강력하지만, 프로덕션 도입 전에 몇 가지를 고려해야 합니다.
1. GPU 메모리 요구사항
256K 컨텍스트를 모두 활용하려면 상당한 GPU 메모리가 필요합니다. NVIDIA DGX Station(748GB 일관 메모리)이 이상적이지만, 일반적인 A100 80GB나 H100에서는 컨텍스트 길이를 줄이거나 양자화를 적용해야 할 수 있습니다.
2. NVFP4 양자화의 트레이드오프
NVFP4 양자화는 메모리 대역폭과 저장 공간을 줄여 추론 속도를 높이지만, 정밀도가 낮아져 일부 태스크에서 성능 저하가 발생할 수 있습니다. 특히 수치 연산이 중요한 금융 분석에서는 FP16/FP8과의 비교 테스트를 권장합니다.
3. 국내 클라우드 환경에서의 고려사항
한국에서는 AWS, GCP, Oracle Cloud 등에서 NVIDIA GPU 인스턴스를 사용할 수 있지만, NVIDIA NIM의 엔터프라이즈 라이선스가 필요합니다. 또한 NeMo 프레임워크는 아직 한국어 문서화가 부족하므로, 영어 레퍼런스에 익숙해지는 것이 좋습니다.
4. 멀티모달 입력의 품질
모델이 이미지와 텍스트를 동시에 이해한다고 해서 모든 문서 형식에 완벽한 것은 아닙니다. 복잡한 테이블이나 손글씨가 포함된 문서는 OCR 전처리가 필요할 수 있습니다. Netflix가 JDK 벡터 API로 추천 시스템을 최적화한 실제 사례에서도 강조했듯이, 데이터 전처리 파이프라인이 모델 성능을 좌우합니다.

결론: 엔터프라이즈 멀티모일 AI의 미래
Step 3.7 Flash는 단순한 모델 릴리스를 넘어, NVIDIA 생태계와의 긴밀한 통합을 통해 엔터프라이즈에서 바로 쓸 수 있는 완성된 솔루션을 제공합니다. NIM을 통한 손쉬운 배포, NeMo를 통한 Day 0 파인튜닝, 그리고 256K 컨텍스트 윈도우는 금융, 법률, 의료 등 문서 중심 산업에서 혁신을 일으킬 잠재력이 있습니다.
다만, GPU 메모리와 양자화 트레이드오프를 잘 이해하고, 자신의 사용 사례에 맞게 컨텍스트 길이와 추론 수준을 조절하는 것이 중요합니다. 국내 환경에서는 클라우드 GPU 비용과 라이선스 문제를 사전에 검토하세요.
함께 보면 좋은 글
다음 단계 학습 방향
- Hugging Face의 Step 3.7 Flash 체크포인트로 직접 추론 테스트
- build.nvidia.com에서 데모 노트북 실행해보기
- NVIDIA NeMo Automodel 공식 튜토리얼로 파인튜닝 실습
- DGX Station 또는 클라우드 GPU에서 vLLM Playbook으로 로컬 배포 시도
근거자료: NVIDIA 공식 블로그 - Run Step 3.7 Flash on NVIDIA GPUs with Enterprise-Ready Multimodal AI