跳转至

2026-04-21. 노모유 인디 개발자 데일리 (제339호)

📰 뉴스

폐쇄형 AI가 당신의 데이터 금광을 훔치고 있다

고객이 기성 폐쇄형 모델을 사용할 때 가장 안타까운 점은, 수년 혹은 수십 년 동안 쌓아 온 자기 데이터를 거의 활용하지 못한다는 것이다.

Mistral의 수석 과학자 Guiam이 최신 Lin Space 인터뷰에서 이 말을 꺼냈을 때, 스튜디오는 몇 초 동안 조용해졌다.

창밖의 파리 거리는 여전히 바빴고, 화면에는 각 대형 모델의 최신 파라미터 수와 벤치마크 점수가 흘러갔다. 사람들은 이런 숫자를 비교하고, 브라우저를 열어 API를 호출하고, 질문을 입력하고, 답을 기다리는 일에 익숙해졌다.

하지만 자기 서버 안에서 잠자고 있는 파일을 내려다보는 사람은 많지 않다.

회사 설립 첫날부터 기록된 고객 대화, 여러 세대의 엔지니어가 남긴 기술 문서, 수없이 많은 제품 반복 과정에서 생긴 로그, 한 산업에서 오래 굴러야만 얻을 수 있는 경험과 교훈들.

그것들은 하드디스크 어딘가에 바이트 형태로 존재한다. 어떤 데이터는 이미 디지털 먼지를 뒤집어쓰고 있다.

이 데이터는 공개 인터넷에 나타나지 않는다.

Common Crawl 결과에도, 위키백과 문서에도, 어떤 범용 대형 모델의 학습 데이터에도 들어 있지 않다.

그것은 오직 당신의 것이다.

고객이 무엇을 좋아하고 싫어하는지, 어느 단계에서 망설이고 언제 구매하는지 기록한다. 제품이 어디서 쉽게 고장 나고 어디를 더 개선할 수 있는지도 기록한다. 공개 자리에서는 아무도 말하지 않는 업계의 암묵적 규칙과 상식도 담겨 있다.

모든 질문을 범용 모델에 던질 때, 이 데이터는 여전히 잠들어 있다.

당신이 얻는 답은 경쟁자가 얻는 답과 다르지 않다.

같은 질문, 같은 API, 같은 결과다.

Mistral 팀은 이런 고객을 너무 많이 봤다. 그들은 자기 분야에서는 범용 모델이 잘 작동하지 않는다며 Mistral을 찾아온다. 그러면 Mistral 엔지니어가 그들의 데이터를 가져와 30억 파라미터짜리 작은 모델을 파인튜닝한다.

결과는 종종 모두의 예상을 뛰어넘는다.

의료 분야에서 20년 일한 회사가 자체 진료 데이터를 활용해 모델을 미세조정하고, 진단 정확도에서 범용 대형 모델을 넘어선다.

자동차 제조사는 생산 라인 데이터를 학습시켜 결함 탐지 정확도를 크게 끌어올린다.

금융기관은 거래 기록으로 모델을 학습시켜 위험 평가 속도를 수십 배 높인다.

이 모델들의 규모는 GPT-4의 1%에도 미치지 않는다.

셰익스피어의 소네트를 이해하거나, 고등수학을 풀거나, 코드를 잘 쓸 필요가 없다. 해야 할 일은 하나다. 당신의 비즈니스를 이해하는 것.

모델은 자체 서버나 프라이빗 클라우드에서 실행된다. 데이터는 회사를 떠나지 않고, 어떤 제3자 서버도 거치지 않는다.

데이터 유출, 갑작스러운 API 가격 인상, 어느 날 아침 의존하던 서비스가 중단되는 일을 걱정하지 않아도 된다.

Mistral은 GTC에서 Forge 플랫폼을 발표했다. Mistral이 내부적으로 모델을 훈련할 때 쓰는 도구를 고객에게 그대로 제공하는 플랫폼이다.

같은 데이터 처리 파이프라인, 같은 학습 코드, 같은 파인튜닝 도구. Mistral 과학자들이 매일 쓰는 것들을 이제 어떤 회사든 사용할 수 있다.

엔지니어들은 고객사에 들어가 고객 팀과 함께 일한다. 데이터를 정리하고, 샘플을 라벨링하고, 모델을 디버깅하고, 실제 업무 문제를 해결한다.

때로는 모델이 특정 산업의 전문 용어를 더 잘 이해하게 하기 위해서다. 때로는 특정 음향 환경에 맞추기 위해서다. 때로는 수백만 명만 쓰는 작은 언어를 지원하기 위해서다.

이런 일은 범용 대형 모델이 영원히 잘하기 어려운 영역이다.

범용 모델은 전 세계 모든 사람을 위해 만들어진다. 평균값을 취하고, 대부분의 상황에서 쓸 만한 답을 줄 수밖에 없다.

한 회사만을 위해 자기 가중치를 바꾸지는 않는다.

이번에 Mistral이 공개한 Voxal TTS 모델도 30억 파라미터 규모다. 9개 언어를 지원하고, 시중의 많은 유사 모델보다 추론 속도가 빠르며 비용은 훨씬 낮다.

그들은 음성 생성을 위해 거대한 범용 모델을 쓰지 않았다. 이 일 하나만 하는 작은 전문 모델을 만들었다.

이전에 공개한 음성 인식 모델처럼, OCR 모델처럼.

많은 사람은 모든 모달리티를 아우르는 대형 모델, 하나의 모델로 모든 문제를 해결하는 미래를 말한다. 하지만 Mistral은 반대 방향으로 간다.

그들은 대부분의 구체적 문제에서는 작고 전문화된 모델이 크고 범용적인 모델보다 훨씬 낫다고 믿는다. 비용도 훨씬 낮다.

이번 인터뷰에서는 자기회귀 플로 매칭, 신경 오디오 코덱, 긴 컨텍스트 모델링 같은 기술 이야기도 많이 나왔다.

하지만 가장 인상적인 것은 Guiam이 반복해서 말한 한 가지였다.

데이터.

당신 자신의 데이터.

많은 회사가 폐쇄형 API 서비스를 사기 위해 수백만, 수천만, 때로는 그 이상의 돈을 쓴다. 그러나 이미 갖고 있는 데이터를 파내는 데는 그보다 훨씬 적은 돈도 쓰려 하지 않는다.

가장 귀한 자산을 하드디스크에 가둬 두고, 남의 자산을 빌려 쓰는 셈이다.

언젠가 모든 회사가 같은 범용 대형 모델을 쓰게 된다면, 진짜 경쟁 우위는 어디서 나올까?

같은 API를 더 잘 호출하는 능력에서 나오지 않는다.

다른 사람이 갖지 못한 데이터를 가진 곳에서 나온다.

자기 데이터를 자기 모델로 바꾸는 곳에서 나온다.

수십 년 쌓은 경험과 지혜를 디지털 세계에 남길 수 있는 곳에서 나온다.

스튜디오 조명이 어두워졌다. 인터뷰가 끝났다.

창밖은 이미 밤이었다. 파리의 밤은 환했고, 도시 곳곳의 서버는 수많은 데이터를 처리하고 있었다.

그중 일부 데이터는 아직 깨어나기를 기다리고 있다.

🖥️ 소프트웨어

Echo Japanese

Echo Japanese는 애니메이션을 통해 일본어 단어를 배우는 앱으로, 일본 애니메이션에 관심이 있고 기본 일본어 지식이 있는 사용자에게 적합하다.

Knowledge Raven

Knowledge Raven은 MCP 기반 지식 관리 도구로, 여러 AI 플랫폼에서 문서를 지능적으로 검색하고 파일 업로드와 다중 모델 협업 검색을 지원한다.

Tubbr

Tubbr는 YouTube와 TikTok 크리에이터가 키워드로 스크립트, AI 이미지, 영상을 만들 수 있게 해 주는 도구로, 저비용 자동 콘텐츠 제작을 지원한다.

Prompt Vault

Prompt Vault는 Astro와 IndexedDB 기반의 백엔드 없는 프롬프트 관리 도구로, 로컬 저장, 오프라인 사용, 개인정보 보호를 지원한다.

YNTA

YNTA는 개인 코치를 위한 원격 트레이닝 관리 소프트웨어로, QR 코드 실시간 연결, AI 훈련 계획 생성, 음성 기록을 지원한다.

markd-essay-ai

markd-essay-ai는 영국 A-level 학생을 위한 다과목 에세이 AI 채점 및 피드백 도구로, 시험 기준 지원과 모의문제 자동 생성 및 채점을 제공한다.

StackMap

StackMap은 Terraform, CloudFormation, SAM 또는 실제 AWS 계정에서 로컬 편집 가능한 아키텍처 다이어그램을 생성하는 오픈소스 CLI 도구로, 다중 계정 스캔과 인터랙티브 시각화를 지원한다.

AI Subtitle Studio

AI Subtitle Studio는 브라우저에서 실행되는 AI 자막 영상 편집기로, 말투를 분석해 단어별 스타일을 자동 적용하고 원클릭 개선과 단어 단위 리치 텍스트 편집을 지원한다.

🌐 웹사이트

GuessTopia

GuessTopia는 인디 개발자가 만든 일일 지리 퍼즐 게임으로, 기후, 언어, 인구 같은 단서를 통해 국가나 수도를 추론한다.

CongressWatch

CongressWatch는 미국 의회 공개 데이터를 통합한 시각화 분석 사이트로, 투표 기록과 주식 거래 등에 대한 이상 징후 점수를 제공한다.

shadcnpreset

shadcnpreset은 커뮤니티 투표 기반의 shadcn UI 프리셋 라이브러리로, 키워드, 스타일, 분위기별 탐색과 미리보기를 지원한다.

Dishcord

Dishcord는 채팅형 레이아웃으로 레시피를 저장하고 공유하는 온라인 요리 앱이며, 댓글, 좋아요, 즐겨찾기를 지원한다.

Travelmapify

Travelmapify는 샤오홍슈 여행 계획 지도를 한 번에 복사하고 일정 계획을 생성할 수 있는 AI 도구로, 여행 준비 효율을 높여 준다.

✍️ 안내

데일리 프로젝트 정보:
웹사이트: https://www.nomoyu.com/
RSS: https://www.nomoyu.com/rss/rss.xml
위챗 공식 계정: 明航的AI副业
편하게 연락하고 의견을 나눠 주세요

모든 링크는 웹사이트에서 확인할 수 있습니다.