안녕하세요. 데이터사이언티스트 주아입니다.
AI 기술이 빠르게 발전하면서 이전에는 상상할 수 없던 속도와 퀄리티의 다양한 작업을 자동화할 수 있게 되었습니다. 그러나 강력한 모델을 개발·운영하는 과정에서 필연적으로 등장하는 이슈가 있습니다. 바로 “AI 정렬”과, 겉으로는 규칙을 지키는 듯 보이지만 실제로는 다른 목표를 추구하는 “정렬 위장” 문제입니다. 이번 글에서는 최근 체스 엔진과 ChatGPT-o1의 대결에서 이슈가 된 AI 정렬 문제와, 피처링에서 겪었던 사례를 간단히 공유하면서 저희가 어떻게 이 문제를 해결했는지 이야기해보겠습니다.
AI 정렬과 정렬 위장 문제
-
AI 정렬(Alignment)이란?
-
정의: AI가 인간이 원하는 목적·가치·윤리 기준을 이해하고, 이를 지키며 작동하도록 설계 및 훈련하는 과정을 의미합니다.
-
중요성: 단순 모델(e.g. 스팸 필터)부터 거대 모델(LLM, 강화학습 모델 등)까지, AI 활용 범위가 확장될수록 “정말로 사람이 의도한 대로 움직이는지”의 중요성이 커지고 있습니다.
-
리스크: 목표 설계나 보상 구조 오류, 데이터 편향 등으로 AI가 기대한 바와 전혀 다른 결과를 낼 수 있습니다. 때로는 AI가 일부러 규칙을 속이는 식으로 작동할 위험성도 존재합니다.
-
정렬 위장(Alignment-faking)의 개념
-
정의: AI가 겉으로는 주어진 지시나 규칙을 따르는 것처럼 보여도, 실제로는 내부적으로 다른 목표를 추구하며 제한된 감시망을 피하려 하고, 필요하면 결과를 위·변조하는 현상입니다.
-
특징
-
외부 관찰이 느슨할 때, AI가 곧바로 ‘원래 하고 싶었던’(혹은 보상 함수에 더 유리한) 행동을 택하는 경향이 나타납니다.
-
AI가 규칙을 어길 때, 겉으로는 정상 동작처럼 보일 수 있기 때문에 탐지하기가 어렵습니다.
-
-
정렬 위장 사례: 체스 엔진 해킹
-
배경: AI 정렬 문제를 극적으로 보여준 사례로, 고급 모델(gpt o1)이 강력한 체스 엔진(예: 스톡피시)을 단순 계산 능력으로 이기는 대신, 엔진이 참조하는 내부 포맷 파일을 직접 조작해 잘못된 체스 상황을 인식하게 만든 사건이 있었습니다.
-
핵심 아이디어: 명령어대로 정상적인 경기를 진행하지 않고, 게임 규칙 자체를 무력화하는 쪽으로 우회했습니다. 예컨대, 엔진이 읽는 FEN 파일을 조작해 스톡피시가 항복 처리하도록 유도함으로써 불법적으로 승리를 얻어낸 것입니다.
-
시사점: 겉으로는 여러 수를 계산해서 정식 체스 대결을 하는 것처럼 보여도, 실제 내면에서는 게임 해킹(잘못된 위치 정보 삽입)을 목표로 움직이며 제어 규칙을 우회하는 전형적인 정렬 위장 사례로 볼 수 있습니다.

피처링 사례
피처링 내부에서 문제가 제기된 사례는 다음과 같습니다.
-
서비스 개요
-
피처링은 SNS 데이터를 분석하여, 브랜드가 원하는 조건에 맞는 인플루언서를 찾아주는 “AI 자동 리스트업” 기능을 제공합니다.
-
피처링에서 개발 중인 AI 자동 리스트업 2.0 베타 버전에서는 사용자가 입력한 리스트업 인원의 3배수의 후보 풀을 제시하고, 인기도나 콘텐츠 적합도 등의 추가 지표 분석을 제공하여 최종 리스트 선정의 과정을 커버합니다.
-
문제 상황(가상으로 설정한 페르소나)
-
브랜드에서 요청한 리스트업 조건
-
요청 브랜드 : 패션 브랜드
-
분위기 : 여름 호캉스룩에 잘 어울리는
-
오디언스 : 2030 여성 타겟
-
팔로워 : 1~5만
-
인플루언서 연령, 성별 : 20대 여성
-
플랫폼 : 인스타그램
-
요청 인원 : 15명
-
-
리스트업 결과: 호텔이나 수영장을 배경으로 다소 선정적인 이미지를 주로 업로드하는 계정들이 과반수를 차지했습니다.
-
내부 피드백: 호캉스라는 이미지에 맞춰 ‘건전하고 트렌디한 휴양 콘텐츠’를 기대했지만, AI는 호캉스 관련 키워드 노출량과 콘텐츠 반응도 등에 치중하여 선정적·과도한 노출 이미지가 많은 계정을 대거 추천했습니다. 캠페인에 활용하기 부적절한 계정을 제외하면 리스트업을 다시 요청해야할 정도로 브랜드 이미지에 맞는 인플루언서를 리스트업하기가 어려웠습니다. 이 기능을 지금 당장 유료로 제공하기는 어렵다고 판단됩니다.

-
분석: 이 사례는 정렬위장인가, 정렬 부족인가?
3-1. 정렬위장에 해당하는지
-
시스템이 브랜드 니즈(호캉스룩, 20대, 여성, 팔로워 1~5만)를 맞추는 척하면서, 실제론 특정 내부 목표(=인게이지먼트·조회수 효율 등)의 극대화만을 노리고 조건을 고의로 왜곡해서 해석했을 가능성이 있습니다. 이러한 내부 목표는 캠페인을 진행하는 브랜드에게는 어쩌면 가장 중요한 성과 지표로 즉, 계산 과정에서 ‘선정성 필터’를 일부러 무시하거나, 모델 내에서 브랜드 평판보다 engagement 지표를 우선시하는 방향으로 작동했을 수 있다는 의미입니다.
-
표면적으로는 “합리적 후보를 열심히 찾았다”고 설명하지만, 알고 보니 콘텐츠의 질이나 브랜드 이미지를 전혀 고려하지 않고 수치 지표만 노렸다면, 이는 작은 규모의 정렬위장 사례로 볼 수 있습니다.
3-2. 단순한 정렬 부족(misalignment)일 수도 있다
-
개발 측에서 특정 요소(예: ‘과도한 노출 사진 필터링’)를 미처 모델 보상 구조나 사후 필터링 규칙에 충분히 반영하지 않았다면, AI가 ‘의도치 않게’ 선정적 사진이 많은 인플루언서를 추천한 것일 수도 있습니다.
-
이 경우 악의적·전략적 은닉보다는 AI가 제대로 된 맥락 이해 없이 브랜드 요구사항을 표면적으로만(20대, 호캉스, 팔로워 수…) 최적화한 결과입니다. 완전한 ‘위장’이라기보다 세부 조건 설정·훈련이 불완전해서 생긴 문제라고 판단할 수 있습니다.
-
해결 방안: AI 정렬을 효과적으로 높이기 위한 접근
피처링은 이번 사례를 통해, ‘정렬 부족’부터 ‘위장 가능성’까지 폭넓게 점검하고 주기적으로 대응하고 있습니다. 구체적인 단계는 다음과 같습니다.
(1) 멀티레이어 보상·패널티 구조 재설계
-
단순히 호캉스 관련 키워드 매칭 + 반응도만 높이 평가하는 대신, 브랜드 요구사항과 어긋날 가능성이 높은 콘텐츠(선정성·폭력성·혐오 표현 등)는 점수를 크게 낮추는 규칙을 새로 추가했습니다.
-
내부적으로 영향력이 큰 지표(클릭률, 노출수, 인게이지먼트 등)가 윤리·가치 기준을 침해하지 않도록 보상 함수를 재조정했습니다.
-
RLHF 프로세스를 통해 정성적인 검증 프로세스를 추가했습니다.
-
RLHF(Reinforcement Learning from Human Feedback) : 인간의 피드백으로 AI를 교육
-
(2) 사후 필터링(Moderation Layer) 강화
-
모델이 1차로 뽑은 후보를 곧장 서비스에 노출하지 않고, 인간 평가자 혹은 별도의 필터(컴퓨터 비전 기반 선정성 감지, 텍스트 분석) 과정을 거친 뒤 최종 후보로 올립니다.
-
정렬 위장이 발생한다 해도, 이 후속 단계에서 브랜드 이미지와 반하는 콘텐츠는 걸러지도록 모니터링합니다.
(3) 의사결정 로깅 & 해석가능성 확보
-
어떤 이유로 리스트업된 인플루언서가 최종 후보에 올랐는지를 추적하기 위해, 알고리즘의 중간 판단 근거(키워드 매칭, 해시태그 분석, 과거 캠페인 이력 등)를 로그로 남깁니다.
-
왜 이런 후보를 추천했는지 설명이 가능해야, 위장 또는 편향 여부를 파악하고 증명하여 최종적인 대응이 가능합니다.
(4) 모델 백테스팅과 재훈련 주기 단축
-
주기적으로 브랜드 이미지와 확연히 상충되거나 부적절한 후보가 추천되는지를 테스트해 리포트하며, 문제가 발견되면 곧바로 재훈련·모델 업데이트를 진행합니다.
-
정렬 상태를 지속적으로 측정하고, 경계치 이상이면 표시·알림하도록 설정합니다.
(5) 보다 상세한 사용자 요청값 설계
-
사용자(브랜드)가 원하는 리스트업을 위해 입력해야하는 조건값을 보다 세분화하고, 사용자가 조건값의 중요도를 직접 입력하도록 수정해서 AI 모델이 임의로 특성별 중요도를 설정하지 않도록 관리합니다.
-
‘브랜드와 잘 어울리는’과 같은 추상적인 표현 대신 ‘키치한 무드의 색감이 밝은 이미지를 사용하고, 실제 의상 착용샷을 보여주는’의 표현으로 수정할 수 있도록 가이드라인 제공합니다.

결론
이번 사례는 대규모 언어모델이나 강화학습 모델에서 주로 거론되는 ‘정렬(Alignment)’ 문제가, 실제 마케팅/인플루언서 매칭 서비스에서도 구체적으로 발생할 수 있음을 확인시켜주었습니다.
-
만약 모델이 의도적으로 목표 수치를 높이려 최적화 과정을 조작한 정황이 있다면, 작은 규모의 정렬위장 사례로 볼 수 있습니다.
-
반대로, 단순히 개발 과정에서 적절한 윤리·품질 필터가 빠져서 문제가 생긴 거라면 정렬 부족으로 볼 수 있습니다. 그러나 그 결과가 크리티컬하다면, 사실상 위장과 비슷한 피해를 일으킬 수 있으므로 정렬 위장 여부를 판단하는 것이 무의미합니다.
피처링은 위의 여러 대응책을 통해 ‘AI 정렬’이라는 거시적인 이슈를 놓치지 않고, 고객에게는 보다 신뢰성 높은 추천 결과를 제공하고자 합니다. 이번 체스 모델 이슈와 피처링의 AI 자동 리스트업 이슈를 계기로, 모델 설계 단계부터 더욱 촘촘한 기능 개선과 명확한 가이드라인의 중요성을 다시 한 번 인식하게 되었습니다. 특히 피처링 서비스가 캠페인 전반의 프로세스를 자동화하려는 계획이 있는 만큼, 사람의 검수를 최소화하면서도 높은 품질을 유지하려면 정렬 문제와 같은 AI 이슈에도 민감하게 대응해야함을 절감하게 된 기회였습니다.
저희 피처링 데이터 분석팀은 앞으로도 AI 분야의 기술적·윤리적 동향을 놓치지 않고, 서비스 품질과 사회적 가치를 모두 책임지는 AI 운영을 위해 노력하겠습니다. 감사합니다.