Cursor → Antigravity → Claude Code + Codex에 이르기까지의 여정

1년 사이에 도구가 네 번 바뀌었다는 사실을 깨달았을 때

지난 1년 동안 제가 메인으로 쓰는 AI 도구는 Cursor에서 Antigravity로, 다시 Claude Code로, 그리고 최근엔 Codex로 옮겨왔습니다. 더구나 각각의 도구를 갈아탄 간격이, 갈아탈 때마다 점점 짧아지고 있었습니다. Cursor에서 Antigravity로 옮기는 데 걸린 시간보다 Antigravity에서 Claude Code로 옮기는 시간이 짧았고, Claude Code에서 Codex로 옮기는 데에는 채 두 달도 걸리지 않았습니다. 제가 일하는 방식 자체가 1년에 네 번이나 바뀌었고, 그 변화의 속도는 일정하지도 않고 오히려 가속되고 있습니다.

같은 1년인데 체감 5년치 변화가 흘러갔습니다

작년 5월에 저는 Cursor를 비개발자도 쓸 수 있는 프롬프트 에디터로 소개하는 글을 썼습니다. 그때만 해도 Cursor가 제 일하는 방식의 새 표준이라고 생각했고, 한동안은 Cursor로도 충분히 만족스럽다고 생각했습니다. 그로부터 1년이 채 안 된 지금 시점에서 그 글을 다시 보면 마치 5년 전 글처럼 느껴집니다. 그 글이 전제로 깔고 있던 "AI를 쓴다"는 행위의 모양 자체가 완전히 달라졌습니다.

당시에 저는 IDE를 열어두고 한 켠에 IDE에서 제공하는 AI 채팅창을 띄워 프롬프트를 던지는 식으로도 충분히 AI를 잘 쓰고 있다 생각했습니다. 지금은 IDE조차 잘 안 켭니다. 터미널을 4개 pane으로 쪼개서 LLM을 동시에 굴리고 있고, 문서 편집기는 Obsidian을 쓰거나, 소스코드인 경우 VS Code로 엽니다. VS Code에서 켤 수 있는 AI 채팅창은 거의 사용하지 않습니다. 순수 에디터 + 터미널의 조합입니다. "AI를 보조 도구로 곁들여서 쓴다"에서 "AI가 일을 하고 있고 나는 그 옆에서 오로지 명령만 내린다"로 시점이 통째로 옮겨갔습니다.

도구 갈아타는 간격이 점점 짧아진다는 사실에서 제가 본 것

25년 11월 시점의 저는 Antigravity가 최고라고 외치고 다녔습니다

이직을 하고 얼마 안 된 25년 11월쯤, 저는 Antigravity를 쓰기 시작했습니다. Cursor로 바이브 코딩을 할 때와 비교하면 Antigravity 쪽이 더 잘한다고 느꼈습니다. Chrome extension만 깔아두면 QA까지 알아서 해주는 게 시각적으로 "우와" 하는 경험이었거든요. 문제는 너무 느리다는 점, 그리고 중간 진행 과정이 모두 영어로 강제된다는 점이었는데, 그 정도는 성능이 좋으니 감수할 만하다고 생각했습니다.

이때만 해도 Claude Code는 "내가 쓰기엔 너무 개발자용 도구 아닌가" 정도의 거리감이 있었습니다. 그런데 이직한 회사의 엔지니어들이 Claude Code를 너무 잘 쓰고 있었고, LinkedIn에는 비개발자 직무인데도 Claude Code로 뭔가를 해냈다는 글이 점점 자주 올라왔습니다. 그때 제가 느낀 감정은 호기심이 아니라 위기감이었습니다. 그리고 이 위기감만큼 새로운 도구의 learning curve를 견디게 하는 동력이 없습니다. 들입다 쓰기 시작했고, 26년 3월에는 Claude Code Only로 일하는 단계까지 왔습니다.

Claude Code로의 전환은 단순히 사용하는 도구의 변화가 아니라 '일하는 방식'의 변화였습니다.

Antigravity를 쓰던 시절에는 프로토타이핑 용도로만 썼고, 그 외 비개발성 업무는 Gemini 채팅으로 처리했습니다. 당시의 저는 "업무용으로는 Gemini만 쓰면 된다"고 외치고 다녔습니다. 그런데 Claude Code로 옮긴 이후엔 Gemini를 쳐다도 안 보게 됐는데요. 이게 단순히 모델 성능 차이 때문은 아니라고 생각합니다.

Gemini를 쓰던 시절의 저는 IDE+웹페이지 환경에서 일했고, 문서는 노션에서 직접 타이핑했습니다. 제가 직접 글을 쓰고 AI는 자료 조사, 단순 반복적 글 작성 용도 였기 때문에 노션을 썼던 거죠. 그런데 Claude Code로 옮기는 순간 환경이 옵시디언+터미널로 바뀌었습니다. Claude Code가 접근하려면 로컬에 저장된 마크다운 파일이어야 하니까요. 즉, 도구를 바꿨더니 작업 환경이 바뀌었고, 작업 환경이 바뀌었더니 "내가 어떻게 일하는가"의 정의 자체가 바뀌었습니다. 노션에서 옵시디언으로 옮기는 게 단순한 앱 갈아타기가 아니라, "내가 직접 쓴다"에서 "AI에게 시킨다"로의 전환이었던 셈입니다.

Codex로 옮긴 건 같은 환경 안에서의 일이었는데도 또 다른 변화가 있었습니다

불과 2주 전부터 Codex를 쓰기 시작했습니다. 발단은 Claude Code 구독형 Max 플랜의 토큰이 모자라기 시작해서였습니다. 별 기대 없이 켰는데, 막상 써보니 Codex가 조금은 더 잘하는 듯한 인상을 받았는데요. 다만 Gemini → Claude Code 때처럼 무조건 더 좋다! 외칠 수준은 아닙니다.

Codex 전환은 Claude Code 전환과 결이 다릅니다. 이용 환경이 바뀌지 않았거든요. 터미널에서 LLM을 굴리고 옵시디언/VS Code로 본다는 큰 그림은 동일하고, 그 안의 모델만 바뀌었습니다. 그럼에도 더 좋다고 느낀 부분은 더 꼼꼼하게 챙겨본다는 점이었습니다. 어떻게 하면 더도 말고 덜도 말고 딱 내가 시킨 것만 하게 만들 것이냐가 요즘 가장 골치인데, '꼼꼼하다'는 사실 하나만으로도 눈이 가기엔 충분하죠.

제 최대 관심사는 더 이상 AI 자동화 자체가 아니라 그 결과의 검증입니다

유저 인터뷰 속기록 분석에서 두 모델의 차이를 직접 확인했습니다

유저 인터뷰 속기록을 AI로 요약·분석하는 일은 유저 리서처 역할을 겸하는 PM에게 자주 필요한 효율화 작업입니다. 사실 이 작업 자체는 1년 전 Cursor 시절에도 가능했습니다. 문제는 그때나 지금이나 항상 똑같은 곳에 있습니다. 정확도, 정확히는 AI가 유저 발언을 과대 해석하지 않는가 하는 점입니다. AI는 주어진 데이터나 유저의 프롬프트를 옹호하고 따르는 경향이 있습니다. 점점 나아지고 있다지만 여전히 유저가 우긴다 싶으면 수긍해버리는데요. 인터뷰 분석에서는 이 경향이 치명적입니다. 유저가 실제로 한 말 이상으로 추론을 채워 넣으면 인사이트가 왜곡되니까요.

그래서 최근의 저는 AI 자동화 자체보다 AI가 자동화한 결과물을 어떻게 검증할 것인가에 더 관심이 많습니다. 그것도 사람이 검증하는 게 아니라 AI가 검증하도록 하는 방향으로요. 이제 업무에서 유일한 병목은 사람입니다. 사람의 시간은 24시간으로 고정이고, 사람의 뇌는 AI처럼 빠르게 발전하지 않으니까요. "검증은 사람이 해야 한다"는 명제도 이제는 많이 퇴색되어 가고 있다고 개인적으로 생각합니다. 멋지게 표현하자면 LLM-as-judge를 써서 검증조차 AI로 빠르게 처리해야 하는 시대인 거죠.

같은 raw text를 두 모델에 시켰을 때 결과가 갈렸습니다

마침 Codex가 더 꼼꼼하다고 느낀 게 이 검증 작업에서였습니다. 유저 인터뷰 속기록 raw transcript를 Claude Code에게 시켜서 요약+인사이트 추출 보고서를 만들었습니다. 제 눈에는 괜찮아 보였는데, 분량이 적지 않아 사람이 양쪽을 일일이 비교 검증하긴 쉽지 않은 상황이었습니다.

그래서 검증은 Codex로 돌렸습니다. 팀 엔지니어들 사이에서 Codex가 검증을 더 꼼꼼하게 한다는 이야기를 들은 영향도 있었고, 같은 LLM이라 해도 모델별로 나름의 관점차가 있을지 모르니 서로 다른 모델에 서로 다른 역할을 부여해보자는 의도도 있었는데요. 결과는 꽤나 신기했습니다. Claude Code가 작성한 보고서에는 인사이트 과대 해석이 상당수 있었습니다. 예를 들어 유저 한 분이 자기 업무 수단으로 카카오톡을 주로 쓴다고 말했는데, 보고서는 이걸 "보험설계사의 주된 업무 수단은 카카오톡이다"라는 식으로 일반화하고 있었습니다.

혹시 검증이라는 작업 자체가 LLM에게 쉬운 일이라 누가 시켜도 잘 찾는 건가 싶어서, Claude Code에게도 동일한 검증을 시켜봤습니다. 물론 새 대화 세션에서요. 보고서를 작성했던 그 세션에 그대로 들이밀면 컨텍스트가 남아 있으니까요. 결과는? Claude Code는 보고서가 다 잘 써졌고 문제 없다고 답했습니다. 같은 raw text를 두고 Codex는 과대 해석을 짚어냈고 Claude Code는 자기 결과물을 옹호한 거죠. 이 경험이 작은 사례이긴 하지만, 제겐 "모델별 관점차"라는 게 그저 비유가 아니라 실재할 수 있다는 단서로 느껴졌습니다.

1년 동안 점점 더 빨라지는 이 변화 속도에서 제가 읽은 것

이 1년의 변화는 일정한 주기로 흐른 게 아니라 가속되고 있었습니다

여기서 다시 짚어야 하는 지점이 있습니다. 1년 동안 제 일하는 방식이 비슷한 주기로 바뀌지 않았다는 점입니다. 최근으로 올수록 더 급격히 변했습니다. Cursor → Antigravity 전환에 걸린 시간보다 Antigravity → Claude Code 전환이 훨씬 짧았고, 또 순식간에 Codex로 넘어갔습니다. 심지어 객관적인 모델 성능 지표에서도 GPT 5.5가 Opus 4.7 대비 부족할 게 없고 가장 어려운 작업은 Opus에게 맡기되, 몸통 작업은 Codex에게 맡기면 된다는 글도 보았습니다.

이 가속이 의미하는 건 단순합니다. 어떤 도구를 "잘 쓰게 됐다"는 안정감이 유지되는 기간이 점점 짧아지고 있다는 뜻입니다. 1년 전에 잘 쓰던 도구는 5년치 거리만큼 멀어졌고, 6개월 전에 익숙해진 도구는 이미 다른 도구로 대체되었습니다. 이 추세에 언젠가는 브레이크가 걸려서 안정화될 거라는 예측은 아무도 내놓고 있지 않습니다.

그래서 저는 연간 구독도, 미래 계획도 거의 안 세우게 됐습니다

이 인식은 제 소비 습관까지 바꿨는데요. 요즘 저는 연간형 구독을 절대 하지 않습니다. 정말 오랫동안 써왔고, 심지어 강의까지 출시했던 노션도 이제 졸업할 예정입니다. 새로운 서비스를 발견했을 때 가장 먼저 떠오르는 생각도 바뀌었습니다. "이거 그냥 Claude Code로 직접 만들어서 쓰면 안 되나?" 가 가장 먼저 떠오릅니다. 정작 제 직업이 SaaS PM이라는 점을 떠올리면 슬픈 사실입니다.

당연히 제가 속한 회사의 제품팀에서도 SaaS라는 사실 자체만으로는 비즈니스가 되지 않는 세상을 준비하고 있습니다. 저 자신도 기획과 문제 정의에 더 치열하게 완벽주의를 가해야겠다는 생각을 늘 되새기는데요. 전문가가 아닌 사람도 그럭저럭 만들 수 있는 수준은 이제 모두가 만들 수 있는 시대가 되었기 때문입니다. 더 무서운 사실은 이 현실에 도달하기까지의 속도가 말 그대로 지수적이었다는 점이고, 그 속도가 언제 꺾일지 아무도 모른다는 점입니다.

미래 계획을 세우지 않는 게 저에게는 가장 합리적인 자세입니다

원래도 저는 미래 계획을 2년 이상 안 세운다고 말하고 다니는 사람이었습니다. 내가 뭐 그리 미래 예측을 잘한다고 미리 준비하나 싶어, 당장 오늘만이라도 성실히 살자는 마음가짐이었습니다. 그런데 요즘은 그냥 "안 세우자"가 맞다고 생각합니다. 이전엔 "예측 불확실성이 높으니 대비해봤자 수지타산이 안 맞는다" 정도의 절제였다면, 지금은 "1년 뒤조차 누구도 예측할 수 없게 되었다"는 인식에 더 가깝습니다.

마치며

저는 1년 사이에 도구를 네 번 갈아탔고, 갈아타는 간격은 점점 짧아지고 있고, 마지막엔 같은 LLM 두 개에게 서로 다른 역할을 시켜 검증까지 자동화하는 자리에 와 있습니다. 객관적인 모델 성능에서도 어느 한 모델이 압도적이라고 단언할 수 없는 시점이 왔고, 새 서비스를 보면 직접 만들어 쓸 수 있나부터 떠올리는 사고 패턴이 자리잡았습니다. 이 모든 게 1년 안에 일어난 일입니다.

그래서 요즘 저의 자세는 약간 해탈한 듯한 모양에 가깝습니다. 1년 뒤조차 예측할 수 없게 된 시점에 합리적인 자세는, 멀리 있는 무언가를 위해 오늘을 저당 잡히는 게 아니라 오늘 내가 할 수 있는 일을 놓치지 않고 꾸준히 하는 정도라고 생각합니다. 미래에 대한 청사진이 무력해진 시대일수록, 오늘 해낼 수 있는 결과만큼은 아직 나에게 맡겨져 있기 때문입니다. 1년 뒤의 저는 또 다른 도구를 쓰고 있을 거고 또 다른 글을 쓰고 있을 텐데요. 제가 약 1년 전 썼던 Cursor 찬양글이 전혀 다르게 다가왔듯이, 1년 뒤에 제가 이 글을 보고 어떤 생각을 하게 될지가 기대됩니다.