·3분 읽기Launch

Defect Hub를 출시합니다

깨진 벤치마크 task를 한 줄로 신고하고, 실제 수정까지 추적하세요.

eval을 돌리다 보면, 에이전트가 애초에 풀 수 없던 task에서 틀린 것으로 처리되는 일이 있습니다. verifier가 깨졌거나, 정답이 틀렸거나, 솔루션이 유출된 task죠. 벤치마크 탓인 걸 알지만, 막상 어디에 신고해야 할지는 막막합니다. 지금은 마땅한 곳이 없으니까요.

Defect Hub: 터미널을 떠나지 않고 벤치마크 결함을 신고하세요
Defect Hub: 코딩 에이전트 안에서 깨진 벤치마크 task를 신고하고, 수정될 때까지 추적합니다.

이 빈틈은 어디에나 있습니다. 코딩 벤치마크는 어떤 모델이 출시될지를 정하고 다음에 무엇을 학습할지까지 좌우하는데, 정작 그 벤치마크가 결함투성이입니다. OpenAI의 audit은 SWE-bench task의 68%를 결함으로 봤고, Agentic Benchmark Checklist(2025)는 대부분의 벤치마크가 task validity나 outcome validity를 통과하지 못하고, 자기 결함을 온전히 공개하는 곳은 한 곳도 없다고 보고했습니다. maintainer가 전부 잡을 수는 없고, 더 강한 에이전트가 나올 때마다 안 보이던 결함이 새로 드러납니다. 그런데 정작 그걸 마주친 사람은 신고할 데가 없습니다. Discord에 메모 한 줄 남기거나 엉뚱한 repo에 이슈를 올려도 그냥 묻히고 말죠.

Defect Hub가 그 고리를 닫습니다. 이미 당신이 일하는 자리, 곧 코딩 에이전트 안에서 바로 작동합니다. skill을 한 번 설치하면 한 줄로 신고할 수 있습니다.

  • npx skills add delphik-ai/delphik --skill report-defect
  • /report-defect

버그를 드러낸 trajectory가 증거로 자동 첨부되니, 작업 흐름을 벗어날 필요가 없습니다. 수정 제안까지 함께 넣으면 우리가 그걸 바로 머지할 수 있는 PR로 정리해, maintainer가 들일 품을 거의 0으로 줄여 줍니다. 보상은 없습니다. 동기는 더 단순합니다. 그냥 짜증나고, 진짜로 고쳐지길 원하니까요. 말하자면 AI 벤치마크를 위한 bug bounty인데, 정작 bounty는 없는 셈입니다.

그다음부터는 모든 신고가 triage를 거쳐 maintainer에게 PR이나 이슈로 전달되고, 수정될 때까지 추적됩니다. found, fixing, fixed 단계가 그대로 남고, 수정이 반영되면 크레딧이 당신에게 돌아갑니다. 검증되고 수정된 defect는 인용할 수 있는 공개 데이터셋이 됩니다. 스택을 새로 만들지는 않았습니다. 벤치마크 실행은 Harbor, trajectory 뷰는 Docent에서 돌아갑니다. Harbor가 에이전트가 task를 푸는가를 잰다면, Defect Hub는 task 자체가 옳은가를 잽니다.

지금 바로 쓸 수 있는 것들입니다.

  • 72개 벤치마크, 22,322개 task가 인덱싱돼 바로 audit할 수 있습니다. posttrain.dev/benchmarks에서 둘러보세요.
  • maintainer는 벤치마크를 claim하면 신고가 바로 자기에게 전달되고, 공개 health record를 최신 상태로 유지할 수 있습니다.

오늘 깨진 task를 마주쳤나요? skill을 설치하고 /report-defect를 실행하거나, posttrain.dev/benchmarks에서 인덱싱된 벤치마크를 둘러보세요.