Metodologi · 01

Eval sebelum fitur: suite uji sebelum prompt

TL;DR

Eval sebelum fitur berarti menulis suite uji yang mendefinisikan 'berfungsi' sebelum membangun AI yang harus melewatinya. Inilah prinsip yang memungkinkan harga tetap dan garansi pasca-peluncuran: tanpa ukuran 'selesai' yang disepakati, baik klien maupun pembangun tidak bisa mengatakan apakah sistem berhasil.

Dalam perangkat lunak konvensional, uji memeriksa bahwa kode melakukan yang seharusnya. Dalam AI, padanannya — eval — melakukan sesuatu yang lebih mendasar: mendefinisikan apa arti 'seharusnya' bagi sistem probabilistik. PRIONATION menulisnya lebih dulu, sebelum prompt atau model mana pun dipilih.

Ini bukan sekadar preferensi proses. Ini mekanisme yang membuat proyek ruang lingkup dan harga tetap menjadi jujur, karena definisi keberhasilan disepakati dan terukur sebelum build dimulai.

Apa arti prinsip ini

Eval adalah uji yang dapat diulang yang menilai keluaran sistem AI terhadap standar yang ditentukan: sekumpulan input representatif, perilaku yang diharapkan, dan metode penilaian. Sebuah suite eval mengubah pertanyaan kabur 'apakah AI sudah cukup baik?' menjadi angka yang disepakati semua pihak sejak awal.

Menulisnya lebih dulu membalik urutan biasa. Alih-alih membangun fitur lalu bertanya apakah berfungsi, PRIONATION menentukan apa itu 'berfungsi' — dataset acuan, ambang kelulusan, kasus kegagalan — dan baru kemudian membangun sistem untuk memenuhinya.

Anti-pola

Mode kegagalan yang umum adalah pengembangan berbasis demo: prototipe tampak mengesankan pada beberapa input pilihan, semua orang antusias, lalu dirilis. Di produksi ia bertemu input yang tak pernah diuji, gagal diam-diam, dan perdebatan menjadi subjektif — 'modelnya salah' versus 'promptnya benar' — tanpa standar bersama untuk memutuskan.

Tanpa eval, tidak ada pula garansi yang jujur. Jika 'selesai' tak pernah didefinisikan, tidak ada cara mengatakan apakah regresi di kemudian hari adalah bug yang diperbaiki gratis atau pekerjaan baru yang harus ditagih. Ketiadaan eval inilah yang membuat sebagian besar proyek AI diam-diam tak berujung.

Bagaimana PRIONATION menerapkannya

Setiap Build dimulai dengan menyusun dataset acuan dari input nyata dan representatif, serta menentukan rubrik penilaian masing-masing — pencocokan persis bila sesuai, penilaian oleh model bila perlu pertimbangan, dengan ambang eksplisit. Ini menjadi pemeriksaan regresi otomatis yang berjalan di CI pada setiap perubahan.

Suite eval dispesifikasikan selama Diagnostic dua minggu, sebelum Build ditawarkan. Itu disengaja: suite adalah kontraknya. Itulah dasar penetapan harga tetap dan tolok ukur garansi pasca-peluncuran empat minggu.

Bagaimana kaitannya dengan tiga prinsip lain

Eval memberi makan telemetri: logika penilaian yang sama yang menjadi gerbang build dijalankan terhadap trafik produksi, sehingga performa langsung diukur dengan tolok ukur yang sama dengan build. Eval bergantung pada infrastruktur yang dimiliki, karena dataset acuan dan harness eval adalah aset klien yang dikirim bersama kode.

Dan eval membuat pod ramping menjadi mungkin. Tim kecil bisa bergerak cepat justru karena suite eval menangkap regresi secara otomatis, menghapus QA manual yang jika tidak akan memperlambat pod dua hingga tiga orang.

Mengapa ini fondasi struktural pengiriman harga tetap

Harga tetap hanya jujur jika 'selesai' didefinisikan sebelum angka disepakati. Eval adalah definisi itu. Eval mengubah masalah riset terbuka menjadi masalah rekayasa yang berbatas: bangun sistem yang skornya di atas ambang pada suite yang disepakati.

Itulah sebabnya PRIONATION memperlakukan spesifikasi eval sebagai keluaran sebenarnya dari Diagnostic. Begitu ia ada, Build menjadi minim risiko bagi kedua pihak — ruang lingkup tidak bisa membengkak diam-diam, dan hasilnya tidak bisa diperdebatkan.

Di mana tim sering keliru

Kesalahan paling umum adalah memperlakukan eval sebagai langkah QA di akhir, bukan sebagai spesifikasi di awal. Ditulis belakangan, eval hanya mengonfirmasi apa yang sudah dibangun; ditulis lebih dulu, ia membatasi apa yang akan dibangun. Urutannya adalah inti persoalannya.

Kesalahan kedua adalah menilai berdasarkan kesan — segelintir contoh pilihan yang terlihat bagus saat demo. Suite yang sungguhan menyertakan input yang merusak sistem: kasus tepi, frasa adversarial, dan format yang tak terduga. Kasus-kasus itulah yang menentukan apakah sebuah sistem bertahan saat berhadapan dengan produksi.

Rekayasa produk AI Telemetri sejak hari pertama Pod ramping, jam tetap Daftar kesiapan build Glosarium rekayasa AI

Pertanyaan yang sering diajukan

Apa itu eval AI?

Uji yang dapat diulang yang menilai keluaran sistem AI terhadap standar yang ditentukan — sekumpulan input representatif, perilaku yang diharapkan, dan metode penilaian. Eval mengubah 'apakah AI cukup baik?' menjadi angka yang disepakati.

Mengapa menulis eval sebelum prompt?

Karena eval mendefinisikan apa arti 'berfungsi'. Menulisnya lebih dulu membuat keberhasilan terukur dan disepakati sebelum build, yang memungkinkan harga tetap dan garansi nyata. Membangun dulu dan menguji belakangan membuat 'selesai' tak terdefinisi.

Bagaimana ini memungkinkan harga tetap?

Harga tetap hanya jujur jika garis akhir ditentukan di muka. Suite eval adalah garis akhir itu: Build dihargai dan digaransi atas kelulusannya, sehingga ruang lingkup tidak bisa membengkak diam-diam.

Apakah eval memperlambat build?

Justru mempercepat. Pemeriksaan eval otomatis di CI menangkap regresi seketika, menghapus siklus QA manual. Itulah yang memungkinkan pod dua hingga tiga orang bergerak cepat tanpa merusak.

Siapa yang memiliki suite eval?

Klien. Dataset acuan dan harness eval dikirim bersama kode sebagai bagian dari infrastruktur yang dimiliki, sehingga standar yang sama terus berjalan setelah proyek berakhir.

Apa sebenarnya isi sebuah suite eval?

Tiga hal: dataset acuan berisi input representatif, perilaku yang diharapkan atau kriteria penerimaan untuk masing-masing, dan metode penilaian yang mengubah keluaran mentah menjadi lulus, gagal, atau angka. Bagian tersulit jarang soal perkakas — melainkan menyepakati seperti apa jawaban yang baik.

Bisakah menulis eval saat kebutuhan masih kabur?

Menulis eval adalah cara kebutuhan yang kabur menjadi konkret. Menentukan input, keluaran yang diharapkan, dan ambang batas memaksa ambiguitas tampak selagi masih murah untuk diselesaikan — jauh sebelum ia muncul sebagai insiden produksi.

Mulai dengan Diagnostic

Dua minggu. €5.000. Hambatan yang terpetakan dan rencana siap produksi — tanpa kewajiban melanjutkan ke Build.

Mulai Diagnostic →