AI tuvastamise täpsus: tõendid

Mida uurimistöö tegelikult ütleb Turnitin'i, GPTZero ja õiglase hindamise kohta

Õpetaja vaatab AI tuvastamise aruandeid koos õpilastöödega

Miks täpsus on praegu nii oluline

AI-kirjutise tuvastajad on koolidesse jõudnud kiiremini kui enamik poliitikaid, koolitusplaane või eetilisi raamistikku. Paljudel platvormidel kuvatakse nüüd sarnasusskooride kõrval „AI protsent“ ja tööriistad nagu GPTZero on vaid ühe brauserikaardi kaugusel. Surve all reageerida generatiivsele AI-le käsitlevad mõned asutused neid skoore vaikselt kui vaikimisi tõendeid väärkäitumise kohta.

See on riskantne. Sõltumatud uuringud näitavad, et AI tuvastajad võivad eksida viisil, mis ei ole juhuslik. Nad kalduvad sagedamini märgistama teatud õpilaste töid kui AI‑ga loodud, eriti mitte-emakeelsete kirjutajate ja nende puhul, kes kasutavad lihtsamat sõnavara. Sellel on reaalsed tagajärjed: stress, usalduse kahjustumine, formaalsed uurimised ja mõnes süsteemis ka tõsised distsiplinaarkaristused.

Mõistmine, mida tõendid tegelikult näitavad, ei ole seega tehniline luksus, vaid õppijate kaitsmise küsimus. Kui koolid tahavad hoida õiglust ja akadeemilist ausust, peavad nad teadma, kus tuvastajad toimivad, kus nad ebaõnnestuvad ja kuidas teha hindamisotsuseid, mis ei toetu näilisele kindlusele.

Kuidas AI tuvastajad töötavad

Enamik AI-kirjutise tuvastajaid kasutab keeles esinevaid statistilisi mustreid, mitte ei „tunne“ ChatGPT-d otseselt ära. Lihtsustatult küsivad nad: „Kui ennustatav on see tekst, arvestades seda, mida me teame AI ja inimkirjutise kohta?“

Uurimistöös esineb sageli kaks mõistet:

Perplexity kirjeldab, kui üllatav on iga sõna oma kontekstis. Suured keelemudelid, nagu need, mis on ChatGPT taga, kipuvad tootma suhteliselt madala perplexity’ga teksti: ladusat, sujuvat ja statistiliselt ennustatavat. Inimkirjutis, eriti vähem kogenud kirjutajate puhul, võib olla ebaühtlasem ja üllatavam.

Burstiness viitab lause pikkuse ja struktuuri varieeruvusele. Inimkirjutajad segavad sageli lühikesi, teravaid lauseid pikemate ja keerukamate lausetega. AI‑ga loodud tekst võib olla ühtlasem, kuigi see muutub, kui mudelid paranevad.

Tuvastajaid treenitakse „teadaoleva AI“ ja „teadaoleva inimkirjutise“ näidiste peal. Seejärel õpivad nad mustreid, mis neid kahte eristavad, ja annavad tulemuseks tõenäosuse või skoori. Kuid nad on ainult nii head, kui on nende treeningandmed ja eeldused. Kui tööriistu treenitakse peamiselt emakeelsete üliõpilaste esseede ja varasemate AI-mudelite põlvkondade peal, võivad nad hätta jääda kooliealiste kirjutiste, mitmekeelsete õpilaste ja uuemate AI-süsteemidega.

Tõendid Turnitin’i AI tuvastamise kohta

Turnitin’i AI tuvastamist kasutatakse laialdaselt, sest see on seotud plagiaadikontrolliga. Ettevõte on avaldanud omaenda valideerimisväiteid, kuid sõltumatud hinnangud annavad ettevaatlikuma pildi.

Uuringud, kus testiti Turnitin’it puhtalt AI‑ga loodud ja puhtalt inimkirjutise tekstikogumite peal, leidsid sageli üsna kõrget täpsust, kui tingimused olid lihtsad. Kui ülesanne oli: „Kas Turnitin suudab tuvastada muutmata ChatGPT-teksti lõigu?“, siis toimis see suhteliselt hästi, eriti pikemate näidiste korral.

Realistlikumates olukordades täpsus aga langes. Uurimused, mis vaatasid tekste, kus AI‑ga loodud lõike oli kergelt toimetatud, segatud inimkirjutise lõikudega või loodud uuemate mudelitega, teatasid suurematest veamääradest. Lühivastused, reflektiivsed tööd ja loominguline kirjutamine osutusid eriti problemaatiliseks, sest nende statistilised mustrid erinevad akadeemilisest proosast, mida tuvastajad ootavad.

Kõige murettekitavamad on teated, et Turnitin on andnud valepositiivseid tulemusi ehtsa õpilastöö kohta. Mõnes juhtumiuuringus märgiti mitmekeelsete õpilaste esseed kõrge AI protsendiga, kuigi need olid kirjutatud järelevalve all. Turnitin ise hoiatab, et selle AI-skoore ei tohiks kasutada väärkäitumise ainsa tõendina, kuid asutuste praktika ei järgi seda juhist alati.

Tõendid GPTZero ja sarnaste tööriistade kohta

GPTZero ja teised iseseisvad tuvastajad (näiteks Originality.ai, Copyleaks’i AI-funktsioonid ja teised) kasutavad sarnaseid aluspõhimõtteid, kuid oma treeningandmete ja lävenditega. Sõltumatud testid on korduvalt näidanud kolme üldist mustrit.

Esiteks suudavad tuvastajad sageli eristada suuri plokke muutmata AI-teksti tüüpilisest täiskasvanute inimkirjutisest, eriti inglise keeles ja pikkade näidiste korral. Nendes lihtsates olukordades võib täpsus tunduda muljetavaldav.

Teiseks jäävad nad hätta nüanssidega. Kui inimkirjutajad lihtsustavad oma stiili või kui AI-teksti on tugevalt toimetatud, ümber sõnastatud või kombineeritud inimkirjutisega, langeb täpsus järsult. Mõned uuringud on näidanud, et tuvastajad omistavad kõrge „AI“ tõenäosuse tekstidele, mille on kirjutanud gümnaasiumi- või bakalaureuseõppe üliõpilased, lihtsalt seetõttu, et nende keel on ennustatavam või vormilisem.

Kolmandaks ei üldistu tuvastajad hästi. Tööriist, mis on häälestatud ühele AI-mudelile (näiteks vanemale GPT-versioonile), võib toimida halvasti teksti puhul, mis on pärit uuemast mudelist või teistest keeltest ja žanritest. See tähendab, et iga täpsusnäitaja on liikuv sihtmärk. Tuvastaja, mis töötas eelmisel trimestril talutavalt, võib olla palju vähem usaldusväärne, kui õpilased hakkavad kasutama uuendatud AI-tööriistu või tõlkesüsteeme.

Valepositiivsed, kallutatus ja mõju

Valepositiivsed ei ole pelgalt tehnilised vead; need on võrdsuse küsimus. Mitmed uuringud ja meediakajastused on näidanud, et AI tuvastajad kalduvad sagedamini valesti klassifitseerima mitte-emakeelsete inglise keele kirjutajate tekste kui AI‑ga loodud. Kui õpilased kasutavad lihtsat sõnavara, korduvaid struktuure või tõlketööriistu, võib nende kirjutis sarnaneda „madala perplexity’ga“ mustritele, mida tuvastajad seostavad AI-ga.

Ohus võivad olla ka kõrge sooritusvõimega õpilased. Hästi struktureeritud, lihvitud essee, mille on kirjutanud hoolas õppija, kes on palju harjutanud, võib võrreldes tema varasema tööga tunduda „liiga hea“. Kui töötajad toetuvad tugevalt tuvastajate skooridele, võivad sellised õpilased sattuda oma ausust kaitsma just seetõttu, et nad on paranenud.

Mõju õppijatele võib olla märkimisväärne: ärevus, vastumeelsus keelekasutusega katsetada ja tunne, et süsteem on nende vastu. Mitmekeelsete õpilaste jaoks, kes niigi ületavad lisatõkkeid, võib ebaõiglane süüdistus olla eriti kahjustav. Õpilaste kaitsmise ja kaasamise vaatenurgast väärib iga tööriist, millel on dokumenteeritud kallutatus, äärmist ettevaatust.

Miks segatekstid tuvastajaid segadusse ajavad

Tuvastajad on ehitatud eeldusel, et tekst on kas inim- või AI‑ga loodud. Klassiruumi tegelikkus on harva nii selge. Õpilased võivad:

  • kirjutada mustandi AI abil ja seejärel selle põhjal oma sõnadega ümber kirjutada
  • kasutada AI-d ainult plaani, näite või ühe lõigu loomiseks
  • tõlkida oma ideid masintõlkega ja seejärel teksti toimetada

Sellistel segajuhtudel saavad tuvastajad vastukäivaid signaale. Mõned laused näevad välja „AI‑sarnased“, teised inimlikumad. Erinevad tööriistad reageerivad erinevalt: mõned märgistavad kogu töö „tõenäoliselt AI‑ga looduks“, teised tõstavad esile üksikuid lauseid. Ükski neist ei suuda öelda, kellelt pärineb idee, kes valis struktuuri või kui palju kognitiivset pingutust õpilane investeeris.

Kui AI-mudelid muutuvad mitmekesisemaks ja õpilased õpivad väljundeid toimetama ja segama, muutuvad statistilised sõrmejäljed, millele tuvastajad toetuvad, veelgi ebastabiilsemaks. Seetõttu väidavad paljud teadlased, et aja jooksul muutub tuvastamine pigem raskemaks kui lihtsamaks.

AI-skooride ettevaatlik tõlgendamine

Uurimistöö üks põhisõnumeid on, et AI-skoorid ei ole tõendid petmise kohta; need on parimal juhul nõrgad indikaatorid, mis vajavad konteksti. 90% AI-skoor ei tõesta, et 90% tööst on AI‑ga loodud, ja 0% skoor ei tõesta kindlasti originaalsust.

Õpetajad peaksid vastu panema kiusatusele käsitleda neid numbreid diagnoosina. Kõige rohkem võivad need olla üks väike signaal paljude seas: kirjutamisstiil võrreldes varasema tööga, protsessitõendid nagu mustandid ja märkmed ning tingimused, milles töö loodi.

Kui te ei tunneks end kindlalt, tehes akadeemilise väärkäitumise otsust ainult õigekirjakontrolli või grammatikakontrolli põhjal, ei tohiks te seda teha ka AI-tuvastaja põhjal. Tõendite standard peaks olema järjepidev ja läbipaistev.

Kas oled valmis oma õpetamiskogemust revolutsioneerima?

Avastage Automated Education võimsus, liitudes meie õpetajate kogukonnaga, kes võtavad tagasi oma aja ja rikastavad oma klassiruume. Meie intuitiivse platvormiga saate automatiseerida administratiivseid ülesandeid, isikupärastada õpilaste õppimist ja suhelda oma klassiga nagu kunagi varem.

Ärge laske administratiivsetel ülesannetel varjutada oma kirge õpetamise vastu. Registreeruge täna ja muutke oma hariduskeskkond Automated Education abil.

🎓 Registreeru TASUTA!

Millal vältida ja millal kasutada

Arvestades tõendeid, on selgeid olukordi, kus tuvastajaid tuleks täielikult vältida. Kõrge panusega otsuseid edasijõudmise, lõpetamise või tõsiste sanktsioonide kohta ei tohiks kunagi rajada AI-tuvastuse skooridele. See on eriti tõsi kontekstides, kus on palju mitmekeelseid õppijaid või kus õpilastel on piiratud võimalused otsuseid vaidlustada.

Tuvastajad ei sobi hästi ka kujundava hindamise, loomingulise kirjutamise ja keeleõppe algfaaside jaoks. Nendes ruumides kaalub õpilaste enesekindluse pärssimise risk üles võimaliku kasu.

Kui teie asutus otsustab tuvastajaid üldse kasutada, tuleks seda teha ettevaatlikult ja kaitsemeetmetega. See võib tähendada nende piiramist ainult töötajate sisemiseks, nõuandvaks kasutuseks, toorandmete mittejagamist õpilastega ning nende kombineerimist alati muu tõendiga, näiteks klassis kirjutamise ja suuliste arusaamise kontrollidega. Selged protokollid võivad siin aidata, sarnaselt nendega, mida kasutatakse plagiaadiaruannete sarnasusskooride tõlgendamisel.

Lisateavet ülesannete kujundamise kohta nii, et tuvastajad muutuksid vähem keskseks, leiate meie juhendist AI‑kindla hindamise kujundamine, mis keskendub ülesannete struktuurile ja protsessitõenditele, mitte kontrollitööriistadele.

Õiglaste töövoogude ülesehitamine

Õiglus sõltub vähem tööriistadest, mida te kasutate, ja rohkem neid ümbritsevatest töövoogudest. Kui tuvastaja tõstatab kahtluse, peaks töötajatel olema standardne, läbipaistev protsess. See võib hõlmata õpilase varasema töö ülevaatamist, teda oma tööprotsessi arutamiseks kutsumist ning palumist selgitada võtmelõike suuliselt või lühikese klassis tehtava ülesande kaudu.

Dokumenteerimine on hädavajalik. Kirja tuleks panna mitte ainult tuvastaja skoor, vaid ka lisatõendid, mida arvestasite, ja põhjendus tehtud otsuse taga. See kaitseb nii õpilasi kui ka töötajaid ning aitab tagada, et sarnaseid juhtumeid koheldakse järjepidevalt.

Värskendamist vajavad ka poliitikad. Paljud olemasolevad akadeemilise aususe poliitikad eelnevad generatiivsele AI-le ega ütle tuvastajate kohta midagi. Asutused peaksid selgesõnaliselt määratlema, kuidas ja kas üldse AI-tuvastustööriistu kasutatakse, millised on nende piirangud ja millised on õpilaste õigused reageerida. Meie juhend AI lubatud kasutuseeskirja loomine teie koolile pakub malle ja arutelupunkte, mida saab erinevates kontekstides kohandada.

Kõige olulisem on rääkida õpilastega avatult. Selgitage, mida tuvastajad suudavad ja mida mitte, miks te olete nende suhtes ettevaatlikud ja mis on vastuvõetav AI-tugi. See loob usaldust ja vähendab tunnet, et AI on salajane lõks.

Kontrollimisest edasi liikumine

Uurimistöö AI tuvastamise täpsuse kohta viib selge järelduseni: tuvastajatele kui peamisele kaitsele väärkäitumise vastu toetumine ei ole ei õiglane ega jätkusuutlik. Selle asemel peavad koolid liikuma hindamisdisainide ja klassiruumi harjumuste suunas, mis muudavad ebaausa AI-kasutuse vähem atraktiivseks ja kergemini märgatavaks tavapärase pedagoogilise praktika kaudu.

See võib hõlmata rohkem klassis kirjutamist, projektide suulist kaitsmist, korduvate mustandite tagasisidega töötamist ja ülesandeid, mis seostuvad isiklike kogemuste või kohalike kontekstidega. Need lähenemised mitte ainult ei vähenda võimalusi varjatud AI-kasutuseks, vaid tugevdavad ka õppimist. Meie artiklid miks AI kasutamine ei ole automaatselt petmine ja kuidas õpilased tegelikult AI-ga petavad käsitlevad seda tasakaalu aususe ja innovatsiooni vahel põhjalikumalt.

Lõppkokkuvõttes ei ole eesmärk õpilasi vahele võtta, vaid aidata neil õppida AI-d vastutustundlikult oma tööriistakasti osana kasutama. See tähendab AI‑abi viitamise õpetamist, eetiliste piiride arutamist ja töö kujundamist nii, et nähtav oleks mõtlemisprotsess, mitte ainult lõpptulemus.

AI-tuvastajatel võib olla piiratud roll ühe signaalina paljude seas, kuid tõendid on selged: nad on liiga ebatäpsed ja liiga kallutatud, et toimida kohtunikena. Õpetajad, keda toetavad läbimõeldud poliitikad ja hindamisdisain, jäävad parimateks õpilastöö tõlgendajateks.

Head hindamist!
The Automated Education Team

Sisukord

Kategooriad

Juhendid ja tööriistakomplektid

Sildid

Tehisintellekt Hindamine Haridus

Viimased

Alternatiivsed Keeled