Despre SemPlag

 

SemPlag poate funcționa cu texte în limbile română și engleză, permițând chiar contrastarea încrucișată, a unui text redactat în limba română cu o bază de contrast în limba engleză. .
Astfel, documentele introduse fie ca texte „suspecte”, fie ca texte de contrast, pot fi articole, teze, cărți, lucrări artistice sau științifice (nu pot fi analizate texte-imagine, rezultate din scanare, grafice).

Detaliile despre formatele fişierelor pe care le poate procesa, tipuri de verificări, resurse lingvistice sunt prezentate mai jos:

SPECIFICAŢII SemPlag
Detecţia plagiatului Internet
BDI (bază de date internă)
Baza de texte beneficiar
Tipuri de fişiere pe care le utilizează Microsoft Word (*.doc, *.docx)
Rich Text (*.rtf)
Html (*.html)
Powerpoint (*.ppt, *.pptx)
Pdf (*.pdf)
*.odt
Plain Text (*.txt)
Resurse lingvistice Lematizator (EN, RO)
Dicţionar de termeni echivalenţi (EN, RO)
Dicţionar bilingv (EN-RO, RO-EN)
Tipuri de detecţie Identitate
Similaritate
Citat
Detecție bilingva (ro-en, en-ro)
Motoare de căutare Google
Suport Online
Raport Raport de similitudine
Sumarul raportului


Procesul de detectare a gradului de asemănare dintre texte sau fragmente de text presupune derularea următoarei secvențe:

  1. Extragerea textului. Este un proces prin care se obține un fișier de tip TXT din formatele uzuale mai sus amintite. O problemă mai dificilă o implică extragerea textului din documente PDF, datorită caracteristicilor acestui format. SemPlag asumă acest format încercând soluționarea problemelor semnalate.

  2. Detectarea limbii. SemPlag detectează limba documentului la indexare. Acest lucru se petrece la toate cele trei niveluri de analiză comparativă: paragraf, frază, cuvânt, pentru a putea analiza și documentele care conțin citate în a doua limbă. De exemplu, un document scris în limba română poate conține inserții de text în limba engleză. În astfel de cazuri, analiza se desfășoară normal, trecându-se imperceptibil de la o limbă la alta. .

  3. Împărțirea textului în paragrafe, fraze, cuvinte (leme). Fiecare frază este comparată cu frazele din baza de contrastare, fiind reținute doar acele fraze cu un procent de asemănare de peste 80%.

  4. Filtrarea cuvintelor irelevante. SemPlag reține în analiza sa doar cuvintele „pline” din punct de vedere semantic. În acest caz, nu contează ordinea lor, sintactic vorbind, ci doar faptul că aceleași cuvinte se regăsesc într-o altă frază din baza de contrast..

  5. Determinarea formelor de bază. SemPlag lematizează cuvintele „pline” din punct de vedere semantic, adică substituie formele flexionate cu forma canonică sau lemă. De exemplu, forma „scrisese” este substituită cu „scrie”, „casei” cu „casă”, ș.a.m.d. În acest proces, programul folosește un lematizator specific pentru fiecare din cele două limbi.

  6. Funcționare Web. Pe Web se caută cu „rezumatul” textului (cuvintele semantic „pline”), fiind alese primele zece documente similare găsite și care formează o bază se contrast temporară. Ulterior, procesul continuă ca și în cazul unei baze de contrast locale.

  7. Detectarea citatului. Este important de arătat că citatul este, în principiu, o formă legitimă de preluare textuală, acceptată și recomandată de comunitatea științifică. Totuși, citarea abundentă este un procedeu fie de camuflare a plagiatului, fie poate fi impusă de rațiuni pe care doar analistul le poate interpreta. De aceea, citarea constituie o analiză aparte, iar interpretarea justeții acesteia nu poate fi făcută decât de analist.[exemplu]


  8. Detectarea identității. Sensul asumat de acest program a termenului „identitate” este fraza preluată prin copiere electronică sau cu acuratețe perfectă. Totuși, în analiza raportului, nu putem considera „identice” exprimări standardizate care nu aparțin autorului de tipul „Toate drepturile asupra aceste ediții aparțin…”, chiar dacă o astfel de frază apare marcată de program ca „identică”. Deși programul indică cu roșu acest caz, identitatea poate fi inversă, accidentală sau anunțată printr-o formulare, de genul „citez din memorie”, drept pentru care analistul este cel care va stabili despre ce „identitate” este vorba în realitate. Dacă folosim programul pentru a vedea cum a fost reprodus un comunicat de presă, avem de-a face cu o reproduce îngăduită, a unui text public, prin precizarea sursei.[exemplu]


  9. Detectarea similitudinii. SemPlag consideră similitudinea textuală când vorbim de suprapuneri de 80%-99%. La polul opus, absența similitudinii este interpretată ca „indecizie” și este marcată procentual în raport. Firește, problema „indeciziei” sau „neputinței de a decide” trebuie înțeleasă în cadrul strict al analizei.

  10. Similitudinea relativă monolingvă (80%-99%) se referă la mai multe situații, și anume:
    1. parafraza redusă (o mică modificare a textului). Situații de genul: „amintim că” inexistent în textul supus analizei:. [exemplu]


    2. tot similitudine este și cazul în care unul din texte folosește norma actuală a Academiei, iar celălalt menține ortografierea anterioară. Astfel, variațiile de tipul: atât/atît, decât/decît, /fițoși (absența aleatorie a diacriticelor), sunt/sînt etc. La fel s-ar interpreta și scrierea fără diacritice în unul din texte [exemplu]


    3. parafraza amplă (uneori chiar și puțin sub 80%) este detectată uneori printr-o combinație a termenilor coincidenți cu sinonimele lor. Este un caz în care analistul trebuie să fie precaut și nu poate fi luat în discuție decât în raport cu un set semnificativ de fraze similare. [exemplu]


    Similitudinea bilingvă este obținută pe baza dicționarului bilingv. Ea permite compararea unui text în limba română cu texte în limba engleză din baza de contrast sau de pe Web. În acest caz, „rezumatul” textului este tradus în limba engleză, fiind admis un anumit grad de sinonimie dar și de „coincidență” semantică. Putem considera că performanțele acestui tip de căutare depind de dicționarul bilingv, dar și de dicționarul de sinonime englez, care vor fi îmbunătățite permanent [exemplu]

Un exemplu de raport rezultat în urma unei verificării poate fi vizualizat aici.

Notă Atragem în final atenția asupra faptului că terminologia programului nu trebuie confundată cu decizia analistului pe baza studierii atente a cazurilor detectate de program

[T: 0.3505, O: 184]