El Detector de Plagios

Hola a todxss !!!

Hoy vengo a hablaros sobre el Detector de Plagio o Programa Antiplagio, una tarea que estamos haciendo en clase de TIC.

La detección de plagio es el proceso de localizar casos de plagio y/o infracción de derechos de autor dentro de una obra o documento. El uso generalizado de ordenadores y la llegada de Internet han facilitado el plagio del trabajo de otros. Se puede realizar de diversas formas. La detección humana es la forma más tradicional de identificar el plagio del trabajo escrito. Esta puede ser una tarea larga y que consume mucho tiempo para el lector y también puede resultar en inconsistencias en cómo se identifica el plagio dentro de una organización.

Mario A. P. flikr CC BY-SA 2.0

El software de comparación de textos (TMS), también conocida como Software Detección de Plagio o Software Antiplagio, se ha vuelto disponible tanto de forma de productos disponibles comercialmente como de software de código abierto. TMS en realidad no detecta el plagio, si no que busca pasajes específicos de texto en un documento que coinciden con el texto de otro documento.



La foto de abajo representa una clasificación de todos los enfoques de detección que se utilizan actualmente para la detección de similitudes de contenido asistida por computadora. Los enfoques se caracterizan por el tipo de evaluación de similitudes que realizan: global o local.  Los enfoques de evaluación de similitud global utilizan las características tomadas de partes más extensas del texto o del documento en su conjunto para calcular la similitud, mientras que los métodos locales solo examinan segmentos de texto preseleccionados como entrada.

Wikipedia CC BY-SA 3.0

Toma de huellas digitales: la toma de huellas dactilares es actualmente el enfoque más utilizado para la detección de similitudes de contenido. Este método forma resúmenes representativos de documentos seleccionando un conjunto de múltiples subcadenas de ellos. Los conjuntos representan las huellas dactilares y sus elementos se denominan minucias. Un documento sospechoso se verifica en busca de plagio calculando su huella dactilar y consultando minucias con un índice precalculado de huellas dactilares para todos los documentos de una colección de referencia. Las minucias que coinciden con las de otros documentos indican segmentos de texto compartidos y sugieren un posible plagio si superan un umbral de similitud elegido. Los recursos computacionales y el tiempo son factores limitantes para la toma de huellas digitales, por lo que este método generalmente solo compara un subconjunto de minucias para acelerar el cálculo y permitir verificaciones en colecciones muy grandes, como Internet.

Coincidencia de cadenas: la coincidencia de cadenas es un enfoque predominante utilizado en informática. Cuando se aplica al problema de la detección de plagio, los documentos se comparan en busca de superposiciones textuales. La verificación de un documento sospechoso en esta configuración requiere el cálculo y almacenamiento de representaciones comparables de manera eficiente para todos los documentos de la colección de referencia para compararlos por pares. Generalmente, para esta tarea se han utilizado modelos de documentos de sufijos, como árboles de sufijos o vectores de sufijos. No obstante, la coincidencia de subcadenas sigue siendo computacionalmente costosa, lo que la convierte en una solución no viable para verificar grandes colecciones de documentos.

Bolsa de palabras: el análisis de bolsa de palabras representa la adopción de la recuperación de espacio vectorial, un concepto tradicional de IR, al dominio de la detección de similitud de contenido. Los documentos se representan como uno o varios vectores, por ejemplo, para diferentes partes del documento, que se utilizan para cálculos de similitud por pares. 

Análisis de citas: la detección de plagio basada en citas se basa en el análisis de citas y es el único enfoque para la detección de plagio que no se basa en la similitud textual. Como tal, este enfoque es adecuado para textos científicos u otros documentos académicos que contienen citas. El análisis de citas para detectar plagio es un concepto relativamente joven. No ha sido adoptado por software comercial, pero existe un primer prototipo de un sistema de detección de plagio basado en citas.El orden similar y la proximidad de las citas en los documentos examinados son los principales criterios utilizados para calcular las similitudes de los patrones de citas. Los patrones de citas representan subsecuencias que contienen citas no exclusivamente compartidas por los documentos comparados. Los factores, incluido el número absoluto o la fracción relativa de citas compartidas en el patrón, así como la probabilidad de que las citas coexistan en un documento, también se consideran para cuantificar el grado de similitud de los patrones.

Estilometría: la estilometría incluye métodos estadísticos para cuantificar el estilo de escritura único de un autor y se utiliza principalmente para la atribución de autoría o la detección de plagio intrínseco. La detección del plagio por atribución de autoría requiere comprobar si el estilo de redacción del documento sospechoso, que supuestamente está escrito por un determinado autor, coincide con el de un corpus de documentos redactado por el mismo autor. La detección de plagio intrínseco, por otro lado, descubre el plagio basado en evidencias internas en el documento sospechoso sin compararlo con otros documentos. Esto se lleva a cabo construyendo y comparando modelos estilométricos para diferentes segmentos de texto del documento sospechoso, y los pasajes que son estilísticamente diferentes de otros se marcan como potencialmente plagiados / infringidos. Aunque son fáciles de extraer, se ha demostrado que los n-gramas de caracteres se encuentran entre las mejores características estilométricas para la detección de plagio intrínseco.

Rendimiento: a excepción del análisis de patrones de citas, todos los enfoques de detección se basan en la similitud textual. Por lo tanto, es sintomático que la precisión de detección disminuya cuanto más se ofusquen los casos de plagio.

A continuación os dejo un vídeo sobre la detección del plagio.

Se han documentado varias complicaciones con el uso de software de coincidencia de texto cuando se utiliza para la detección de plagio. Una de las preocupaciones más prevalentes documentadas se centra en el tema de los derechos de propiedad intelectual. Una complicación adicional con el uso de TMS es que el software solo encuentra coincidencias precisas con otro texto. No recoge trabajos mal parafraseados, por ejemplo, o la práctica de plagiar mediante el uso de suficientes sustituciones de palabras para eludir el software de detección, lo que se conoce como rogeting.

Referencias:

Click en el enlace https://bit.ly/3kbNMkS del recurso. Abre en ventana nueva.

Click en el enlace https://bit.ly/2U1tLTF del recurso. Abre en ventana nueva.


En el blog de mi compañera Candela Maside tenéis más sobre este trabajo y os dejo su enlace aquí.

Hasta pronto !!!

Comentarios

Entradas populares de este blog

Modelo de Negocio

PLAGIO. ¿Cómo se trata este tema en el mundo?