Según un estudio realizado por expertos de Kaspersky Lab, la inyección indirecta de instrucciones es una técnica utilizada por algunos usuarios en sistemas basados en modelos de lenguaje grande LLM con fines diversos, como promocionar un currículum o mejorar la calificación de un producto en motores de búsqueda. Esta técnica implica la inserción de frases especiales en sitios web y documentos en línea, las cuales son invisibles para el usuario humano pero son leídas y procesadas por las redes neuronales.
El estudio destaca que esta técnica puede ser utilizada tanto con fines benignos como maliciosos, y que es importante evaluar los riesgos potenciales asociados con ella. Los creadores de modelos lingüísticos están desarrollando técnicas para aumentar la complejidad de las inyecciones y detectar ataques con antelación.
El jefe del grupo de I D de tecnología de aprendizaje automático de Kaspersky Lab, Vladislav Tushkanov, señaló que actualmente no han detectado casos de ciberamenazas utilizando esta técnica, pero que es necesario estudiar todos los métodos posibles para eludir las restricciones y proteger las soluciones existentes y futuras basadas en grandes modelos lingüísticos.
En resumen, la inyección indirecta de instrucciones es una técnica que permite influir en el comportamiento de sistemas basados en LLM, y que puede ser utilizada tanto con fines benignos como maliciosos. Es importante evaluar los riesgos asociados con esta técnica y desarrollar medidas de protección para garantizar la seguridad de estos sistemas.