5 min lectura
Cada día, millones de personas pegan cosas en ChatGPT que probablemente no deberían. Declaraciones de impuestos. Historiales médicos. Correos del trabajo con nombres de clientes. Esa erupción extraña en la piel. La clave API que juraron rotar la semana siguiente.
OpenAI acaba de lanzar una herramienta gratuita que limpia todo eso antes de que el chatbot lo vea.
Se llama Privacy Filter, y se lanzó esta semana bajo la licencia Apache 2.0, lo que significa que cualquiera puede descargarla, usarla, modificarla y vender productos creados sobre ella. El modelo está disponible en Hugging Face y GitHub, tiene 1.500 millones de parámetros (la métrica que mide el alcance potencial de conocimiento de un modelo) y es lo suficientemente pequeño como para ejecutarse en un laptop convencional.
Piénsalo como el corrector ortográfico, pero para la privacidad. Le introduces un bloque de texto y te devuelve el mismo texto con todos los datos sensibles reemplazados por marcadores genéricos como [PRIVATE_PERSON] o [ACCOUNT_NUMBER].
¿Recuerdas cuando la gente pudo desredactar partes de los archivos de Jeffrey Epstein porque la administración de Donald Trump simplemente usó un marcador negro para ocultar esos secretos? De haber usado este modelo, eso no habría sido un problema.
Privacy Filter analiza ocho categorías de información personal: nombres, direcciones, correos electrónicos, números de teléfono, URLs, fechas, números de cuenta y secretos como contraseñas y claves API. Lee el texto completo en un solo paso y luego etiqueta las partes sensibles para que puedan ser enmascaradas o redactadas.
Aquí un ejemplo real del anuncio de OpenAI. Pegas un correo que dice:
"Gracias de nuevo por la reunión de hoy. (...) Como referencia, el archivo del proyecto está registrado bajo 4829-1037-5581. Si algo cambia de tu parte, no dudes en responder aquí a maya.chen@example.com o llamarme al +1 (415) 555-0124."
Privacy Filter devuelve:
"Gracias de nuevo por la reunión de hoy. (...) Como referencia, el archivo del proyecto está registrado bajo [ACCOUNT_NUMBER]. Si algo cambia de tu parte, no dudes en responder aquí a [PRIVATE_EMAIL] o llamarme al [PRIVATE_PHONE]."
En lugar de lidiar con cajas negras y marcadores, cambia el texto real.
Ya existen muchas herramientas que intentan detectar números de teléfono y correos electrónicos. Funcionan buscando patrones, como "tres dígitos, guion, tres dígitos". Eso está bien para lo obvio, pero falla en cuanto las cosas dependen del contexto.
¿"Annie" es un nombre privado o una marca? ¿"123 Main Street" es el hogar de alguien o la dirección de un negocio? La coincidencia de patrones no puede saberlo. Privacy Filter sí puede, porque realmente lee la oración que lo rodea.
El modelo parece ser bastante bueno detectando estos matices. OpenAI reporta que su modelo obtuvo un 96% en un benchmark estándar usando el conjunto de datos PII-Masking-300k sin ajustes adicionales, y una versión corregida de la misma prueba lo llevó al 97,43%.
En otras palabras, detecta información privada correctamente el 96% del tiempo. Tu tarea, como persona consciente de la privacidad, es encargarte del 4% restante.
Quienes se preocupan por la privacidad pueden ver esto como algo positivo: OpenAI creó un modelo lo suficientemente pequeño y potente como para ejecutarse en tu propia máquina, lo que significa que tu texto nunca sale de tu computadora para ser limpiado.
Eso importa porque la alternativa —la que usan actualmente la mayoría de las empresas— consiste en enviar tus datos sin procesar a algún servicio en la nube que dice ser seguro y confiar en ellos. Ese acuerdo no siempre envejece bien.
Además es gratuito y de código abierto, por lo que los investigadores pueden examinarlo, mejorarlo y usarlo sin preocuparse por consecuencias legales.
Los datos se procesan en tu laptop y solo la versión depurada viaja a cualquier otro lugar. Si tienes una pequeña empresa, puedes usar IA para resumir correos de clientes sin entregarle el nombre del cliente a un tercero. Los abogados independientes pueden introducir notas de casos en un chatbot sin filtrar la identidad del cliente. Los médicos pueden redactar derivaciones sin exponer la identidad del paciente. Los desarrolladores pueden depurar código con una IA sin pegar sus propias claves API directamente en el prompt, lo cual es aparentemente un rito de iniciación del que nadie habla.
Para la gente común, el caso de uso es más mundano y más frecuente. Quieres pedirle a ChatGPT que reescriba ese correo furioso para tu arrendador, pero no te agrada la idea de entregarle tu dirección a OpenAI. Privacy Filter resuelve eso en un solo paso.
Ejecutar modelos de IA de código abierto localmente solía ser un proyecto para aficionados con GPUs de videojuegos. Ya no lo es. Herramientas como LM Studio ahora lo hacen tan sencillo como instalar Spotify.
OpenAI fue directo sobre sus limitaciones. La empresa advirtió que Privacy Filter "no es una herramienta de anonimización, una certificación de cumplimiento ni un sustituto de la revisión de políticas".
En otras palabras: no lo uses como única línea de defensa en un hospital, bufete de abogados o banco. Puede pasar por alto identificadores inusuales, sobreredactar oraciones cortas y tiene un rendimiento desigual según el idioma. Es una herramienta dentro de un conjunto, no una casilla de cumplimiento normativo. Al fin y al cabo, un 96% de precisión no es un 100%.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.