Apple reconocimiento imágenes: explicada por Apple en Español

CSAM Detection permite a Apple identificar e informar con precisión a los usuarios de iCloud que almacenan material conocido sobre abuso sexual infantil (CSAM) en sus cuentas de Fotos de iCloud.

Los servidores marcan las cuentas que superan un número umbral de imágenes que coinciden con un
base de datos de hashes de imágenes CSAM para que Apple pueda proporcionar información relevante al Centro Nacional para Niños Desaparecidos y Explotados (NCMEC). Este proceso es seguro, y está diseñado expresamente para preservar la privacidad del usuario.

CSAM Detection proporciona estas garantías de privacidad y seguridad:
• Apple no aprende nada sobre las imágenes que no coinciden con el CSAM conocido
base de datos.
• Apple no puede acceder a los metadatos ni a los derivados visuales de las imágenes CSAM coincidentes hasta que se supera el umbral de coincidencias para una cuenta de Fotos de iCloud.
• El riesgo de que el sistema marque incorrectamente una cuenta es extremadamente bajo. Además,
Apple revisa manualmente todos los informes realizados al NCMEC para garantizar la precisión de los informes.
• Los usuarios no pueden acceder ni ver la base de datos de imágenes CSAM conocidas.
• Los usuarios no pueden identificar qué imágenes fueron marcadas como CSAM por el sistema.

Resumen del sistema

El método de Apple para detectar CSAM conocido está diseñado teniendo en cuenta la privacidad del usuario. En lugar de escanear imágenes en la nube, el sistema realiza una comparación en el dispositivo utilizando una base de datos de imágenes CSAM conocidas hashes proporcionados por NCMEC y otras organizaciones de seguridad infantil. Apple transforma aún más esta base de datos
en un conjunto ilegible de hash, que se almacena de forma segura en los dispositivos de los usuarios.

La tecnología hash, llamada NeuralHash, analiza una imagen y la convierte en un número único específico a esa imagen. Sólo otra imagen que parezca casi idéntica puede producir el mismo número; por ejemplo, las imágenes que difieren en tamaño o calidad transcodificada seguirán teniendo el mismo valor NeuralHash.

Antes de que una imagen se almacene en Fotos de iCloud, se realiza un proceso de coincidencia en el dispositivo para esa imagen contra la base de datos de hashes CSAM conocidos. Este proceso de coincidencia está impulsado por un criptográfico tecnología llamada intersección de conjuntos privados, que determina si hay una coincidencia sin revelar la resultado. El dispositivo crea un vale de seguridad criptográfico que codifica el resultado de la coincidencia. También encripta NeuralHash de la imagen y un derivado visual. Este cupón se carga en Fotos de iCloud junto con el imagen.

Utilizando otra tecnología llamada intercambio secreto de umbral, el sistema asegura que el contenido de Apple no puede interpretar los vales de seguridad a menos que la cuenta de Fotos de iCloud cruce un umbral de contenido CSAM conocido. Solo cuando se excede el umbral, la tecnología criptográfica permite a Apple interpretar el contenido de los vales de seguridad asociados con las imágenes CSAM coincidentes.

El umbral se selecciona para proporcionar una probabilidad extremadamente baja (1 en 1 billón) de marcar incorrectamente un cuenta dada. Esto se mitiga aún más mediante un proceso de revisión manual en el que Apple revisa cada informe para confirma que hay una coincidencia, deshabilita la cuenta del usuario y envía un informe al NCMEC. Si un usuario siente que su cuenta se ha marcado por error, pueden presentar una apelación para que se restablezca su cuenta.

Resumen de la tecnología:

Este sistema combina tres tecnologías: NeuralHash, Private Set Intersection y Threshold Secret.

NeuralHash es una función de hash perceptual que asigna imágenes a números. El hash perceptual basa esto número en las características de la imagen en lugar de los valores precisos de píxeles en la imagen. El sistema calcula estos hashes mediante el uso de una red de incrustación para producir descriptores de imágenes y luego convertirlos descriptores a números enteros utilizando un proceso Hyperplane LSH (Locality Sensitivity Hashing).

Este proceso asegura que diferentes imágenes produzcan diferentes hashes.
La red de incrustación representa imágenes como vectores de valor real y asegura que perceptivamente y las imágenes semánticamente similares tienen descriptores cercanos en el sentido de distancia angular o similitud de coseno.
Las imágenes perceptiva y semánticamente diferentes tienen descriptores más separados, lo que da como resultado distancias angulares. El proceso Hyperplane LSH luego convierte los descriptores en valores hash únicos como enteros.

Para todas las imágenes procesadas por el sistema anterior, independientemente de la resolución y la calidad, cada imagen debe tener un hash único para el contenido de la imagen. Este hash debe ser significativamente más pequeño que la imagen a ser suficientemente eficiente cuando se almacena en disco o se envía a través de la red.

El objetivo principal del hash es garantizar que imágenes idénticas y visualmente similares den como resultado el mismo hash, y las imágenes que son diferentes entre sí dan como resultado diferentes valores hash. Por ejemplo, una imagen que ha sido ligeramente recortado o redimensionado debe considerarse idéntico al original y tener el mismo hash.

El sistema genera NeuralHash en dos pasos. Primero, una imagen se pasa a un neural convolucional
red para generar un descriptor de coma flotante N-dimensional. En segundo lugar, el descriptor se pasa a través de un esquema de hash para convertir los N números de punto flotante en M bits. Aquí, M es mucho más pequeño que el número de bits necesarios para representar los N números de coma flotante.

NeuralHash alcanza este nivel de compresión y conserva suficiente información sobre la imagen para que las coincidencias y las búsquedas en la imagen los conjuntos siguen teniendo éxito y la compresión cumple con los requisitos de almacenamiento y transmisión.

La red neuronal que genera el descriptor se entrena mediante un esquema de entrenamiento auto-supervisado.

Las imágenes están perturbadas con transformaciones que las mantienen perceptualmente idénticas al original, creando una par original / perturbado. Se enseña a la red neuronal a generar descriptores cercanos entre sí.

De manera similar, a la red también se le enseña a generar descriptores que están más lejos
lejos uno del otro para un par original / distractor. Un distractor es cualquier imagen que no se considere idéntico al original. Se considera que los descriptores están próximos entre sí si el coseno del ángulo entre descriptores está cerca de 1. La salida de la red entrenada es un punto flotante N-dimensional descriptor. Estos N números de coma flotante se hash utilizando LSH, lo que da como resultado M bits. El LSH de M-bit codifica un solo bit para cada uno de los M hiperplanos, en función de si el descriptor está a la izquierda oa la derecha de el hiperplano. Estos M bits constituyen el NeuralHash de la imagen.

Intersección de conjuntos privados (PSI)
Private Set Intersection (PSI) es un protocolo criptográfico que utilizan dos partes, por ejemplo, los servidores de Apple y el dispositivo de un usuario.

Antes de que comience el protocolo, Apple y el dispositivo del usuario tienen distintos conjuntos de imágenes hashes que cada sistema calculó usando el algoritmo NeuralHash. El sistema aplica PSI en conjunto con otras técnicas criptográficas como Threshold Secret Sharing, que se describe en la siguiente sección.

El protocolo garantiza que Apple aprenda los valores hash de la imagen en la intersección de los dos conjuntos, pero no aprenda nada.

El sistema utilizado para la detección de CSAM amplía este mecanismo básico de PSI para admitir al cliente, incluido datos de carga adicional asociados con cada hash de imagen, y garantiza que esta carga adicional es solo accesible para hashes de imagen en la intersección de los dos conjuntos.

La siguiente sección describe los principales pasos en el mecanismo PSI: la configuración de la base de datos coincidente, el protocolo PSI en el dispositivo y el lado del servidor Protocolo PSI.

Configuración de base de datos coincidente. El sistema comienza configurando la base de datos coincidente utilizando el conocido Hash de imagen CSAM proporcionados por NCMEC y otras organizaciones de seguridad infantil.

Primero, Apple recibe el NeuralHashes correspondiente a CSAM conocido de las organizaciones de seguridad infantil mencionadas anteriormente. A continuación, estos NeuralHashes atraviesa una serie de transformaciones que incluyen un paso cegador final, impulsado por elíptica criptografía curva.

El cegamiento se realiza utilizando un secreto cegador del lado del servidor, conocido solo por Apple.

Los hash CSAM ciegos se colocan en una tabla hash, donde la posición en la tabla hash es puramente una función del NeuralHash de la imagen CSAM.

Esta base de datos cegada se almacena de forma segura en los dispositivos de los usuarios. Las propiedades de la criptografía de curva elíptica garantizan que ningún dispositivo pueda inferir nada sobre el Hash de imagen CSAM de la base de datos cegada.

Protocolo PSI en el dispositivo. Dada una imagen de usuario, la idea general en PSI es aplicar el mismo conjunto de transformaciones en la imagen NeuralHash como en la configuración de la base de datos anterior y haga una búsqueda simple contra la base de datos CSAM conocida. Sin embargo, el paso de cegamiento utilizando el secreto del lado del servidor no es posible en el dispositivo porque es desconocido para el dispositivo. El objetivo es ejecutar el último paso en el servidor y finalizar el
proceso en el servidor. Esto asegura que el dispositivo no conozca el resultado de la coincidencia, pero puede codificar el resultado del proceso de coincidencia en el dispositivo antes de cargarlo en el servidor.

Antes de almacenar una imagen en Fotos de iCloud, se realiza el siguiente proceso de coincidencia en el dispositivo para esa imagen contra la base de datos de la tabla hash cegada. El dispositivo calcula la imagen NeuralHash y busca la entrada en la tabla hash cegada en la posición señalada por NeuralHash.

El dispositivo utiliza el calculó NeuralHash para calcular un encabezado criptográfico. También utiliza el hash ciego que el sistema buscó para obtener una clave de cifrado derivada. Esta clave de cifrado se utiliza para cifrar los datos de carga útil.

A continuación, el cliente crea un vale de seguridad criptográfica que tiene las siguientes propiedades:
• Si el hash de la imagen del usuario coincide con la entrada en la lista de hash CSAM conocida, la imagen se transforma exactamente en el hash cegado si pasó por la serie de transformaciones realizadas en tiempo de configuración de la base de datos. Según esta propiedad, el servidor podrá utilizar el encabezado criptográfico (derivado de NeuralHash) y utilizando el secreto del lado del servidor, puede calcular la clave de cifrado derivada y descifrar con éxito los datos de carga útil asociados.
• Si la imagen del usuario no coincide, el paso anterior no conducirá a la clave de cifrado derivada correcta y el servidor no podrá descifrar los datos de carga útil asociados. Por tanto, el servidor no aprende nada sobre imágenes que no coinciden.
• El dispositivo no se entera del resultado de la coincidencia porque eso requiere conocimiento del secreto cegador del lado del servidor.
Finalmente, el cliente sube la imagen al servidor junto con el comprobante que contiene el cifrado.
datos de carga útil y el encabezado criptográfico.
Protocolo PSI del lado del servidor
El servidor, al recibir el cupón, intentará calcular la clave de descifrado para el
texto cifrado de carga útil mediante el encabezado criptográfico del comprobante.

Si la imagen del usuario coincide, el servidor podrá combinar el encabezado criptográfico junto con el secreto cegador del lado del servidor para descifrar con éxito el texto cifrado de datos asociado. De lo contrario, el intento de descifrado fallará. En particular, el servidor aprende los datos de carga útil asociados para las imágenes coincidentes, pero no aprende nada para las que no coinciden
imágenes.

Threshold Secret Sharing es una técnica criptográfica que permite dividir un secreto en acciones distintas por lo que el secreto solo se puede reconstruir a partir de un número predefinido de acciones (el umbral).

Por ejemplo, si un secreto se divide en mil acciones y el umbral es diez, el secreto puede ser
reconstruido a partir de once de las mil acciones. Sin embargo, si solo hay diez acciones disponibles, entonces nada se revela sobre el secreto.

El sistema de detección de CSAM utiliza el intercambio secreto de umbral para proteger la información sobre las imágenes almacenadas en Fotos de iCloud cuando el número de imágenes coincidentes no ha cruzado un cierto umbral.

Solo una vez número de coincidencias excede el umbral, ¿el algoritmo de reconstrucción de intercambio de secretos permitirá el sistema para conocer los datos adicionales que el cliente incluyó con cada una de las imágenes coincidentes. Nada es nunca revelado sobre imágenes que no coinciden durante cualquier paso del proceso de detección de CSAM.

Combinación de intersección de conjuntos privados y uso compartido de secretos de umbral
Private Set Intersection (PSI) y Threshold Secret Sharing se utilizan en combinación para garantizar que Apple no pueda acceder a los datos adicionales que el cliente incluyó con la imagen hasta que se cumplan los criterios específicos.

El protocolo PSI descrito hasta ahora no introduce el concepto de umbral y permitiría
descifrado de una carga útil cada vez que hubo una coincidencia. Con el fin de proporcionar las garantías mínimas establecidas, aquí, el sistema combina PSI con Threshold Secret Sharing de la siguiente manera.

Como parte de la configuración, el dispositivo genera una clave de cifrado para la cuenta de usuario, desconocida para Apple. Para cada image, cifra la información de la imagen relevante (el NeuralHash y el derivado visual) usando esta clave, genera una parte secreta de la clave bajo demanda para esa imagen.

Tenga en cuenta que la parte secreta es independiente de la imagen real. Este recurso compartido secreto y la información de la imagen cifrada se incluyen en el carga útil asociada del protocolo PSI. Este paquete combinado con la información de imagen relevante protegido por dos capas de cifrado se conoce como el vale de seguridad para la imagen.

Antes de que se cruce un umbral, el servidor aprende la carga útil asociada para las coincidencias: un recurso compartido secreto para la clave de cifrado de la cuenta de usuario y la información de la imagen cifrada. En otras palabras, la capa exterior de el cifrado se descifra utilizando el protocolo PSI para coincidencias CSAM. Debido a la propiedad de Threshold Compartición secreta, en esta etapa Apple no tiene ningún conocimiento sobre la clave de cifrado del usuario subyacente,
debido a la falta de suficientes acciones secretas.

Una vez que se ha producido más de un número umbral de coincidencias, Apple tiene suficientes recursos compartidos para que el servidor pueda combinar los recursos compartidos que ha recuperado y reconstruir el descifrado clave para los textos cifrados que ha recopilado, revelando así el NeuralHash y el derivado visual para el coincidencias CSAM conocidas. En otras palabras, la capa interna de cifrado se descifra mediante Threshold Secret Intercambio.

Es importante señalar que para las cuentas que cruzan el umbral, la recuperación de este cifrado
clave no conduce a ninguna información sobre imágenes que no coinciden porque el protocolo PSI protege la capa externa de cifrado para tales coincidencias.

En el proceso descrito anteriormente, Apple pudo conocer el posible recuento de imágenes CSAM sin la capacidad de descifrar los vales para confirmar el contenido. Porque Apple no puede verificar el contenido de imágenes coincidentes hasta que se cruce el umbral, es importante ocultar el recuento de CSAM de Apple hasta entonces.

Para lograr esto, el dispositivo produce ocasionalmente cupones sintéticos para imágenes en lugar de cupones correspondiente a su imagen. Los vales sintéticos están diseñados para registrarse como coincidencias dentro del PSI.

La probabilidad de que un dispositivo cargue un vale sintético en lugar de un vale real para una imagen es calibrado para asegurar que el número total de sintéticos sea del mismo orden de magnitud que el umbral.

Esta proporciona incertidumbre sobre el número real de coincidencias hasta que se supera el umbral.
Los vales sintéticos se diferencian de los vales reales en las siguientes formas:

(1) la información de la imagen subyacente es sustituido por datos ficticios;

(2) el recurso compartido secreto de la clave interna se sustituye por un recurso compartido aleatorio
totalmente independiente de la clave de cifrado interna; y

(3) el encabezado criptográfico y el cifrado externo se eligen para que siempre resulten en una coincidencia en el servidor.

La propiedad (1) garantiza que estos cupones no tengan ningún contenido significativo. La propiedad (2) garantiza que las coincidencias no contribuyen a la capacidad de Apple para descifrar los textos cifrados, pero no es posible distinguir ellos de aquellos partidos que lo hacen hasta que se cruza el umbral.

Propiedad (3) asegura que estos vales siempre se registra como una coincidencia, lo que proporciona suficiente ruido al sistema para garantizar que Apple no aprenda sobre el potencial CSAM cuenta con un grado significativo de certeza hasta que se cruza el umbral.

Mecánica de vales de seguridad:

Esta sección resume cómo se combinan las tres tecnologías en el contexto de los vales de seguridad.

El vale de seguridad es un registro de datos asociado con cada imagen en la cuenta de Fotos de iCloud. Se genera en el dispositivo mediante el proceso de detección de CSAM. Los vales codifican criptográficamente si una imagen tiene una coincidencia dentro de la base de datos conocida de hashes cegados de imágenes CSAM, así como los correspondientes datos (el NeuralHash y el derivado visual). En un nivel alto, la salida del protocolo PSI revela al servidor si hay una coincidencia. Esto lleva a descifrar la capa externa de cifrado. Una vez que hay más que un número umbral de coincidencias, el intercambio secreto permite el descifrado de la capa interna, por lo que
revelando el NeuralHash y el derivado visual para hacer coincidir imágenes.

Generación de cupones en el dispositivo

Para cada imagen que se almacenará en iCloud Photos, el dispositivo genera un vale de seguridad que contiene información relacionada con la imagen (NeuralHash + derivado visual) protegida por dos capas de cifrado: primero, por el PSI protocolo para los datos de carga útil asociados, y en segundo lugar por el esquema de cifrado utilizado en Threshold Secret Compartir, para cifrar la información de la imagen que contiene.

Además, la primera capa también cifra un secreto parte de la clave de cifrado utilizada en la segunda capa.

Con más detalle, el dispositivo comienza generando una clave de cifrado para la cuenta de usuario, desconocida para Apple.

Para cada imagen de usuario, cifra la información de la imagen relevante (el NeuralHash y el derivado visual) usando esta clave. Esto forma el cifrado de la capa interna (como se destaca en la figura anterior).

La información de la imagen encriptada se incluye en la carga útil asociada del protocolo PSI.

A continuación, como parte del protocolo PSI, el dispositivo calcula su NeuralHash y busca la entrada en el ciego tabla hash en la posición señalada por NeuralHash. El dispositivo utiliza el NeuralHash calculado y el valor ciego de la tabla hash para calcular un encabezado criptográfico y una clave de cifrado derivada.

Esta luego, la clave de cifrado se utiliza para cifrar los datos de carga útil asociados. Esto forma la capa exterior de cifrado del bono de seguridad.

Desempaquetado de cupones en la capa externa en iCloud

La salida del protocolo PSI en el servidor revela si hay una coincidencia o no. Para los partidos de CSAM, el encabezado criptográfico del cupón se combina con el secreto cegador del lado del servidor (que se utilizó para cegar la base de datos CSAM conocida en el momento de la configuración) para descifrar con éxito la capa externa de cifrado.

Para los que no coinciden, este descifrado no es posible. Los resultados descifrados de las coincidencias son el recurso compartido secreto y el contenido interno.
texto cifrado (información de imagen cifrada). Es importante señalar que hasta que se cruza un umbral, las acciones no contienen absolutamente ninguna información.

Debido a la propiedad de Threshold Secret Sharing, son equivalente a un conjunto de números arbitrarios elegidos al azar.

En resumen, para los que no coinciden, la información de la imagen en los cupones permanece doblemente cifrada porque la capa exterior no se puede descifrar. En el caso de las coincidencias, la información de la imagen permanece cifrada por la capa.

Desempaquetado de cupones en la capa interna en iCloud

Recuerde que la técnica criptográfica de Threshold Secret Sharing permite dividir un secreto en
acciones distintas para que el secreto solo se pueda reconstruir a partir de un número predefinido de acciones secretas (el umbral).

Por ejemplo, si un secreto se divide en mil acciones y el umbral es diez, entonces el secreto se puede reconstruir a partir de once de las mil acciones. Sin embargo, si solo diez acciones disponible, entonces no se revela nada sobre el secreto.

En este sistema, el secreto es una clave de cifrado interna generada por el dispositivo que se utiliza para cifrar la imagen información (NeuralHash + derivado visual) de todas las imágenes del usuario.

El bono de seguridad para una imagen contiene esta información de imagen encriptada y una parte secreta de esta clave de encriptación interna incrustada dentro la capa externa de cifrado PSI.

Cada vez que hay una coincidencia, el protocolo PSI descifra la capa externa de cifrado proporcionando un recurso compartido secreto y la información de imagen encriptada para la imagen coincidente.

Como se destacó antes, en esta etapa, antes de una se cruza el umbral, la recopilación de acciones secretas contiene información cero y es equivalente a un colección de números aleatorios arbitrarios.

Debido a la propiedad de Threshold Secret Sharing, una vez que una cuenta de iCloud Photos acumula más que un número mínimo de comprobantes correspondientes a imágenes que son coincidencias CSAM, el servidor tiene un número suficiente de recursos compartidos secretos y puede usarlo para reconstruir la clave de descifrado de la capa interna.

El servidor luego usa la clave de descifrado para descifrar la capa de cifrado interna y extraer el NeuralHash y visual derivados para los partidos CSAM. Solo aquellas imágenes que tengan un bono que corresponda a un verdadero CSAM Match puede tener los datos de sus cupones descifrados.

En aras de la simplicidad, las cifras anteriores omiten los cupones sintéticos descritos en la sección anterior que son introducidos por el dispositivo para que Apple no aprenda el recuento potencial de coincidencias CSAM antes superando el umbral.

No se aprende nada sobre las imágenes que no coinciden. Incluso si la clave de cifrado interna generada por el dispositivo para la cuenta se reconstruye según el proceso anterior, la información de la imagen dentro del cupón de seguridad para los que no coinciden todavía están protegidos por la capa externa de cifrado.

Así, con una combinación de Private Set Intersection and Threshold Secret Sharing, Apple puede aprender la información relevante de la imagen solo una vez la cuenta tiene más de un número límite de coincidencias de CSAM, e incluso entonces, solo para las coincidencias imágenes.

Deja un comentario