Por Ariel Vercelli
Conseguir que las máquinas vean las cosas como nosotros supondrá un enfoque totalmente nuevo. Esa búsqueda se basa por ahora en grandes conjuntos de datos como ImageNet, la colección de millones de fotos creada manualmente, que se utiliza para entrenar a la mayoría de los mejores modelos de reconocimiento de imágenes. El laboratorio de inteligencia artificial (IA) de Facebook ha avanzado un paso más. Acaba de lanzar el proyecto Ego4D para construir IA capaz de comprender las escenas y actividades vistas desde una perspectiva en primera persona: cómo ven las cosas las personas involucradas, en vez de un espectador. Durante los últimos dos años, Facebook AI Research (FAIR) ha trabajado con 13 universidades de todo el mundo para reunir el mayor conjunto de datos de video para entrenar modelos de reconocimiento de imágenes de aprendizaje profundo. Las IA entrenadas en ese conjunto de datos serán mejores para controlar los robots que interactúan con personas o para interpretar imágenes de gafas inteligentes. Dicha tecnología podría ayudar a las personas que necesitan asistencia en su hogar o guiarlas en tareas que quieran aprender. Pero los posibles usos indebidos son claros y preocupantes. El modelo de negocio de Facebook y de otras grandes empresas tecnológicas (las Big Tech) consiste en sacar la mayor cantidad de datos posible del comportamiento online de las personas y venderlos a anunciantes. La IA descrita en el proyecto podría extender ese alcance al comportamiento cotidiano de las personas, revelando qué objetos hay alrededor de su hogar, de qué actividades disfrutan, con quién pasan el tiempo e incluso dónde se detiene su mirada: un nivel de información personal sin precedentes. Ego4D consta de 3.025 horas de video grabado por 855 personas en 73 ubicaciones diferentes en nueve países. Los participantes llevaron cámaras instaladas en la cabeza durante hasta 10 horas seguidas y capturaron videos en primera persona de actividades diarias no planeadas, como caminar por la calle, leer, lavar la ropa, ir de compras, jugar con mascotas e interactuar con otras personas. Es el primer conjunto de datos de este tipo. Esta tecnología podría ser útil para los espectadores que documentan protestas o abusos policiales, pero esos beneficios se ven superados por las preocupaciones en torno a las aplicaciones comerciales. ¿Cómo se almacenarán los datos de las miradas? ¿Cómo se podrían procesar y usar? ¿Quién tendrá acceso a ellos?










