Table Of Content˜
UNIVERSIDADE FEDERAL DE SAO CARLOS
CENTRO DE CIEˆNCIAS EXATAS E DE TECNOLOGIA
PROGRAMA DE PO´S-GRADUAC¸A˜O EM CIEˆNCIA DA COMPUTAC¸A˜O
˜
REPRESENTAC¸ AO MULTIMODAL PARA
˜ ˜
CLASSIFICAC¸ AO DE INFORMAC¸ AO
FERNANDO TADAO ITO
ORIENTADORA: PROFA. DRA. HELENA DE MEDEIROS CASELI
CO-ORIENTADOR: PROF. DR. JANDER MOREIRA
Sa˜o Carlos – SP
Abril/2018
˜
UNIVERSIDADE FEDERAL DE SAO CARLOS
CENTRO DE CIEˆNCIAS EXATAS E DE TECNOLOGIA
PROGRAMA DE PO´S-GRADUAC¸A˜O EM CIEˆNCIA DA COMPUTAC¸A˜O
˜
REPRESENTAC¸ AO MULTIMODAL PARA
˜ ˜
CLASSIFICAC¸ AO DE INFORMAC¸ AO
FERNANDO TADAO ITO
Dissertac¸a˜o apresentada ao Programa de Po´s-
Graduac¸a˜o em Cieˆncia da Computac¸a˜o da Univer-
sidade Federal de Sa˜o Carlos, como parte dos requi-
sitosparaaobtenc¸a˜odot´ıtulodeMestreemCieˆncia
da Computac¸a˜o, a´rea de concentrac¸a˜o: Inteligeˆncia
Artificial
Orientadora: Profa. Dra. Helena de Medeiros Ca-
seli
Sa˜o Carlos – SP
Abril/2018
A meus pais. Para um dia eu ser um professor ta˜o completo quanto eles foram para
mim.
A
GRADECIMENTOS
Obrigado a todos que fizeram parte desta jornada comigo, ao CNPq, que forneceu a bolsa
nos primeiros meses do mestrado, a` FAPESP (Projeto MMeaning: 2016/13002-0) e a` Moni-
tora Soluc¸o˜es Tecnolo´gicas, por me liberar tempo para o estudo e pesquisa necessa´rios para
completarestetrabalho.
Ep´ıgrafe
Donald Knuth
Science is knowledge which we understand so well that we can teach it to a computer; and if
wedon’tfullyunderstandsomething,itisanarttodealwithit.
R
ESUMO
Osignificadomaisba´sicode“multimodalidade”e´autilizac¸a˜odemu´ltiplosmeiosdeinformac¸a˜o
para compor um “artefato”, um objeto criado pelo homem que expressa um conceito. Em
nossodia-a-dia,diversosmeiosdecomunicac¸a˜oexpressamconceitosapartirdemultim´ıdia:
not´ıciascomnarrac¸a˜o,v´ıdeosetextosauxiliares;pec¸asdeteatroquecontamumahisto´riaa
partirdeatores,gestosemu´sicas;jogoseletroˆnicosqueutilizamosgestosf´ısicosdojogador
como ac¸o˜es, e respondem com sinais visuais ou musicais. Para interpretar tais “artefatos”,
temosqueextrairinformac¸o˜esdemu´ltiplosmeiosdeinformac¸a˜oecombina´-losmatemati-
camente. Aextrac¸a˜odecaracter´ısticase´ feitaapartirdemodelosmatema´ticosquerecebem
um dado bruto (textos, imagens, sinais de a´udio) e o transforma em um vetor nume´rico,
ondeadistaˆnciaentreinstaˆnciasdenotaasuarelac¸a˜o: dadospro´ximoscodificamsignifica-
dos similares. Para criar um espac¸o semaˆntico multimodal, utilizamos modelos que “fun-
dem”asinformac¸o˜esdemu´ltiplostiposdedados. Nestetrabalho,investigamosainterac¸a˜o
entrediferentesmodosderepresentac¸a˜odeinformac¸a˜onaformac¸a˜oderepresentac¸o˜esmul-
timodais,apresentandoalgunsdosalgoritmosmaisusadosparaarepresentac¸a˜ovetorialde
textoseimagensecomofundi-los. Paramediraperformancerelativadecadacombinac¸a˜o
deme´todos,utilizamostarefasdeclassificac¸a˜oesimilaridadeembancosdedadoscomima-
gensetextospareados. Verificamosque,emnossosconjuntosdedados,diferentesme´todos
de representac¸a˜o unimodal podem levar a resultados vastamente diferentes. Tambe´m no-
tamos que a performance de uma representac¸a˜o na tarefa de classificac¸a˜o de dados na˜o
significa que tal representac¸a˜o na˜o codifique o conceito de um objeto, tendo diferentes re-
sultadosemtarefasdesimilaridade.
Palavras-chave: representac¸a˜o multimodal, representac¸a˜o distribu´ıda, Word2Vec, SIFT, autoencoder,
inteligeˆnciaartificial,aprendizadona˜o-supervisionado
A
BSTRACT
The most basic meaning of ”multimodality”is the use of multiple means of information to
composean”artifact”,aman-madeobjectthatexpressesaconcept. Inourday-to-daylife,
most media outlets use multimedia to express information: news are composed of videos,
narrations and ancillary texts; theater plays tell a story from actors, gestures and songs;
electronic games use the player’s physical gestures as actions, and respond with visual or
musical cues. To interpret such ”artifacts,”we have to extract information from multiple
media and combine them mathematically. The extraction of characteristics is done from
mathematical models that receive raw data (texts, images, audio signals) and turns it into
a numerical vector, where the distance between instances denotes its relation, where close
dataencodesimilarmeanings. Tocreateamultimodalsemanticspace, weusemodelsthat
“ fuse ” information from multiple data types. In this work, we investigate the interaction
between different modes of information representation in the formation of multimodal re-
presentations,presentingsomeofthemostusedalgorithmsforvectorrepresentationoftexts
and images and how to merge them. To measure the relative performance of each combi-
nation of methods, we use classification and similarity tasks in databases with images and
paired texts. We found that in our data sets different methods of unimodal representation
can lead to vastly different results. We also note that the performance of a representation
in the data classification task does not mean that such representation does not encode the
conceptofanobject,havingdifferentresultsinsimilaritytasks.
Keywords: multimodal representation, distributedrepresentation, Word2Vec, SIFT, autoencoder, artifi-
cialintelligence,unsupervisedlearning
L F
ISTA DE IGURAS
1.1 Exemploderepresentac¸a˜odetexto. . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Exemploderepresentac¸a˜odeimagem. . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Exemploderepresentac¸a˜omultimodal. . . . . . . . . . . . . . . . . . . . . . . 3
2.1 Ilustrac¸a˜odadecomposic¸a˜odeumamatrizemseusvaloressingulares. Amatriz
Dcorrespondeamatrizde . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Tabeladeprobabilidadescompalavrasselecionadasdeumcorpuscom6bilho˜es
determos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Modelo Skip-Gram e CBoW lado a lado. O primeiro preveˆ o contexto dada
umapalavra,osegundofazoinverso. . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Relac¸o˜esentrepalavrasnoespac¸ovetorial . . . . . . . . . . . . . . . . . . . . 21
2.5 Representac¸a˜odeumaredeneuralcomomodeloSkip-Gram. . . . . . . . . . 22
3.1 ImagemdopicodoEverest. . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 (a): Foto com pontos de interesse denotados por cruzes vermelhas. (b): Ponto
inferiordireito. (c): Pontosuperiordireito. (d): Pontosuperioresquerdo. . . . . 28
3.3 (a): Imagemoriginal. (b): Mapadeintensidadedegradientesdaimagem(a). . 29
3.4 Mapadegradientesdirecionais,horizontal(esquerda)evertical(direita). . . . . 29
3.5 Ilustrac¸a˜odaobtenc¸a˜odasimagensparaoca´lculodasdiferenc¸asdegaussianas. 32
3.6 Diferenc¸asdegaussianasobtidasemumaoitava. . . . . . . . . . . . . . . . . 33
3.7 Pontosdeinteressedeumaimagem. . . . . . . . . . . . . . . . . . . . . . . . 34
3.8 Ilustrac¸a˜odaobtenc¸a˜odospontosma´ximos/m´ınimos. . . . . . . . . . . . . . . 35
3.9 Ilustrac¸a˜odome´tododedescobertadaorientac¸a˜odeumpontodeinteresse. . . 35
3.10 Histogramadeorientac¸a˜ocommu´ltiplospicos. . . . . . . . . . . . . . . . . . 35
3.11 Processodedescric¸a˜odeumpontodeinteresse. . . . . . . . . . . . . . . . . . 36
3.12 Ca´lculodasderivadasgaussianasdesegundaordem. . . . . . . . . . . . . . . 37
3.13 Piraˆmide de imagens. Na esquerda, o processo SIFT original. Na direita, o
processoSURF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.14 Processo de aumento escalar dos filtros gaussianos aproximados. Na imagem,
umfiltrode9x9e´ passadoparaumn´ıvelsuperior,comtamanho15x15. . . . . 38
3.15 Extrac¸a˜o da orientac¸a˜o de um ponto de interesse pelo me´todo SURF. O vetor
indicado em vermelho e´ o maior dentre todos os poss´ıveis vetores encontrados
pelajaneladeslizanteemcinza. . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.16 Criac¸a˜o do vetor de descric¸a˜o em um ponto de interesse. Na esquerda, a janela
quadra´ticaorientadacompleta;nadireita,umasub-regia˜oemdestaque. . . . . 40
3.17 Ana´lisedepixel utilizandoFASTcomρ =3. . . . . . . . . . . . . . . . . . . 41
3.18 Ilustrac¸a˜odaarquiteturadeumautoencoder . . . . . . . . . . . . . . . . . . . 42
3.19 Ilustrac¸a˜odoco´rtexvisualpropostoporHubeleWiesel(1968). . . . . . . . . . 44
3.20 Ilustrac¸a˜o da arquitetura de uma rede neural convolucional. Cada neuroˆnio se
conectaapenascomosneuroˆnioslocalmentepro´ximos. . . . . . . . . . . . . . 44
3.21 Ilustrac¸a˜o da arquitetura de uma parte da camada convolucional de uma rede.
Cadacamadatemumvetordepesoscompartilhadoportodososneuroˆnios. . . 45
3.22 Ilustrac¸a˜o da criac¸a˜o de mapas de caracter´ısticas em uma rede neural convolu-
cional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.23 Ilustrac¸a˜o da convoluc¸a˜o de uma matriz. A matriz original (esquerda), kernel
(centro)eresultado(direita). . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.24 Ilustrac¸a˜odeumaredeneuralconvolucionalemfuncionamento. . . . . . . . . 46
4.1 Imagemdasrepresentac¸o˜esdea´udioev´ıdeoparaumdeterminadofonema. . . 49
4.2 Ilustrac¸a˜odeumama´quinadeBoltzmanneumama´quinarestritadeBoltzmann. 50
4.3 Ilustrac¸a˜odomodeloinicialparaobtenc¸a˜odarepresentac¸a˜ounificada. . . . . . 51
4.4 Ilustrac¸a˜odomodelofinalparaobtenc¸a˜odarepresentac¸a˜ounificada. . . . . . . 52
4.5 Ilustrac¸a˜odomodeloparatreinamentoderepresentac¸a˜ocompartilhada. . . . . 53
Description:5.1 Arquitetura do autoencoder multimodal simplificado. d3: Existe uma correlaç˜ao entre o nıvel de óleo de um carro e acidentes em estradas.