Prévia do material em texto
5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 1/15 PROVA ONLINE Entrega Sem prazo Pontos 60 Perguntas 10 Disponível depois 24 de out de 2022 em 0:00 Limite de tempo 60 Minutos Tentativas permitidas Sem limite Instruções Histórico de tentativas ATENÇÃO: Verifique em "Notas" se você não atingiu o aproveitamento necessário nesta disciplina. Caso você já tenha realizado uma prova anterior e opte por uma nova tentativa, será identificado como uma prova extra e resultará em pagamento de taxa extra. INSTRUÇÕES DA AVALIAÇÃO ON-LINE A prova tem a duração de 60 minutos. Ao clicar em PROVA ON-LINE, no menu “Testes” você iniciará a prova. A partir daí não será possível desistir de realizá-la. A prova é composta de 10 questões objetivas, cada uma no valor de 6 pontos. Ao final do teste não se esqueça de enviá-lo, clicando no botão “ENVIAR TESTE”. Só utilize esse botão quando tiver finalizado a avaliação. Se necessário, durante a prova, entre em contato pelo link “Atendimento”. ATENÇÃO: Todas as provas iniciadas e que não houverem sido submetidas serão automaticamente encerradas pelo sistema transcorridos os 60 minutos de duração. Boa Prova! Fazer o teste novamente https://pucminas.instructure.com/courses/90433/quizzes/333980/take?user_id=197796 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 2/15 Tentativa Tempo Pontuação MAIS RECENTE Tentativa 1 18 minutos 60 de 60 Pontuação desta tentativa: 60 de 60 Enviado 7 mai em 12:02 Esta tentativa levou 18 minutos. 6 / 6 ptsPergunta 1 As principais abordagens CF memory-based modelam os usuários como vetores de features. Uma das maneiras de fazer isso é representando os usuários pelo seu nível de interesse nos gêneros dos filmes, por exemplo. A figura abaixo representa justamente o interesse de três usuários distintos sobre os gêneros de Comédia, Ação, Drama, Terror e Romance, numa escala de 1 (menor interesse) a 5 (maior interesse). https://pucminas.instructure.com/courses/90433/quizzes/333980/history?version=1 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 3/15 Imagem retirada do livro: Grokking Algorithms - An illustrated Guide for Programmers and other Curious People Com base nesses dados, assinale a alternativa que melhor representa o comportamento de um algoritmo CF user-user: As recomendações geradas para Justin serão baseadas nos interesses de Morpheus, pois eles possuem interesses similares. 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 4/15 As recomendações geradas para Priyanka serão baseadas nos interesses de Morpheus, pois ambos se interessam por ação. As recomendações geradas para Morpheus serão baseadas nos interesses de Justin, pois eles possuem interesses similares. As recomendações geradas para Priyanka serão baseadas nos interesses de Justin, pois eles possuem interesses similares. Correto!Correto! 6 / 6 ptsPergunta 2 Um dos modelos mais conhecidos em Sistemas de Recomendação são as estratégias de Collaborative Filtering memory-based. Essas abordagens tentam correlacionar usuários e/ou itens, identificando aqueles que são mais semelhantes entre si, a fim de recomendar com base nessas informações. No modelo user- user, por exemplo, primeiro identifica-se os usuários mais similares ao usuário alvo, para depois gerar as recomendações para ele. Contudo, essa estratégia possui um problema. Se dois usuários avaliaram pouquíssimos itens (1 ou 2, por exemplo) e coincidir de serem os mesmos itens, o sistema dirá que eles são extremamente similares (similaridade = 1), mesmo sendo “cedo” para tal afirmação. O ideal é que o sistema seja capaz de reconhecer que esses usuários podem não ser tão similares assim. O que você poderia propor para suavizar esse problema? 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 5/15 Uma simples solução seria considerar a confiança dessa similaridade. Basta multiplicarmos a métrica de similaridade por max(c, 50)/50, onde c representa a quantidade de ratings em comum entre os usuários. Uma simples solução seria aplicar uma métrica de similaridade capaz de lidar com esse problema. Poderíamos utilizar a métrica de Jaccard, por exemplo. Uma simples solução seria considerar a confiança dessa similaridade. Basta multiplicarmos a métrica de similaridade por min(c, 50)/50, onde c representa a quantidade de ratings em comum entre os usuários. Correto!Correto! Uma simples solução seria aplicar uma métrica de similaridade capaz de lidar com esse problema. Poderíamos utilizar a métrica de Pearson, por exemplo. 6 / 6 ptsPergunta 3 As estratégias de Filtragem Colaborativa model-based são as mais aplicadas em cenários reais de recomendação devido à sua eficácia. Uma das abordagens mais comuns consiste na aplicação do Singular Value Decomposition (SVD). O SVD é um método algébrico que extrai os fatores latentes referentes aos usuários e aos itens do domínio, a fim de extrair relações não-triviais sobre esses. Um dos principais parâmetros regularizadores desse método é justamente o número de fatores latentes (k) utilizados. Em geral, enquanto menores valores de k fazem o método ser mais eficaz, um número de fatores latentes alto — i.e., próximo a quantidade de itens (ou usuários) — não produz um bom resultado. 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 6/15 Todas as afirmativas abaixo apresentam um motivo pelo qual altos valores de k não produzirem um resultado tão eficaz, exceto: Um número alto de fatores latentes leva a uma super especialização do SVD na matriz de treino, impedindo que o método consiga predizer os dados do teste. Um número de fatores latentes próximo as dimensões dos usuários e/ou itens não permite que o SVD extraia corretamente informações relevantes dos dados. Muitos fatores latentes prejudicam a recomendação pois faz com que os valores preditos sejam próximos de zero. Correto!Correto! 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 7/15 Muitos fatores latentes adicionam ruído nos dados, impedindo que o SVD seja capaz de associar corretamente grupos de interesse em comum. 6 / 6 ptsPergunta 4 Você foi contratado para construir um sistema de recomendação para uma loja online de livros. Essa loja possui mais de 1 milhão de livros, mas sua base de dados possui apenas 10.000 ratings. Qual dentre as opções abaixo apresenta o recomendador mais indicado para esse cenário e a melhor justificativa para sua escolha? Um modelo de Filtragem Colaborativa User-User, pois esse método não depende dos ratings do usuário-alvo, explorando os ratings dos usuários vizinhos. Recomendador Content-based, pois esse método não depende dos ratings dos usuários, explorando as características (e.g., título, autor, ano etc.) dos livros. Correto!Correto! Um modelo de Filtragem Colaborativa baseado no SVD, pois esse método explora os fatores latentes dos usuários e itens. 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 8/15 Um modelo de Filtragem Colaborativa Item-Item, pois esse método não depende dos ratings dos usuários, explorando os ratings que os livros receberam. 6 / 6 ptsPergunta 5 Escolha a alternativa que contém a ordem que melhor indica a definição de cada uma das métricas abaixo: ( ) Esparsidade ( ) Precision ( ) Recall ( ) Acurácia ( ) F1 ( ) MA I. Média entre Precision e Recall com o viés direcionado ao menor valor. II. O erro médio entreos scores computados para a recomendação e os ratings reais existentes para todos os usuários e itens do conjunto de teste. III. Proporção de instâncias relevantes que são recuperadas. IV. Proporção de resultados corretos (positivos e negativos) sobre o número total de casos examinados. 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 9/15 V. A fração de itens vazios com relação ao total de elementos preenchidos na matriz de usuários e itens. VI. A proporção de instâncias recuperadas que são relevantes. VI, III, II, IV, V, I V, VI, III, II, I, IV V, VI, III, IV, I, II Correto!Correto! V, III, VI, II, I, IV 6 / 6 ptsPergunta 6 Nem sempre, em Sistemas de Recomendação, os ratings de usuários distintos possuem o mesmo significado. Para um usuário super crítico, uma nota 4 (numa escala de 1-5) pode ser sua maior nota até então. Por outro lado, a mesma nota de valor 4, para um usuário menos crítico, pode significar que ele não gostou muito daquele conteúdo, pois ele costuma sempre dar notas 5. Quais as opções abaixo poderiam ser aplicadas para solucionar esse problema? Assinale com verdadeiro ou falso cada uma das sentenças abaixo. Basta normalizarmos os ratings dos usuários para uma escala de -1 a 1 para removermos esse viés dos dados. FalsoCorreto!Correto! Correto!Correto! 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 10/15 Basta normalizarmos os ratings dos usuários pela nota média das avaliações dos seus vizinhos a fim de padronizá-los na mesma escala. Verdadeiro Basta normalizarmos cada rating dos usuários pela nota média das suas avaliações e dividir pelo desvio padrão de suas notas. VerdadeiroCorreto!Correto! Basta normalizarmos os ratings dos usuários para uma escala de 0-1 para removermos esse viés dos dados. FalsoCorreto!Correto! 6 / 6 ptsPergunta 7 Na prática, quando um usuário acessa um sistema real pela primeira vez, o sistema não sabe quase nada sobre ele e não consegue gerar recomendações específicas para as suas preferências. Esse problema é conhecido como user cold-start e ainda é um dos principais desafios dos cenários reais. Por essa razão, algumas estratégias foram desenvolvidas para lidar com esse problema. Todas as alternativas a seguir representam uma estratégia compatível para esse problema, exceto: Estratégias de entrevista (a.k.a., preference elicitation) que apresenta alguns itens do domínio ao usuário e o pede para classificá-los. 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 11/15 Estratégias não personalizadas, que não levam em conta as informações passadas do usuário alvo para gerar as recomendações. Estratégias de coleta de informações que pede ao usuário para logar com o Facebook, Gmail, ou similar, para que o sistema tenha acesso a informações prévias dele. Estratégias de similaridade de conteúdos (e.g., content-based) que levam em conta as características dos itens do domínio. Correto!Correto! 6 / 6 ptsPergunta 8 Suponha que você é o dono de uma grande empresa online de filmes e projetou utilizar um modelo de filtragem colaborativa. Para fomentar o seu modelo, você adquiriu dados já existentes de três plataformas de avaliação de filmes online (chamadas de A, B e C), em que os usuários acessam e avaliam os filmes que já assistiram. Portanto, você pretende unir os três conjuntos de dados adquiridos para serem utilizados pelo mesmo sistema. Contudo, no sistema A, usuários avaliam os filmes numa escala de 1 a 5 estrelas. Por sua vez, no sistema B, os usuários avaliam os filmes na escala de 1 - 10 e valores decimais (e.g., 7.5) são permitidos. E no sistema C, os usuários avaliam em uma escala de 1 - 100. Você também tem informações suficientes para identificar os usuários/itens de um sistema em outro. Com base nessas informações, qual das alternativas é verdadeira? 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 12/15 Você pode combinar as três bases de dados em uma só, mas você precisa normalizar a escala de ratings (para valores entre 0-1, por exemplo) antes de juntar os dados. Correto!Correto! Você pode combinar as três bases de dados em uma só e simplesmente aplicar um processo de mean normalization após a junção dos dados para utilizá-los. Não é possível combinar essas três bases de dados. Você precisa implementar um modelo de recomendação para cada uma delas. Assumindo que pelo menos um item ou usuário de um sistema não exista em outro sistema, não é possível combinar as duas bases de dados porque está faltando dados. 6 / 6 ptsPergunta 9 Você foi contratado por uma imobiliária que deseja se tornar mais agressiva no mercado e gostaria de automatizar suas funções. Um dos seus objetivos é implementar um recomendador para oferecer imóveis aos clientes. Essa imobiliária é renomada e possui diversos clientes registrados. Portanto, você possui todos os dados necessários para estabelecer as preferências dos usuários, as características dos imóveis etc. Contudo, o dono da imobiliária gostaria de expandir os seus negócios, que eram limitados a casas e apartamentos pequenos, e começar a vender/alugar imóveis de luxo. Devido a sua influência, ele conseguiu 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 13/15 administrar um imóvel renomado, com 1.500m², duas piscinas, oito quartos, três salas de estar, campo de golfe e afins. Qual o melhor modelo de recomendação você teria que acrescentar ao seu modelo tradicional (feito para lidar com os desafios comuns da imobiliária) para auxiliar nesse novo objetivo? Um modelo de recomendação não personalizado, como os mais alugados, para recomendar essa nova casa aos usuários. Um modelo de collaborative filtering para identificar as preferências dos usuários e determinar aqueles que preferem morar em casas maiores. Um modelo knowledge-based para deixar que os próprios usuários interessados nesse tipo de imóvel o encontrem. Correto!Correto! Um modelo content-based para correlacionar os imóveis por meio de suas características e recomendar a mansão para usuários que gostem de casas maiores. 6 / 6 ptsPergunta 10 Apesar dos recentes avanços em Sistemas de Recomendação, existem diversos problemas que ainda são desafios em aberto. Entre eles, destacam-se: 5/7/23, 12:03 PM PROVA ONLINE: 11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 14/15 I. User Cold-Start: quando um novo usuário é adicionado ao sistema e o modelo não possui nenhuma informação anterior associada a esse usuário. II. Item Cold-Start: quando um novo item é adicionado ao sistema e o modelo não possui nenhum rating associado a esse item. III. Gray-Sheep: quando o modelo possui pouquíssimos ratings de um usuário e não consegue correlacioná-lo com nenhum outro pelos métodos de correlação tradicionais. Indique qual afirmativa lista os métodos mais indicados para apresentar possíveis soluções para esses problemas: I: Collaborative filtering que correlaciona usuários pelos seus ratings; II: Não personalizado que não considera o usuário; III: Content-based tradicional. I: Content-based que explora as características dos itens; II: Collaborative filtering que correlaciona itens; III: Content-based adaptado para as características dos usuários. I: Não personalizado que não considera o usuário; II: Content-based tradicional; III: Content-based adaptado para as características dos usuários (idade, sexo etc.). Correto!Correto! I: Não personalizado que não considera o usuário; II: Content-based tradicional; III: Collaborative filtering que correlaciona usuários pelos seus ratings. 5/7/23, 12:03 PM PROVA ONLINE:11 - Sistemas de Recomendação (2022) https://pucminas.instructure.com/courses/90433/quizzes/333980 15/15 Pontuação do teste: 60 de 60