Cette semaine, nous avons introduit une amélioration algorithmique qui identifie les documents où l’élément de titre est écrit dans une langue ou une écriture différente de son contenu, et choisit un titre similaire à la langue et à l’écriture du document. Ceci est basé sur le principe général selon lequel le titre d’un document doit être écrit dans la langue ou l’écriture de son contenu principal. C’est l’une des raisons pour lesquelles nous pourrions aller au-delà des éléments de titre pour les titres de résultats Web.

Titres multilingues

Les titres multilingues répètent la même phrase avec deux langues ou écritures différentes. Le modèle le plus populaire consiste à ajouter une version anglaise au texte du titre original.

गीतांजलि की जीवनी - Biographie de Geetanjali en hin

Dans cet exemple, le titre est composé de deux parties (séparées par un trait d’union), et elles expriment le même contenu dans différentes langues (hindi et anglais). Bien que le titre soit dans les deux langues, le document lui-même n’est écrit qu’en hindi. Notre système détecte de telles incohérences et peut n’utiliser que le texte du titre en hindi, par exemple 

गीतांजलि की जीव

Titres en caractères latins

La translittération se produit lorsque le contenu est écrit d’une langue vers une autre langue qui utilise une écriture ou un alphabet différent. Par exemple, considérez un titre de page pour une chanson écrite en hindi mais translittérée pour utiliser des caractères latins plutôt que l’écriture devanagari native de l’hindi :

jis desh me holi kheli jati hai

Dans ce cas, notre système essaie de trouver un titre alternatif en utilisant le script prédominant sur la page, qui dans ce cas pourrait être :

जिस देश में होली खेली जाती है

Sommaire

En général, nos systèmes ont tendance à utiliser l’élément de titre de la page. Dans les cas de titres multilingues ou trans littérés, nos systèmes peuvent rechercher des alternatives qui correspondent à la langue prédominante de la page. C’est pourquoi il est recommandé de fournir un titre qui corresponde à la langue et/ou à l’écriture du contenu principal de la page.