Ordinateurs

Le web sémantique : peut-il rendre Google aussi intelligent qu’IBM Watson ? – ExtrêmeTech

Ce site peut gagner des commissions d’affiliation à partir des liens sur cette page. Conditions d’utilisation.

Il était une fois, la recherche était la plus grande chose depuis le pain tranché. La plupart d’entre nous ne pourraient toujours pas s’en passer, mais à peine une heure s’écoule sans que nous ne maudissions les mauvais résultats de notre moteur de recherche par ailleurs préféré. Les requêtes qui nous semblent simples bloquent même le puissant Google, malgré les milliards de dollars investis dans celui-ci. Ainsi, l’incroyable spectacle présenté par Watson, lauréat du Jeopardy d’IBM, a été une source d’inspiration en tant que modèle possible de la façon dont nous aimerions voir des réponses à nos propres questions. Malheureusement, nous ne pouvons pas tous avoir notre propre Watson – du moins pas de sitôt – mais l’industrie Internet essaie de nous aider à obtenir des résultats similaires en utilisant recherche sémantiques’appuyant sur un ensemble de technologies beaucoup plus large appelé vaguement le Web sémantique.

Lorsque le Web a commencé, la simple existence d’un lien entre deux pages ou sites était un bon indicateur qu’ils étaient liés, et si vous étiez intéressé par l’un, vous pourriez être intéressé par l’autre. Après tout, il n’y avait pas beaucoup de sites autour. Alors que le Web est devenu un monstre mondial avec des centaines de millions de sites et plus d’un billion de pages, c’est-à-dire des billions de liens, il est devenu beaucoup plus difficile de passer au crible ou d’organiser. Ainsi, au lieu de n’avoir que de simples liens d’une page à l’autre, la notion de relations a été ajoutée au web.

À travers le rel attribut sur les liens (en fait sur le a balise utilisée pour les liens), les auteurs de page peuvent spécifier plus précisément la relation d’une page à une autre. L’une des utilisations les plus répandues de rel est l’attribut auteur. En liant un article au profil Google d’un auteur, par exemple, Google sait afficher la photo de l’auteur lorsque l’article apparaît dans les résultats de recherche. Par exemple, le lien de l’auteur d’un de mes articles sur ET ressemble à :

<a href="https://extremetechprd.wpengine.com/author/dcardinal" 
title="Posts by David Cardinal" rel="author">David Cardinal</a>

Cela permet immédiatement à un moteur de recherche de « savoir » que je suis l’auteur de l’article, de le lier à ma page d’auteur et de le répertorier lorsqu’un utilisateur souhaite connaître les articles que j’ai écrits. En reliant également ma page d’auteur à mon profil Google, un résultat de recherche peut afficher cet extrait enrichi, y compris ma photo, au lieu d’un simple résultat textuel :

David Cardinal Extremetech Auteur Rich Snippet

David Cardinal High-teK.ca Auteur Rich Snippet

L’auteur est loin d’être le seul attribut pouvant être utilisé avec rel pour indiquer quelque chose sur la nature du lien entre deux pages. Peut-être l’utilisation la plus courante de rel est pour les liens de feuille de style, qui indiquent le CSS qui doit être chargé par le navigateur pour afficher la page. D’autres utilisations incluent la liste d’une forme courte de l’URL, les articles précédents et suivants, les icônes de raccourci et les métadonnées pour les éditeurs. Dans l’ensemble, il y a environ 20 liens différents dans un article ET qui utilisent rel.

Déclarer l’auteur d’un article est un exemple d’ajout d’informations sémantiques sur le web. Il permet à un logiciel, qu’il s’agisse d’un moteur de recherche ou d’un outil de recherche d’auteurs, de « connaître » un fait à la fois sur moi et sur l’article. Le Web sémantique s’appuie sur ce concept simple pour commencer à ajouter des « connaissances » aux pages Web et aux liens. Tim Berners-Lee, l’un des pères du Web original, envisageait le Web sémantique comme une version de nouvelle génération qui pourrait être traitée par des machines ainsi que par des personnes.

Psssssst :  Pornhub offre : les utilisateurs d'Apple surfent le plus sur le porno, tandis que les utilisateurs d'Opera sont les plus rapides - High-teK.ca

Vers une taxonomie commune

Tim Berners-Lee en pleine réflexionDans la décennie qui a suivi Berners-Lee prédit la transition vers un web sémantique, les progrès ont été assez lents. Des exemples triviaux, mais puissants, comme la relation d’auteur abondent, y compris les structures de données pour les produits, les films, la musique et les critiques, mais peu de connaissances ont été encapsulées au-delà du type de lien simple basé sur des faits que vous attendez d’un catalogue de produits ou bien- journal organisé.

L’une des raisons en est la difficulté de s’entendre sur des termes et des ensembles de termes – appelés taxonomies. Comme exemple simple, étant 6′ de haut, je pourrais vouloir inclure un attribut height = tall sur mon profil d’auteur. Mais quelqu’un d’autre pourrait décider que la taille était vraiment le 6’5″ de Sebastian. Ainsi, pour qu’un attribut ait une signification globale, il doit se référer à une définition commune et faire partie d’une taxonomie commune.

De nombreux efforts ont été faits au fil des ans pour créer des taxonomies standard, y compris celles basées sur RDF (Resource Description Format), les microformats et l’Open Graph de Facebook, mais l’une des plus récentes et des plus prometteuses pour le Web sémantique est schema.org — une association efforts de Google, Bing, Yandex et Yahoo! — qui vise à fournir un ensemble commun de termes que les moteurs de recherche peuvent utiliser pour faciliter la catégorisation des informations.

Ironiquement, schema.org évite la structure la plus puissante et la plus largement adoptée pour les taxonomies – RDF – en faveur d’un système beaucoup plus simple et moins puissant appelé microdonnées. Il est facile de voir à partir de cet exemple simple de microdonnées pour cet article qu’il n’est ni facile à lire ni à écrire, donc l’acceptation sera largement déterminée par la rapidité avec laquelle les outils de création de contenu Web standard commenceront à le prendre en charge :

<div itemscope itemtype ="http://schema.org/Article">
<h1 itemprop="name">The semantic web</h1>
<div itemprop="author" itemscope itemtype="http://schema.org/Person">
Author: <span itemprop="name">David Cardinal</span>
</div>
<span itemprop="genre">Technology</span>
</div>

Alors que les origines du terme web sémantique remontent souvent à un article américain de Berners-Lee Scientific publié en 2001, les liens typés sont loin d’être nouveaux. Ted Nelson et son projet Xanadu tentent de les concrétiser depuis plus de 30 ans. Cependant, la sémantique a été laissée de côté dans l’architecture Web d’origine pour des raisons de simplicité, nous avons donc dû la moderniser avec des « hacks » comme le rel attribut ou microdonnées collés sur le côté de la syntaxe HTML existante.

Psssssst :  HGST lance de nouveaux disques à l'hélium de 10 To pour le stockage à froid des entreprises - High-teK.ca

Page suivante: Tout est une question de confiance

Bouton retour en haut de la page