Référentiel Domaines | API Archive Ouverte HAL

Accès Domaines Types de champs Champs Requêtes Opérateurs Formats de réponse Champs à retourner Filtres Nombre de résultats Tri des résultats Facettes Grouper des résultats

Avec cette API vous pouvez utiliser la syntaxe de Apache Solr. En plus des options détaillées ci-dessous vous pouvez consulter la documentation en anglais de Apache Solr

Requêtes

Il faut au moins un paramètre dans l'URL pour faire une requête, ce paramètre est q

Ce paramètre contient la requête à effectuer.

Le paramètre doit être suivi du nom du champ dans lequel rechercher puis de la valeur à chercher.

Un certain nombre de caractères utilisés par la syntaxe de Apache Solr doivent être échappés avant d'être envoyés à l'API. Voir RFC3986

Caractères utilisés par Apache Solr à échapper + - && || ! ( ) { } [ ] ^ " ~ * ? : \.

Vous pouvez échapper ces caractères avec un \ avant le caractère. Par exemple (1+1):2 devient \(1\+1\)\:2.

Exemples

q=exemple

Exemple recherche du terme 'test' :


			

http://api.archives-ouvertes.fr/search/?q=test&wt=xml

Recherche basique

Exemples

Si le nom du champ dans lequel chercher est omis, par défaut la recherche porte sur l'index text qui contient les valeurs de plusieurs champs.

Ainsi :

http://api.archives-ouvertes.fr/ref/anrproject/?q=asie&wt=xml

donne le même résultat que :


			

http://api.archives-ouvertes.fr/ref/anrproject/?q=text:asie&wt=xml

Recherche dans un champ en particulier

Pour chercher dans un champ particulier la syntaxe est champ:terme

Exemple

Recherche du terme 'japon' dans le champ title_t


			

http://api.archives-ouvertes.fr/search/?q=title_t:japon&wt=xml

Recherche dans un champ en particulier plusieurs termes

L'opérateur booléen par défaut est AND

Utiliser (terme1 terme2)

Exemple

Recherche des termes 'japon' et 'france' dans le champ title_t


			

http://api.archives-ouvertes.fr/search/?q=title_t:(japon france)&wt=xml

Recherche dans un champ en particulier un terme ou un autre

Utiliser (terme1 OR terme2)

Voir aussi la liste des opérateurs booléens

Exemple

Recherche des termes 'japon' ou 'france' dans le champ title_t



		http://api.archives-ouvertes.fr/ref/domain/?q=title_t:(japon OR france)&wt=xml

Recherche de phrase

Utiliser les guillemets doubles"terme1 terme2"

Exemple

Recherche de la phrase 'Dictionnaire des idées reçues' dans le champ title_t


			

http://api.archives-ouvertes.fr/search/?q=title_t:"Dictionnaire des idées reçues"&wt=xml

Troncature sur un caractère avec `?`

Exemple


			

http://api.archives-ouvertes.fr/ref/anrproject/?q=agricol?&wt=xml

Troncature sur plus d'un caractère avec `*`

Exemple


			

http://api.archives-ouvertes.fr/search/?q=agri*&wt=xml

Recherche approchante `~`

Exemple

La syntaxe aluminum~ retourne des titres qui contiennent aluminum, Aluminium, alumimium, etc.

On peut préciser le nombre de permutations possibles avec un chiffre entre 0 et 2 (par défaut) : aluminum~1 api.archives-ouvertes.fr/search/?q=title_t:aluminum~&wt=xml&fl=title_s

Recherche par proximité

Exemple

La syntaxe "aluminium fer"~3 cherche des titres qui contiennent aluminium et fer à une distance maximale de 3 termes : api.archives-ouvertes.fr/search/?q=title_t:"aluminium fer"~3&wt=xml&fl=title_s

Opérateurs

Opérateur booléen	Symbole	Description
AND	&&	Les termes de chaque côté de l'opérateur doivent être présents
NOT	!	Le terme suivant l'opérateur doit être absent
OR	\|\|	Au moins un des 2 termes de chaque côté de l'opérateur doit être présent
	+	Le terme suivant l'opérateur doit être présent
	-	Le terme suivant l'opérateur doit être absent

Exemples

Paris -France +Texas
Paris AND France AND history NOT (Texas AND history)
Journal AND (Histoire OR History)

Formats de réponse

Le format de réponse par défaut est JSON

Le format de réponse est spécifié par le paramètre wt

Par exemple wt=json

Les réponses peuvent être obtenues dans plusieurs formats :

Format	Paramètre	Description
JSON (format par défaut)	json	Réponse de Apache Solr au format JSON
XML	xml	Réponse de Apache Solr au format XML
CSV	csv	Réponse de Apache Solr au format CSV (séparateur de champs `,` - valeurs séparées par `"`)

Ajouter indent=true pour indenter le format de réponse.

Exemples

Format CSV : http://api.archives-ouvertes.fr/ref/domain/?q=*:*&wt=csv
Format JSON : http://api.archives-ouvertes.fr/ref/domain/?q=*:*&wt=json
Format XML : http://api.archives-ouvertes.fr/ref/domain/?q=*:*&wt=xml

Champs retournés dans la réponse

Par défaut seuls les champs docid et label_s sont retournés dans une réponse. Cependant tous les champs stockés peuvent être retournés dans le format de réponse.

Le paramètre pour choisir les champs à retourner est fl .

Les champs demandés doivent être séparés par le signe ,

On peut utiliser le caractère * comme troncature de nom de champ, eg fl=cha*

Ce paramètre fl est disponible avec les formats de sortie :

JSON
XML
CSV

Exemple

fl=champ1_s,champ2_bool,champ3_t

Exemple pour ne retourner que le champ label_s :



		http://api.archives-ouvertes.fr/ref/domain/?q=*:*&wt=xml&fl=label_s

Tri des résultats

Par défaut, les résultats sont triés par pertinence. Le tri des résultats peut se faire sur n'importe quel champ en évitant les champs de type text (suffixe "_t") et les champs multi-valués qui donneront des résultats imprévisibles.

Le paramètre pour choisir les champs à retourner est sort + le sens de tri asc ou desc .

Exemple

sort=champ_s asc

Exemple



				http://api.archives-ouvertes.fr/ref/domain/?q=*:*&wt=xml&sort=docid asc

Filtres sur les requêtes

Pour limiter les résultats retournés, il est possibles d'utiliser des filtres

Le paramètre pour ajouter des filtres est fq suivi de la requête servant au filtre.

Exemple

fq=sherpaColor_s:green

Exemple avec le référentiel des revues :


		

http://api.archives-ouvertes.fr/ref/journal/?q=studies&wt=xml&fl=*&fq=sherpaColor_s:green

Nombre de résultats

Le nombre de réponses à retourner est définit par le paramètre rows .

Le nombre total de dépôt/notices ne change pas avec ce paramètres, seul le nombre de résultats effectivement retournés varie.

Par défaut les requêtes ne retournent que les 30 premiers résultats, le maximum autorisé est 10000.
Si vous souhaitez plus de résultats vous devez utiliser la pagination.

Le paramètre &rows=0 peut permettre de ne retourner que le nombre de résultats et d'enlever les documents du corps de la réponse. Vous pouvez par exemple utiliser ce paramètre à des fins de statistiques ou si vous voulez retourner uniquement des facettes.

Exemple

Récupérer 100 résultats :

http://api.archives-ouvertes.fr/ref/domain/?q=*:*&rows=100

En dehors de besoins spécifiques, il vaut mieux éviter de dépasser les 500/1000 lignes par réponse - pour des raisons de performance.

Pagination

Les résultats peuvent être paginés/décalés avec le paramètre start .

Exemple

Pour décaler les résultats et commencer au résultat 50 :

http://api.archives-ouvertes.fr/ref/domain/?q=*:*&start=50&rows=50

Curseurs

Si vous devez parcourir plusieurs milliers de résultats, pour des raisons de performance il est fortement recommandé d'utiliser les curseurs

Utilisation :

Spécifier le nombre de résultats à retourner avec le paramètre &rows=

Ajouter un tri par clé unique à la requête, dans nos référentiels la clé unique est docid . Donc ajouter &sort=docid asc à votre requête.

À votre première requête, ajouter le paramètre &cursorMark=* pour demander à solr d'ajouter un curseur dans le résultat de votre requête.

Le résultat de la requête contiendra par exemple "nextCursorMark":"AoFakgE="

Pour la requête suivante, ajouter &cursorMark=AoFakgE= où AoFakgE= est la valeur récupérée dans le résultat de la requête précédente.

Continuer ainsi en récupérant chaque paramètre cursorMark de la requête précédente.

Fin des résultats :

Quand la valeur de cursorMark dans le résultat est la même que celle envoyée avec la requête il n'y a plus de résultats à récupérer.

Plus d'information dans le guide de référence de Solr

Exemple

Obtenir un premier cursorMark :

http://api.archives-ouvertes.fr/ref/domain/?q=*:*&rows=10&sort=docid asc&cursorMark=*

Les facettes sont des listes de termes extraits en fonction d'une requête.

On peut les utiliser pour avoir une liste de valeurs distinctes sur un champ donné.

Pour générer des facettes, il faut ajouter le paramètre facet=true à une requête.

Il faut ensuite ajouter les champs avec lesquel construire les facettes avec le paramètre facet.field=NomDuChamp à une requête.

Plus d'information dans la documentation sur les facettes de Apache Solr

Exemples

facet=true&facet.field=publisher_s

Exemple avec le référentiel des revues, pour avoir une liste d'éditeurs avec le nombre de revues correspondantes :


			

http://api.archives-ouvertes.fr/ref/journal/?q=*%3A*&rows=0&wt=json&indent=true&facet=true&facet.field=publisher_s

Ajouter le paramètre facet.sort=index pour un tri lexicographique :


			

http://api.archives-ouvertes.fr/ref/journal/?q=*%3A*&rows=0&wt=json&indent=true&facet=true&facet.field=publisher_s&facet.sort=index

Ajouter le paramètre facet.sort=count pour trier par nombre d'occurences :


			

http://api.archives-ouvertes.fr/ref/journal/?q=*%3A*&rows=0&wt=json&indent=true&facet=true&facet.field=publisher_s&facet.sort=count

Le paramètre &rows=0 permet de ne retourner que les facettes et d'enlever les documents du corps de la réponse.

Grouper des résultats

Vous pouvez obtenir vos résultats de requêtes groupés selon un critère de votre choix, à condition que le critère soit représenté par un champ non multivalué et de type string

Paramètre	Type	Description
group	Booléen	Si `true` les résultats seront groupés
group.field	chaine	Le champ doit être de type `string` et ne doit pas être multivalué
group.limit	entier	Le nombre de résultats dans chaque groupe (1 par défaut).
group.sort	Tri	Le critère de tri à l'intérieur des groupes, par défaut `score desc`
group.query	requête	Requête permettant de retourner un groupe de documents, répétable

Exemples

Les 20 premiers documents de la collection FRANCE-GRILLES, triés par date de publication descendante, groupés par type de dépôt :


					

http://api.archives-ouvertes.fr/search/?q=*:*&fq=collCode_s:FRANCE-GRILLES&group=true&group.field=submitType_s&indent=true&group.limit=20&wt=xml&sort=producedDate_tdate desc

Les 20 premiers documents de la collection FRANCE-GRILLES, triés par date de publication descendante, groupés par type de documents :


					

http://api.archives-ouvertes.fr/search/?q=*:*&fq=collCode_s:FRANCE-GRILLES&group=true&group.field=docType_s&indent=true&group.limit=20&wt=xml&sort=producedDate_tdate desc

Référentiel Domaines Référentiel des domaines

Requêtes

Recherche basique

Recherche dans un champ en particulier

Recherche dans un champ en particulier plusieurs termes

Recherche dans un champ en particulier un terme ou un autre

Recherche de phrase

Troncature sur un caractère avec `?`

Troncature sur plus d'un caractère avec `*`

Recherche approchante `~`

Recherche par proximité

Opérateurs

Formats de réponse

Champs retournés dans la réponse

Tri des résultats

Filtres sur les requêtes

Nombre de résultats

Pagination

Curseurs

Utilisation :

Fin des résultats :

Utilisation des facettes

Grouper des résultats

Référentiel Domaines Référentiel des domaines

Requêtes

Recherche basique

Recherche dans un champ en particulier

Recherche dans un champ en particulier plusieurs termes

Recherche dans un champ en particulier un terme ou un autre

Recherche de phrase

Troncature sur un caractère avec ?

Troncature sur plus d'un caractère avec *

Recherche approchante ~

Recherche par proximité

Opérateurs

Formats de réponse

Champs retournés dans la réponse

Tri des résultats

Filtres sur les requêtes

Nombre de résultats

Pagination

Curseurs

Utilisation :

Fin des résultats :

Utilisation des facettes

Grouper des résultats

Troncature sur un caractère avec `?`

Troncature sur plus d'un caractère avec `*`

Recherche approchante `~`