Configuration de flux de données

Les flux de données sont activés par le service d’assistance à la clientèle et distribués par FTP ou Amazon S3.

Cette section présente un aperçu des options de flux de données et du processus de configuration unique.

Remise de fichiers par FTP

Les informations de flux de données peuvent être distribuées vers un emplacement FTP hébergé par Adobe ou par le client.

Si vous optez pour le téléchargement des données vers votre serveur FTP, vous devez indiquer à Adobe le nom d’utilisateur, le mot de passe et le chemin de téléchargement appropriés. Vous devez mettre en œuvre votre propre procédure en matière de gestion de l’espace disque sur le serveur, dans la mesure où Adobe ne supprime aucune donnée du serveur.

Remise de fichiers par sFTP

Les informations de flux de données peuvent être distribuées vers un emplacement sFTP hébergé par Adobe ou par le client.

Si vous optez pour le transfert des données vers votre serveur FTP, vous devez indiquer à Adobe le nom d’utilisateur, le mot de passe et le chemin de transfert appropriés. Vous devez mettre en œuvre votre propre procédure en matière de gestion de l’espace disque sur le serveur, dans la mesure où Adobe ne supprime aucune donnée du serveur.

Remise de fichiers Amazon S3

Si vous préférez éviter toute question de gestion d’espace disque ou de chiffrement des données, chargez maintenant vos fichiers dans un compartiment Amazon S3. Amazon chiffre automatiquement les données au repos (sur les serveurs Amazon). Les données que vous téléchargez sont automatiquement déchiffrées.

Si vous chargez des données par Amazon S3, vous devez fournir au service à la clientèle d’Adobe un nom de compartiment, un identifiant de clé d’accès, une clé secrète et un nom de dossier.

Paramètre BucketOwnerFullControl pour les flux de données Amazon S3

Cas d’utilisation type d’Amazon S3 : le titulaire du compte AWS (Amazon Web Services) crée un compartiment, puis crée un utilisateur qui est autorisé à créer des objets dans ce compartiment, puis spécifie les informations d’identification pour cet utilisateur. Dans ce cas, les objets de l’utilisateur appartiennent au même compte et le titulaire du compte bénéficie implicitement du contrôle total de l’objet (lecture, suppression, etc.). Ceci fonctionne de la même manière que les remises par FTP.

AWS permet aussi à un utilisateur de créer des objets dans un compartiment qui appartient à un autre compte utilisateur. Par exemple, deux utilisateurs AWS (utilisateurA et utilisateurB) n’appartiennent pas au même compte AWS mais souhaitent créer des objets dans d’autres compartiments. Si l’utilisateurA crée un compartiment (le compartimentA), il peut créer une règle de compartiment qui autorise explicitement l’utilisateurB à créer des objets dans le compartimentA, même si l’utilisateur n’est pas titulaire du compartiment. Ceci peut s’avérer avantageux car l’utilisateurA et l’utilisateurB n’ont pas à échanger d’informations d’identification. Au lieu de cela, l’utilisateurB fournit à l’utilisateurA son numéro de compte, puis l’utilisateurA crée une règle de compartiment qui autorise l’utilisateurB à créer des objets dans le compartimentA.

BucketOwnerFullControl spécifie des droits entre comptes pour créer des objets dans d’autres compartiments. Si l’utilisateurB charge un objet dans le compartiment de l’utilisateurA, l’utilisateurB « détient » toujours cet objet et, par défaut, l’utilisateurA n’a aucune autorisation quant à cet objet, même si l’utilisateurA possède le compartiment. Les objets n’héritent pas des autorisations du compartiment parent. L’utilisateurB doit explicitement octroyer les droits à l’utilisateurA car il reste le propriétaire de l’objet. Pour ce chargement entre comptes, AWS fournit une liste de contrôle d’accès BucketOwnerFullControl en spécifiant que l’utilisation de cette liste de contrôle d’accès revient au propriétaire du compartiment (utilisateurA) et qu’il bénéficie de tous les droits sur l’objet (lecture, écriture, suppression, etc.), même si l’objet est « détenu » par l’utilisateurB.

Les flux de données communiquent avec les 11 régions AWS standard suivantes (en utilisant l’algorithme de signature approprié si nécessaire) :

  • us-east-1
  • us-west-1
  • us-west-2
  • ap-south-1
  • ap-northeast-2
  • ap-southeast-1
  • ap-southeast-2
  • ap-northeast-1
  • eu-central-1
  • eu-west-1
  • sa-east-1

La région AWS Pékin, Chine (cn-north-1) n’est pour l’instant pas prise en charge.

Contenu et formats de remise

Quotidien : les données correspondant à chaque jour sont remises après leur traitement dans un seul fichier compressé, ou dans plusieurs fichiers compressés contenant chacun environ 2 Go de données non compressées. Vous recevez une seule livraison pour chaque jour.

Horaire : les données correspondant à chaque heure sont remises dans un seul fichier compressé contenant l’ensemble des données reçues au cours de cette période d’une heure. Vous recevez 24 remises distinctes pour chaque jour, chaque fichier étant livré après le traitement des données relatives à cette période d’une heure.

Remarque : En raison de la taille potentielle des fichiers compressés du flux de données, veillez à ce que le processus ETL utilise un utilitaire de compression de 64 bits.

Flux de données par heure

Il importe de comprendre que le terme « horaire » décrit la période des données envoyées avec chaque exportation, et non la période au cours de laquelle la remise est effectuée. Les flux de données horaires sont traités et distribués selon la méthode d’acheminement au mieux (best-effort delivery). Cependant, plusieurs facteurs peuvent avoir une incidence sur la durée de remise d’un flux de données horaire, à savoir :

  • Latence de la suite de rapports (c’est-à-dire, un pic de trafic imprévu)
  • Traitement en amont
  • Heures de pointe et heures creuses
  • Vitesses de connexion Internet

S’agissant des flux de données horaires, on s’attend à ce que, dans 95 % des cas, le flux soit diffusé dans les 12 heures suivant la collecte de l’équivalent des données de cette période horaire. Les flux de données des suites de rapports avec de forts volumes de trafic peuvent nécessiter davantage de temps de traitement et de diffusion.

Il ne faut pas confondre la réception d’un flux de données horaire et la réception d’un flux quotidien avec remise de plusieurs fichiers. Lors de la réception de flux de données horaires, les données correspondant à chaque jour sont divisées en 24 fichiers sur la base des données collectées pour cette période d’une heure, et chaque fichier est distribué dès qu’il est disponible. Un flux quotidien qui est livré sous la forme de plusieurs fichiers est distribué une fois par jour après le traitement des données du jour précédent et divisé en incréments de 2 Go sur la base de la quantité de données collectées.

Renvois de données pour les flux de données horaires

Si vous demandez des données pour des dates antérieures lors de la configuration d’un nouveau flux de données horaire, les données pour les dates renvoyant à plus de 60 jours dans le passé peuvent être distribuées sous un format quotidien plutôt qu’horaire.

Dans ce cas, vous ne recevrez pas 24 livraisons distinctes pour les jours concernés, mais vous recevrez une seule livraison avec un horodatage à minuit, contenant toutes les données pour la journée. Si vous demandez ce type de renvoi, veillez à ce que votre ETL soit configuré pour gérer les livraisons quotidiennes.

Remise de plusieurs fichiers

Vous pouvez opter pour une remise d’un seul ou de plusieurs fichiers lors de la création du flux de données. Lors de la configuration d’un flux quotidien, il est conseillé d’opter pour une remise de plusieurs fichiers, en raison des gains de performances significatifs associés à la compression et la décompression de fichiers d’une taille supérieure à 2 Go. Ce mode de remise facilite le traitement de données en parallèle. Les fichiers de données sont toujours divisés sur un enregistrement complet et peuvent être facilement concaténés après extraction.

Processus de configuration unique

Tâche

Réalisée par

Description

Sélectionner les colonnes de données

Client

Examinez les colonnes de données du parcours de navigation et déterminez les données que vous souhaitez recevoir. Adobe fournit également un jeu de colonnes recommandé qui peut être sélectionné.

(FTP seulement) Sélection de l’emplacement FTP

Achat d’un compartiment S3 auprès d’Amazon

Client

Sélectionnez l’emplacement FTP auquel Adobe doit envoyer les fichiers du flux de données. Si vous préférez cette option, Adobe peut fournir un hébergement pour les fichiers.

Contacter le service d’assistance à la clientèle Adobe pour configurer le flux de données

Client

Contactez le service d’assistance à la clientèle Adobe par l’intermédiaire d’un utilisateur bénéficiant d’un contrat d’assistance et communiquez les informations suivantes :

  • Suite de rapports contenant les données que vous souhaitez inclure dans le flux.
  • Les colonnes devant figurer dans le jeu de données.
  • Remise des données quotidienne ou horaire. Si vous optez pour une remise quotidienne, indiquez si elle doit comporter un seul ou plusieurs fichiers (l’option multiple est recommandée).
  • (FTP seulement) Nom d’hôte FTP, informations d’identification et chemin d’accès.
  • (Amazon S3 seulement) Nom du compartiment, identifiant de clé d’accès, clé secrète et nom du dossier.

Processus de remise

Tâche

Réalisée par

Description

Collecte de données

Adobe

Les appels serveur sont collectés et traités dans les serveurs de collecte de données Adobe.

Génération de flux

Adobe

Une fois les données traitées pour la période de remise (heure ou jour précédent), elles sont exportées vers le flux de données. Le flux est stocké au format délimité et il est compressé.

Remise au client

Adobe

Les données compressées sont transférées sur Amazon S3 ou sur un site FTP hébergé par Adobe ou par le client. Une fois l’opération terminée, un fichier de manifeste (ou fichier .fin pour les flux plus anciens) est transféré, ce qui indique la fin de la remise.

Téléchargement de données

Client

Le client recherche le fichier de manifeste sur le site S3 ou FTP. Ce fichier contient des détails sur tous les fichiers qui ont été remis.

Traitement du fichier de manifeste

Client

Le fichier de manifeste est lu et chaque fichier répertorié est téléchargé.

Les données sont décompressées et traitées

Client

Les fichiers téléchargés sont décompressés et traités.

Après avoir configuré votre flux de données, passez à la section Contenu du flux de données pour comprendre les fichiers que vous allez recevoir.