Le 4 mai 2021, la plateforme Yahoo Questions/Réponses fermera. Elle est désormais accessible en mode lecture seule. Aucune modification ne sera apportée aux autres sites ou services Yahoo, ni à votre compte Yahoo. Vous trouverez plus d’informations sur l'arrêt de Yahoo Questions/Réponses et sur le téléchargement de vos données sur cette page d'aide.

?
Lv 7
? a posé la question dans Services YahooYahoo Questions/Réponses · il y a 2 semaines

Comment récupérer ces données via le gestionnaire de yahoo ?

2 réponses

Évaluation
  • il y a 1 semaine

    Au moins, on est tranquille, on ne sera pas détrôné !

  • ?
    Lv 7
    il y a 2 semaines

    Après avoir fait la demande et reçu les données voici le bilan :

    Nos réponses comme indiquées nous sont fournies avec la question mais pas les autres réponses. Dans un format JSON peu pratique à lire tel quel.

    Nos questions par contre ne suivent absolument pas ce qui est annoncé : SEULE LA QUESTION est fournie, rien des réponses !

    Donc il faut récupérer les infos autrement, via wget et les url des pages en les reconstruisant à partir de l'id des questions présent dans les deux fichiers json.

    Voici comment j'ai fait sous Linux. Adaptez vos chemins selon vos souhaits, n'oubliez pas que vous allez récupérer des milliers de pages donc mieux vaut créer des dossiers séparés par questions, réponses et source JSON.

    Pour les réponses :

    − voici comment extraire les id et les transformer en url stockés dans un fichier (enlever les espaces de h t t p s)

    sed -En 's#("qid"[^,]+)#@\1@#g;s#@#\n#gp' answers.json|sed -En 's#^"qid":"(.*)"#h t t p s://fr.answers.yahoo.com/question/index?qid=\1#p'  > liste-réponses.txt

    Il m'a fallu quelques heures pour télécharger les 15 000 références. En cas de reprise, il y a une option de wget qui permet de comparer les fichiers identiques par date et taille et éviter de les télécharger. Pas tant pour réduire le temps de téléchargement que pour éviter les milliers de doublons à trier.

    − puis pour télécharger (remplacer les […]

    cd [dossier_téléchargement_réponses]

    wget -i [chemin_vers_json]/liste-réponses.txt

    Pour les questions pas de réponse donc pas de qid

    − extraction des id et création des url

    sed -En 's#("id"[^,]+)#@\1@#g;s#@#\n#gp' questions.json|sed -En 's#^"id":"(.*)"#h ttps://fr.answers.yahoo.com/question/index?qid=\1.#p'  > liste-questions.txt

    − puis téléchargement

    cd [dossier_téléchargement_réponses]

    wget -i [chemin_vers_json]/liste-questions.txt

    @yamaela, moi aussi j'ai constaté que le chargement à la main de l'ensemble des questions sur la page de profil était long d'autant plus qu'on avançait dans l'ancienneté et la quantité de donnée (quelques Mo…) pour loquer à un moment. Sur mon ancien compte, il s'arrête à « une décennie », resté l'équivalent de plusieurs années. Quand j'aurais les données de ce compte, je vérifierai si ça remonte à ~ 2007.Pour traiter ce type de fichier, c'est encore différent. Les listes de Q&R&suivies se comporte différemment de celles de comptes.

    Questions suivies

    − extraction des urls en gardant le format html

    sed -En 's#(<h3>)#@\1#g;s#@#\n#gp' Questions_Suivies.html|sed -En 's#</h3>(.*)$#</h3>#p' > liste-suivies.html

    − idem pour le téléchargement avec la nuance « html »

    cd [dossier_téléchargement_réponses]

    wget -Fi [chemin]/liste-suivies.html

    Pour les comptes abonnés ou suivis seule l'extraction change

    sed -En 's#(<li class="UserQuestionsAndN)#@\1#g;s#@#\n#gp' comptes.html|sed -En 's#</li>(.*)$#</li>#p' > liste-comptes.html

    Attention, cela ne fournit que la liste, ça ne permet pas de récupérer leurs questions ou réponses. Il faudrait pouvoir atteindre leur profil ce qui n'est plus guère possible aujourd'hui que je sache. Si c'est le cas, utiliser alors la commande au-dessus pour les questions.

    Enfin pour ces autres comptes, il reste la wayback machine, lente, qui peut-être permettrait de retrouver les comptes à l'époque où ils étaient encore ouverts, nos questions des tous débuts, etc.

    Il me semble qu'on peut aussi construire des urls pour accès direct si on connait les urls d'origine (genre h t t p://wayback.org/page=http%xx%xx%xxfr.answers.yahoo.com/question/index%xxqid%xx%E2%80%A6) mais je crois que la date de copie sur wayback intervient, donc beaucoup risquent d'échouer. Il faudra sans doute faire des recherches à la main. L'avantage, c'est qu'il n'y a pas l'échéance de la semaine prochaine.

    J'espère que ça en aidera quelques-uns.

    PS : ça ne télécharge aucune image ni lien liés aux réponses ou détails.@yamaela, après vérification sur mon second compte, j'ai une réponse faite fin mars 2007, donc a priori yahoo renvoie bien l'ensemble des réponses et questions depuis l'origine@gnégné, vous pouvez toujours courir, la question reviendra pour aider ceux qui sont dans la m…e par votre faute.

Vous avez d’autres questions ? Pour obtenir des réponses, posez vos questions dès maintenant.