Giter Club home page Giter Club logo

Comments (3)

patrick-g2 avatar patrick-g2 commented on June 4, 2024

Non on ne scrape pas de HTML, On reçoit les info sous la forme d'un fichier json.

Télérama injecte parfois du HTML dans les description, les critiques ou les notules, voir dans les résumés. On trouve aussi des script js mais je crois que c'est uniquement dans le champ bande_annonce

Pour les épisodes de Mafiosa sur Canal+ le 01/10, la critique contient :

<p>Tout commence par la violence des mots. Ceux de Carmen Paoli qui, visage dur sur fond noir, demande aux porte-flingues Tony Campana et Manu Mordiconi d'abattre Sandra, la chef de clan. Sa propre tante... Cette s\u00e9quence magistrale donne le ton : l'ultime (et superbe) saison de <i>Mafiosa</i> sera cr\u00e9pusculaire et tragique.</p>\r\n<p>Au fil des huit \u00e9pisodes, les truands vont s'accrocher au r\u00eave illusoire de \u00ab raccrocher \u00bb apr\u00e8s un dernier coup qui ferait leur fortune ; Thomas (le policier) va multiplier les bavures pour faire tomber les Paoli ; les nationalistes corses reprendront du service... Les femmes compteront les morts. Pierre Leccia, r\u00e9alisateur et cosc\u00e9nariste, enferme ses h\u00e9ros dans des cadres serr\u00e9s, le visage \u00e0 moiti\u00e9 plong\u00e9 dans les t\u00e9n\u00e8bres \u2014 cette part d'ombre qui les conduira \u00e0 leur perte.</p>\r\n<p>La saison est d\u00e9di\u00e9e \u00e0 Fr\u00e9d\u00e9ric Graziani, le premier interpr\u00e8te de Manu, d\u00e9c\u00e9d\u00e9 peu avant le tournage. Plut\u00f4t que de faire dispara\u00eetre ce beau personnage, Pierre Leccia a choisi de confier le r\u00f4le \u00e0 Philippe Corticchiato (plus connu sous son nom de DJ, Corti). Choix judicieux : son jeu, en g\u00e9n\u00e9ral, et ses sc\u00e8nes avec son \u00ab fr\u00e8re \u00bb Tony, en particulier, offrent \u00e0 la s\u00e9rie quelques-uns de ses plus beaux moments.</p>\r\n<p><span>\r\n<div><iframe width=\"420\" scrolling=\"no\" height=\"236\" frameborder=\"0\" src=\"http://player.canalplus.fr/embed/?param=cplus&vid=1046195\"></iframe><a href=\"http://www.canalplus.fr/c-series/pid4259-c-mafiosa.html?vid=1046195&sc_cmpid=SharePlayerEmbed\" style=\"text-decoration:none; color:#666;\" target=\"_blank\"><span style=\"color:#000; font-weight:bold;\" /><br />\r\n</a></div>\r\n</span></p>

On voit qu'il y a un span qui contient une div qui contient une iframe qui contient un player multimedia qui embarque lui même une iframe. Tout ça pour probablement voir la bande-annonce dans l'appli sur le smartphone.
Il y a aussi quelques balises dans le texte <p></p>, <i></i> je crois avoir vu des <b></b> également. Parfois elles sont en majuscules.
On voit aussi des "\r\n" (CRLF Windows) qui pourraient causer des problèmes d'affichage sous Linux.

Je laisse tout ça à des gens plus calés que moi en perl :)

from tv_grab_fr_telerama.

zubrick avatar zubrick commented on June 4, 2024

Je comprends que suivant l'utilisation ce soit embêtant, mais pour moi c'est un point plutôt positif, car je vois le programme sur une page web, ce qui veut dire que je peux également profiter de cette mise en page ou de ces vidéos embedded.

Il s'agirait donc d'ajouter une option pour demander au grabber d'enlever les tags html avec des regexp.
A étudier...

from tv_grab_fr_telerama.

zubrick avatar zubrick commented on June 4, 2024

l'option --no_htmltags ajouté à la version 1.34 permet de supprimer les tags html simples de la description.
Je n'ai pas retrouvé d'iframe pour tester, donc j'ai préféré ne pas les traiter pour éviter de supprimer des bouts de description.

from tv_grab_fr_telerama.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.