Comments (3)
Non on ne scrape pas de HTML, On reçoit les info sous la forme d'un fichier json.
Télérama injecte parfois du HTML dans les description, les critiques ou les notules, voir dans les résumés. On trouve aussi des script js mais je crois que c'est uniquement dans le champ bande_annonce
Pour les épisodes de Mafiosa sur Canal+ le 01/10, la critique contient :
<p>Tout commence par la violence des mots. Ceux de Carmen Paoli qui, visage dur sur fond noir, demande aux porte-flingues Tony Campana et Manu Mordiconi d'abattre Sandra, la chef de clan. Sa propre tante... Cette s\u00e9quence magistrale donne le ton : l'ultime (et superbe) saison de <i>Mafiosa</i> sera cr\u00e9pusculaire et tragique.</p>\r\n<p>Au fil des huit \u00e9pisodes, les truands vont s'accrocher au r\u00eave illusoire de \u00ab raccrocher \u00bb apr\u00e8s un dernier coup qui ferait leur fortune ; Thomas (le policier) va multiplier les bavures pour faire tomber les Paoli ; les nationalistes corses reprendront du service... Les femmes compteront les morts. Pierre Leccia, r\u00e9alisateur et cosc\u00e9nariste, enferme ses h\u00e9ros dans des cadres serr\u00e9s, le visage \u00e0 moiti\u00e9 plong\u00e9 dans les t\u00e9n\u00e8bres \u2014 cette part d'ombre qui les conduira \u00e0 leur perte.</p>\r\n<p>La saison est d\u00e9di\u00e9e \u00e0 Fr\u00e9d\u00e9ric Graziani, le premier interpr\u00e8te de Manu, d\u00e9c\u00e9d\u00e9 peu avant le tournage. Plut\u00f4t que de faire dispara\u00eetre ce beau personnage, Pierre Leccia a choisi de confier le r\u00f4le \u00e0 Philippe Corticchiato (plus connu sous son nom de DJ, Corti). Choix judicieux : son jeu, en g\u00e9n\u00e9ral, et ses sc\u00e8nes avec son \u00ab fr\u00e8re \u00bb Tony, en particulier, offrent \u00e0 la s\u00e9rie quelques-uns de ses plus beaux moments.</p>\r\n<p><span>\r\n<div><iframe width=\"420\" scrolling=\"no\" height=\"236\" frameborder=\"0\" src=\"http://player.canalplus.fr/embed/?param=cplus&vid=1046195\"></iframe><a href=\"http://www.canalplus.fr/c-series/pid4259-c-mafiosa.html?vid=1046195&sc_cmpid=SharePlayerEmbed\" style=\"text-decoration:none; color:#666;\" target=\"_blank\"><span style=\"color:#000; font-weight:bold;\" /><br />\r\n</a></div>\r\n</span></p>
On voit qu'il y a un span qui contient une div qui contient une iframe qui contient un player multimedia qui embarque lui même une iframe. Tout ça pour probablement voir la bande-annonce dans l'appli sur le smartphone.
Il y a aussi quelques balises dans le texte <p></p>
, <i></i>
je crois avoir vu des <b></b>
également. Parfois elles sont en majuscules.
On voit aussi des "\r\n" (CRLF Windows) qui pourraient causer des problèmes d'affichage sous Linux.
Je laisse tout ça à des gens plus calés que moi en perl :)
from tv_grab_fr_telerama.
Je comprends que suivant l'utilisation ce soit embêtant, mais pour moi c'est un point plutôt positif, car je vois le programme sur une page web, ce qui veut dire que je peux également profiter de cette mise en page ou de ces vidéos embedded.
Il s'agirait donc d'ajouter une option pour demander au grabber d'enlever les tags html avec des regexp.
A étudier...
from tv_grab_fr_telerama.
l'option --no_htmltags ajouté à la version 1.34 permet de supprimer les tags html simples de la description.
Je n'ai pas retrouvé d'iframe pour tester, donc j'ai préféré ne pas les traiter pour éviter de supprimer des bouts de description.
from tv_grab_fr_telerama.
Related Issues (20)
- Disparition du réalisateur HOT 11
- 404 Not Found HOT 6
- Fonctionnement HOT 1
- Plus d'EPG depuis quelques jour HOT 5
- Died at /usr/share/perl5/vendor_perl/XMLTV.pm line 1239. HOT 1
- Error during getting listings HOT 14
- Le grabber ne fonctionne plus HOT 2
- Crédits manquants HOT 1
- Absence de casting HOT 26
- Manque le casting pour les pièces de théâtre HOT 23
- gestion des erreurs de get_nice
- Pb d'accents HOT 5
- La récupération des programmes ne fonctionne plus ? HOT 3
- Offset need to be adjusted HOT 4
- Les credits ne sont pas lus sur un telefilm sentimental HOT 6
- progress bar already finished at /usr/local/share/perl/5.26.1/XMLTV/ProgressBar.pm line 70. HOT 4
- Problème de traitement du titre des journaux de France 3 HOT 4
- Possibilité de déactiver le triage des chaînes HOT 3
- Issue since few day : Malformed Json HOT 28
- Changement dans les API en 2021 ? HOT 6
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from tv_grab_fr_telerama.