youtube-dl/youtube_dl/extractor/sixplay.py

# coding: utf-8
from __future__ import unicode_literals

import re

from .common import InfoExtractor
from ..compat import (
    compat_parse_qs,
    compat_str,
    compat_urllib_parse_urlparse,
)
from ..utils import (
    determine_ext,
    int_or_none,
    try_get,
    qualities,
)


class SixPlayIE(InfoExtractor):
    IE_NAME = '6play'
    _VALID_URL = r'(?:6play:|https?://(?:www\.)?(?P<domain>6play\.fr|rtlplay.be)/.+?-c_)(?P<id>[0-9]+)'
    _TESTS = [{
        'url': 'https://www.6play.fr/minute-par-minute-p_9533/le-but-qui-a-marque-lhistoire-du-football-francais-c_12041051',
        'md5': '31fcd112637baa0c2ab92c4fcd8baf27',
        'info_dict': {
            'id': '12041051',
            'ext': 'mp4',
            'title': 'Le but qui a marqué l\'histoire du football français !',
            'description': 'md5:b59e7e841d646ef1eb42a7868eb6a851',
        },
    }, {
        'url': 'https://www.rtlplay.be/rtl-info-13h-p_8551/les-titres-du-rtlinfo-13h-c_12045869',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        domain, video_id = re.search(self._VALID_URL, url).groups()
        service, consumer_name = {
            '6play.fr': ('6play', 'm6web'),
            'rtlplay.be': ('rtlbe_rtl_play', 'rtlbe'),
        }.get(domain, ('6play', 'm6web'))

        data = self._download_json(
            'https://pc.middleware.6play.fr/6play/v2/platforms/m6group_web/services/%s/videos/clip_%s' % (service, video_id),
            video_id, headers={
                'x-customer-name': consumer_name
            }, query={
                'csa': 5,
                'with': 'clips',
            })

        clip_data = data['clips'][0]
        title = clip_data['title']

        urls = []
        quality_key = qualities(['lq', 'sd', 'hq', 'hd'])
        formats = []
        subtitles = {}
        for asset in clip_data['assets']:
            asset_url = asset.get('full_physical_path')
            protocol = asset.get('protocol')
            if not asset_url or protocol == 'primetime' or asset_url in urls:
                continue
            urls.append(asset_url)
            container = asset.get('video_container')
            ext = determine_ext(asset_url)
            if protocol == 'http_subtitle' or ext == 'vtt':
                subtitles.setdefault('fr', []).append({'url': asset_url})
                continue
            if container == 'm3u8' or ext == 'm3u8':
                if protocol == 'usp':
                    if compat_parse_qs(compat_urllib_parse_urlparse(asset_url).query).get('token', [None])[0]:
                        urlh = self._request_webpage(
                            asset_url, video_id, fatal=False,
                            headers=self.geo_verification_headers())
                        if not urlh:
                            continue
                        asset_url = urlh.geturl()
                    asset_url = re.sub(r'/([^/]+)\.ism/[^/]*\.m3u8', r'/\1.ism/\1.m3u8', asset_url)
                    formats.extend(self._extract_m3u8_formats(
                        asset_url, video_id, 'mp4', 'm3u8_native',
                        m3u8_id='hls', fatal=False))
                    formats.extend(self._extract_f4m_formats(
                        asset_url.replace('.m3u8', '.f4m'),
                        video_id, f4m_id='hds', fatal=False))
                    formats.extend(self._extract_mpd_formats(
                        asset_url.replace('.m3u8', '.mpd'),
                        video_id, mpd_id='dash', fatal=False))
                    formats.extend(self._extract_ism_formats(
                        re.sub(r'/[^/]+\.m3u8', '/Manifest', asset_url),
                        video_id, ism_id='mss', fatal=False))
                else:
                    formats.extend(self._extract_m3u8_formats(
                        asset_url, video_id, 'mp4', 'm3u8_native',
                        m3u8_id='hls', fatal=False))
            elif container == 'mp4' or ext == 'mp4':
                quality = asset.get('video_quality')
                formats.append({
                    'url': asset_url,
                    'format_id': quality,
                    'quality': quality_key(quality),
                    'ext': ext,
                })
        self._sort_formats(formats)

        def get(getter):
            for src in (data, clip_data):
                v = try_get(src, getter, compat_str)
                if v:
                    return v

        return {
            'id': video_id,
            'title': title,
            'description': get(lambda x: x['description']),
            'duration': int_or_none(clip_data.get('duration')),
            'series': get(lambda x: x['program']['title']),
            'formats': formats,
            'subtitles': subtitles,
        }
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`# coding: utf-8`
			`from __future__ import unicode_literals`

[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-08 21:56:10 +00:00			`import re`

[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`from .common import InfoExtractor`
[6play] do no modify asset urls with a token(#15248) 2018-02-01 10:22:05 +00:00			`from ..compat import (`
			`compat_parse_qs,`
			`compat_str,`
			`compat_urllib_parse_urlparse,`
			`)`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`from ..utils import (`
use mimetype2ext to determine manifest ext in multiple extractors 2016-07-06 08:11:46 +00:00			`determine_ext,`
[6play] Fix extraction (closes #12011) 2017-02-08 16:15:39 +00:00			`int_or_none,`
			`try_get,`
			`qualities,`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`)`


			`class SixPlayIE(InfoExtractor):`
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-08 21:56:10 +00:00			`IE_NAME = '6play'`
[6play] add support for rtlplay.be and extract hd usp formats 2018-06-17 11:01:14 +00:00			`_VALID_URL = r'(?:6play:\|https?://(?:www\.)?(?P<domain>6play\.fr\|rtlplay.be)/.+?-c_)(?P<id>[0-9]+)'`
			`_TESTS = [{`
			`'url': 'https://www.6play.fr/minute-par-minute-p_9533/le-but-qui-a-marque-lhistoire-du-football-francais-c_12041051',`
			`'md5': '31fcd112637baa0c2ab92c4fcd8baf27',`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`'info_dict': {`
[6play] add support for rtlplay.be and extract hd usp formats 2018-06-17 11:01:14 +00:00			`'id': '12041051',`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`'ext': 'mp4',`
[6play] add support for rtlplay.be and extract hd usp formats 2018-06-17 11:01:14 +00:00			`'title': 'Le but qui a marqué l\'histoire du football français !',`
			`'description': 'md5:b59e7e841d646ef1eb42a7868eb6a851',`
[6play] Fix extraction (closes #12011) 2017-02-08 16:15:39 +00:00			`},`
[6play] add support for rtlplay.be and extract hd usp formats 2018-06-17 11:01:14 +00:00			`}, {`
			`'url': 'https://www.rtlplay.be/rtl-info-13h-p_8551/les-titres-du-rtlinfo-13h-c_12045869',`
			`'only_matching': True,`
			`}]`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00
			`def _real_extract(self, url):`
[6play] add support for rtlplay.be and extract hd usp formats 2018-06-17 11:01:14 +00:00			`domain, video_id = re.search(self._VALID_URL, url).groups()`
			`service, consumer_name = {`
			`'6play.fr': ('6play', 'm6web'),`
			`'rtlplay.be': ('rtlbe_rtl_play', 'rtlbe'),`
			`}.get(domain, ('6play', 'm6web'))`
[6play] Fix extraction (closes #12011) 2017-02-08 16:15:39 +00:00
			`data = self._download_json(`
[6play] add support for rtlplay.be and extract hd usp formats 2018-06-17 11:01:14 +00:00			`'https://pc.middleware.6play.fr/6play/v2/platforms/m6group_web/services/%s/videos/clip_%s' % (service, video_id),`
			`video_id, headers={`
			`'x-customer-name': consumer_name`
			`}, query={`
[6play] Fix extraction (closes #12011) 2017-02-08 16:15:39 +00:00			`'csa': 5,`
			`'with': 'clips',`
			`})`

			`clip_data = data['clips'][0]`
			`title = clip_data['title']`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-08 21:56:10 +00:00			`urls = []`
[sixplay] Rename preference key to quality in format dict 2016-06-30 20:57:59 +00:00			`quality_key = qualities(['lq', 'sd', 'hq', 'hd'])`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`formats = []`
[6play] Extract subtitles (closes #15541) 2018-02-09 17:04:08 +00:00			`subtitles = {}`
[6play] Fix extraction (closes #12011) 2017-02-08 16:15:39 +00:00			`for asset in clip_data['assets']:`
			`asset_url = asset.get('full_physical_path')`
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-08 21:56:10 +00:00			`protocol = asset.get('protocol')`
			`if not asset_url or protocol == 'primetime' or asset_url in urls:`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`continue`
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-08 21:56:10 +00:00			`urls.append(asset_url)`
[6play] Fix extraction (closes #12011) 2017-02-08 16:15:39 +00:00			`container = asset.get('video_container')`
			`ext = determine_ext(asset_url)`
[6play] Extract subtitles (closes #15541) 2018-02-09 17:04:08 +00:00			`if protocol == 'http_subtitle' or ext == 'vtt':`
			`subtitles.setdefault('fr', []).append({'url': asset_url})`
			`continue`
[6play] Fix extraction (closes #12011) 2017-02-08 16:15:39 +00:00			`if container == 'm3u8' or ext == 'm3u8':`
[6play] add support for rtlplay.be and extract hd usp formats 2018-06-17 11:01:14 +00:00			`if protocol == 'usp':`
			`if compat_parse_qs(compat_urllib_parse_urlparse(asset_url).query).get('token', [None])[0]:`
[6play] use geo verfication headers 2018-06-19 09:35:42 +00:00			`urlh = self._request_webpage(`
			`asset_url, video_id, fatal=False,`
			`headers=self.geo_verification_headers())`
[6play] add support for rtlplay.be and extract hd usp formats 2018-06-17 11:01:14 +00:00			`if not urlh:`
			`continue`
			`asset_url = urlh.geturl()`
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-08 21:56:10 +00:00			`asset_url = re.sub(r'/([^/]+)\.ism/[^/]*\.m3u8', r'/\1.ism/\1.m3u8', asset_url)`
			`formats.extend(self._extract_m3u8_formats(`
			`asset_url, video_id, 'mp4', 'm3u8_native',`
			`m3u8_id='hls', fatal=False))`
			`formats.extend(self._extract_f4m_formats(`
			`asset_url.replace('.m3u8', '.f4m'),`
			`video_id, f4m_id='hds', fatal=False))`
			`formats.extend(self._extract_mpd_formats(`
			`asset_url.replace('.m3u8', '.mpd'),`
			`video_id, mpd_id='dash', fatal=False))`
			`formats.extend(self._extract_ism_formats(`
[sixplay] use raw string for regex 2017-02-10 08:34:23 +00:00			`re.sub(r'/[^/]+\.m3u8', '/Manifest', asset_url),`
[sixplay] improve extraction - skip drm protected formats - extract more and better formats - skip duplicate asset urls 2017-02-08 21:56:10 +00:00			`video_id, ism_id='mss', fatal=False))`
			`else:`
			`formats.extend(self._extract_m3u8_formats(`
			`asset_url, video_id, 'mp4', 'm3u8_native',`
			`m3u8_id='hls', fatal=False))`
[6play] Fix extraction (closes #12011) 2017-02-08 16:15:39 +00:00			`elif container == 'mp4' or ext == 'mp4':`
			`quality = asset.get('video_quality')`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`formats.append({`
[6play] Fix extraction (closes #12011) 2017-02-08 16:15:39 +00:00			`'url': asset_url,`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`'format_id': quality,`
[sixplay] Rename preference key to quality in format dict 2016-06-30 20:57:59 +00:00			`'quality': quality_key(quality),`
use mimetype2ext to determine manifest ext in multiple extractors 2016-07-06 08:11:46 +00:00			`'ext': ext,`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`})`
			`self._sort_formats(formats)`

[6play] Fix extraction (closes #12011) 2017-02-08 16:15:39 +00:00			`def get(getter):`
			`for src in (data, clip_data):`
			`v = try_get(src, getter, compat_str)`
			`if v:`
			`return v`

[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`return {`
			`'id': video_id,`
[6play] Fix extraction (closes #12011) 2017-02-08 16:15:39 +00:00			`'title': title,`
			`'description': get(lambda x: x['description']),`
			`'duration': int_or_none(clip_data.get('duration')),`
			`'series': get(lambda x: x['program']['title']),`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`'formats': formats,`
[6play] Extract subtitles (closes #15541) 2018-02-09 17:04:08 +00:00			`'subtitles': subtitles,`
[sixplay] Add new extractor(closes #2183) 2016-06-30 12:50:49 +00:00			`}`