JavaScriptを有効にしてください

Cookieを使用しないユーザー属性の推定技術の特許公報を読む

 ·  ☕ 6 分で読めます

    経緯

    先週の金曜日にログリー株式会社から以下のプレスリリースがでており非常に興味をそそられました.

    Cookie を使用せずにユーザー属性を推定する技術を確立し、特許を取得

    https://corp.logly.co.jp/news/20190510/000095

    自分は今はアドテクノロジー(広告配信技術)とは直接は関わりがないものの,昨今のサードパーティ Cookie の規制や Apple の ITP 関連情報は趣味として情報を追いかけており,
    この特許技術のユーザー属性の推定はどのような仕組みで構成されているのか非常に興味が湧いたので特許公報を読むとともにメモついでに自身の理解をブログに載せようと思った次第です.

    本記事は特許公報から得た個人の解釈を記載したものです.
    正確性には細心の注意を払っておりますが,その保証をするものではありません

    読解

    特許 6511186 の読解をしていきます.

    • 前提としてトラッキング可能なユーザーから蓄積したオーディエンス属性情報とそのアクセス情報のパターンのデータがある
    • 一方でトラッキングができないユーザー(以下未知オーディエンス)においては当該オーディエンスの属性情報が存在しない
    • 未知オーディエンスには属性情報が存在しないため趣味趣向に応じた適切な広告配信が困難である
    • 本特許技術は未知オーディエンスに趣味趣向に応じた広告配信をするもの
    • 既知オーディエンスから作成したオーディエンス属性情報とアクセス情報のパターンを未知オーディエンスに用いて属性を機械学習で推定する
    • 未知オーディエンスから用いるデータはアクセス時の情報だけ
    • アクセス時の情報から推定できるため,アプリ内ブラウザなどへの適用も可能である
    • プレスリリースではシミュレーションを行ったところアルゴリズム適用可能な広告のうち約 90%において KPI の改善がみられたとのこと
    • 他にもブースト学習などが可能なようですが,そこは省略

    感想として個人をトラッキングせずにサプライサイドの収益があがるとするなら win-win ではないでしょうか.

    以下,自身が理解するにあたって非常に重要だった箇所の引用です.

    【発明を実施するための形態】

    【0013】 本発明は、特許文献 2 に開示される広告配信サーバが生成する成果を利用する。特許文献 2 に記載の技術を用いる広告配信サーバは、web ブラウザにおいて広告配信サービスの Cookie を許可しているオーディエンスについて、当該オーディエンスの属性情報を特定しており、データベースに記録している。

    一方、Cookie を許可していないオーディエンスは、広告配信サーバの立場で見ると、当該オーディエンスの属性情報が全くわからない。このままでは当該オーディエンスに対して適切な広告を配信することができない。
    【0014】

    そこで、このようなオーディエンスについては、web ブラウザがアクセスした web サイトの URL、アクセスした日時、オーディエンスが使用している端末の OS、端末の機種名、web ブラウザの種類等のアクセス情報、すなわち、web ブラウザが web サイトにアクセスした際に広告配信サーバが得られるアクセス情報を基に当該オーディエンスの属性情報を推定する。この推定には、機械学習に関するアルゴリズムが使用される。

    …(中略)…

    なお、これ以降、web ブラウザが広告配信サービスの Cookie を許可しているオーディエンスを、既に属性情報が判明していることから、既知オーディエンスと呼ぶ。逆に、web ブラウザが広告配信サービスの Cookie を許可していないオーディエンスを、属性情報が未知であることから、未知オーディエンスと呼ぶ。

    本発明は、既知オーディエンスから得られるアクセス情報と属性情報から、未知オーディエンスのアクセス情報を手がかりに、未知オーディエンスの属性情報を推定する技術である。

    …(中略)…

    【0016】既知オーディエンス 107 は、ノートパソコン 108a、あるいはスマートフォン 108b 等の情報端末 108 を用いて、広告主サイト 104 やポータルサイト 105 にアクセスし、HTML 文書を閲覧する。この閲覧した HTML 文書には、広告配信サーバ 103 から送信された広告が含まれる。

    既知オーディエンス 107 は情報端末 108 で動作する web ブラウザにおいて、広告配信サーバ 103 から送信される Cookie の保存と広告配信サーバ 103 に対する Cookie の送信を許可している。このため、広告配信サーバ 103 は既知オーディエン ス 107 の属性情報を特定することができるので、既知オーディエンス 107 の属性情報 を内部のデータベースに記録している。

    そして、広告配信サーバ 103 はこれら既知の属性情報を基に、既知オーディエンス 107 の趣味趣向に適した広告の配信を行う。

    …(中略)…

    【0046】
    発明者らは、アクセス情報を(1)URL のホスト名(Fully Qualified Domain Name: FQDN)、(2)URL のパス名、(3)アクセス日時の粒度を粗くした時間帯、(4 )情報端末の OS、(5)情報端末の機種名、(6)情報端末の web ブラウザ名、等に分化して、正規化処理を施した。そして、FQDN を筆頭に、パス名、時間帯、OS 等を 部分的に組み合わせることで、様々なアクセス情報の部分的情報を作成した。
    例えば、平日の午前中に、前述のポータルサイトやニュースサイトにアクセスする人達は、児童、学生、会社員の可能性は低く、専業主婦や無職の老人である可能性が高いものと考えられる。つまり、web サイトの内容自体に偏りがなくとも、その他の情報と組み合わせることで、オーディエンスの属性情報の偏りを特定することが可能になる。

    …(中略)…
    【0075】
    出願人が運用している広告配信システムは、オーディエンス ID を有する既知オーディ エンス 107 の属性情報が記憶されているオーディエンスマスタテーブル 505 を有して いる。このオーディエンスマスタテーブル 505 は、オーディエンスの属性情報が確定し 20 ているデータである。
    そこで、本発明に係る広告配信サーバ 103 は、既知オーディエンス 107 のアクセス 情報を機械学習に関するアルゴリズムにおける教師データとして利用することで、未知オ ーディエンス 109 のアクセス情報から未知オーディエンス 109 の属性情報を推定する

    【0082】 (3)上記の実施形態では、情報端末は web ブラウザを実行するものと仮定して説明
    したが、広告を表示可能なソフトウェアであれば、必ずしも web ブラウザでなくてもよ い。例えば、近年普及しているスマートフォンのアプリケーションプログラムには、広告 を表示するものが多く存在する。特に、インターネットオークション等のアプリケーショ 30 ンプログラムは、オーディエンスの行動履歴に偏りを見出すことが可能である。このよう な、web ブラウザでないソフトウェアであっても、広告配信サーバ 103 は対応が可能 である。

    特許 6511186

    共有

    bootjp / ぶーと
    著者
    ミドルウェアエンジニア / 7年後に分散データベース研究の世界に貢献することを目指して


    目次