枯れた技術の水平思考

世の中わからないことだらけだ.少し確かなことは検証をしたことだけ

Cookieを使用しないユーザー属性の推定技術の特許公報を読む

経緯

先週の金曜日にログリー株式会社から以下のプレスリリースがでており非常に興味をそそられました.

Cookieを使用せずにユーザー属性を推定する技術を確立し、特許を取得

https://corp.logly.co.jp/news/20190510/000095

自分は今はアドテクノロジー(広告配信技術)とは直接は関わりがないものの,昨今のサードパーティCookieの規制やAppleのITP関連情報は趣味として情報を追いかけており,
この特許技術のユーザー属性の推定はどのような仕組みで構成されているのか非常に興味が湧いたので特許公報を読むとともにメモついでに自身の理解をブログに載せようと思った次第です.

本記事は特許公報から得た個人の解釈を記載したものです.
正確性には細心の注意を払っておりますが,その保証をするものではありません

読解

特許6511186 の読解をしていきます.

  • 前提としてトラッキング可能なユーザーから蓄積したオーディエンス属性情報とそのアクセス情報のパターンのデータがある
  • 一方でトラッキングができないユーザー(以下未知オーディエンス)においては当該オーディエンスの属性情報が存在しない
  • 未知オーディエンスには属性情報が存在しないため趣味趣向に応じた適切な広告配信が困難である
  • 本特許技術は未知オーディエンスに趣味趣向に応じた広告配信をするもの
  • 既知オーディエンスから作成したオーディエンス属性情報とアクセス情報のパターンを未知オーディエンスに用いて属性を機械学習で推定する
  • 未知オーディエンスから用いるデータはアクセス時の情報だけ
  • アクセス時の情報から推定できるため,アプリ内ブラウザなどへの適用も可能である
  • プレスリリースではシミュレーションを行ったところアルゴリズム適用可能な広告のうち約90%においてKPIの改善がみられたとのこと
  • 他にもブースト学習などが可能なようですが,そこは省略

感想として個人をトラッキングせずにサプライサイドの収益があがるとするならwin-winではないでしょうか.

以下,自身が理解するにあたって非常に重要だった箇所の引用です.

【発明を実施するための形態】

【0013】 本発明は、特許文献2に開示される広告配信サーバが生成する成果を利用する。特許文献2に記載の技術を用いる広告配信サーバは、webブラウザにおいて広告配信サービスのCookieを許可しているオーディエンスについて、当該オーディエンスの属性情報を特定しており、データベースに記録している。

一方、Cookieを許可していないオーディエンスは、広告配信サーバの立場で見ると、当該オーディエンスの属性情報が全くわからない。このままでは当該オーディエンスに対して適切な広告を配信することができない。
【0014】

そこで、このようなオーディエンスについては、webブラウザがアクセスしたwebサイトのURL、アクセスした日時、オーディエンスが使用している端末のOS、端末の機種名、webブラウザの種類等のアクセス情報、すなわち、webブラウザがwebサイトにアクセスした際に広告配信サーバが得られるアクセス情報を基に当該オーディエンスの属性情報を推定する。この推定には、機械学習に関するアルゴリズムが使用される。

...(中略)...

なお、これ以降、webブラウザが広告配信サービスのCookieを許可しているオーディエンスを、既に属性情報が判明していることから、既知オーディエンスと呼ぶ。逆に、webブラウザが広告配信サービスのCookieを許可していないオーディエンスを、属性情報が未知であることから、未知オーディエンスと呼ぶ。

本発明は、既知オーディエンスから得られるアクセス情報と属性情報から、未知オーディエンスのアクセス情報を手がかりに、未知オーディエンスの属性情報を推定する技術である。

...(中略)...

【0016】既知オーディエンス107は、ノートパソコン108a、あるいはスマートフォン108b等の情報端末108を用いて、広告主サイト104やポータルサイト105にアクセスし、HTML文書を閲覧する。この閲覧したHTML文書には、広告配信サーバ103から送信された広告が含まれる。

既知オーディエンス107は情報端末108で動作するwebブラウザにおいて、広告配信サーバ103から送信されるCookieの保存と広告配信サーバ103に対するCookieの送信を許可している。このため、広告配信サーバ103は既知オーディエン ス107の属性情報を特定することができるので、既知オーディエンス107の属性情報 を内部のデータベースに記録している。

そして、広告配信サーバ103はこれら既知の属性情報を基に、既知オーディエンス107の趣味趣向に適した広告の配信を行う。

...(中略)...

【0046】
発明者らは、アクセス情報を(1)URLのホスト名(Fully Qualified Domain Name: FQDN)、(2)URLのパス名、(3)アクセス日時の粒度を粗くした時間帯、(4 )情報端末のOS、(5)情報端末の機種名、(6)情報端末のwebブラウザ名、等に分化して、正規化処理を施した。そして、FQDNを筆頭に、パス名、時間帯、OS等を 部分的に組み合わせることで、様々なアクセス情報の部分的情報を作成した。
例えば、平日の午前中に、前述のポータルサイトやニュースサイトにアクセスする人達は、児童、学生、会社員の可能性は低く、専業主婦や無職の老人である可能性が高いものと考えられる。つまり、webサイトの内容自体に偏りがなくとも、その他の情報と組み合わせることで、オーディエンスの属性情報の偏りを特定することが可能になる。

...(中略)...
【0075】
出願人が運用している広告配信システムは、オーディエンスIDを有する既知オーディ エンス107の属性情報が記憶されているオーディエンスマスタテーブル505を有して いる。このオーディエンスマスタテーブル505は、オーディエンスの属性情報が確定し 20 ているデータである。
そこで、本発明に係る広告配信サーバ103は、既知オーディエンス107のアクセス 情報を機械学習に関するアルゴリズムにおける教師データとして利用することで、未知オ ーディエンス109のアクセス情報から未知オーディエンス109の属性情報を推定する


【0082】 (3)上記の実施形態では、情報端末はwebブラウザを実行するものと仮定して説明
したが、広告を表示可能なソフトウェアであれば、必ずしもwebブラウザでなくてもよ い。例えば、近年普及しているスマートフォンのアプリケーションプログラムには、広告 を表示するものが多く存在する。特に、インターネットオークション等のアプリケーショ 30 ンプログラムは、オーディエンスの行動履歴に偏りを見出すことが可能である。このよう な、webブラウザでないソフトウェアであっても、広告配信サーバ103は対応が可能 である。

特許6511186