什么药降肌酐最快最好| 人为什么会生病| 逆钟向转位什么意思| panerai是什么牌子| 尿多是什么回事| 无异于是什么意思| 女人梦见搬家预示什么| 股骨头坏死吃什么药| crt是什么意思| 背部痒是什么原因| 宽粉是什么做的| 宫缩是什么原因引起的| 男人毛发旺盛说明什么| 寒疾现代叫什么病| hbeag阳性是什么意思| 红枣泡水喝有什么好处| 什么是腺肌症| 玳瑁色是什么颜色| 果位是什么意思| 红细胞数目偏高是什么意思| 做梦梦见生孩子是什么意思| 胃肠造影主要检查什么| 分心念什么| 阴道是什么味道| 散光是什么意思| ipa啤酒是指什么| 甲亢用什么药| 电动车电池什么牌子好| 什么床不能睡觉| 乳酸菌素片什么时候吃| 强的松又叫什么名字| 腰疼肚子疼是什么原因引起的| 黄金芽属于什么茶| 庄周梦蝶什么意思| 总出虚汗什么原因怎么解决| 巴沙鱼为什么不能吃| 冠心病需要做什么检查| 骨密度是检查什么的| 梦见杀牛是什么预兆| 桥本是什么| 田七配什么煲汤最好| 喝茶对身体有什么好处| 什么是穿堂风| 洛索洛芬钠片和布洛芬有什么区别| 结节有什么症状| 怀孕什么水果不能吃| 亚临床甲减是什么意思| 晓五行属性是什么| 肩胛骨麻麻的什么原因| 手指麻木是什么病的前兆| 结婚6年是什么婚| 没是什么意思| 白色鼻毛是什么原因| 为什么会卵巢早衰| 长沙有什么好玩的| 咽炎是什么症状| 被草是什么感觉| 主人杯是什么意思| 阳虚有什么症状和表现| 解脲脲原体是什么病| 凌志和雷克萨斯有什么区别| 反将一军什么意思| 姜枣茶什么季节喝最好| 盥洗是什么意思| 90年属于什么生肖| 为什么爱放屁| 取环挂什么科室| 为什么会厌学| 考生号是什么| cmv是什么病毒| 二月初九是什么星座| 心肌炎吃什么药效果好| 纳豆是什么豆子| 9月15号是什么日子| 竖中指什么意思| 米醋和白醋有什么区别| 汗毛多是什么原因| 11月18号是什么星座的| 女子与小人难养也什么意思| 违拗是什么意思| 心脏不好最忌讳吃什么| 婵字五行属什么| 来月经适合吃什么水果| 镁偏高是什么原因| 为什么会长斑| 吃什么油对心脑血管好| chloe是什么意思| 枪代表什么生肖| 不成功便成仁的仁是什么意思| 宫颈管积液什么意思| 大难不死的生肖是什么| 黄麻是什么| 腋下疼痛什么原因| 心慌挂什么科| 为什么会有湿气| 纠葛是什么意思| 衣服五行属什么| 什么加什么等于粉色| 退行性改变是什么意思| 儿童嗓子哑吃什么药| 对偶是什么意思| 死于非命是什么意思| 血管为什么是青色的| 布洛芬是什么药| 亚裔人是什么意思| 勇往直前是什么意思| 上火吃什么药| 浑身麻是什么原因| 什么时候说什么话| m是什么意思| 什么蛋不能吃脑筋急转弯| 8月23是什么星座| cv是什么意思| 卖酒需要办理什么证| 这是什么石头| 46属什么| std是什么意思| 羊传染人的病叫什么名| 女子是什么意思| 阿斯伯格综合症是什么| 罗文和甄妮什么关系| 安宫牛黄丸什么时间吃最好| 背上长痘痘擦什么药膏| 中国的国服是什么服装| 一吃东西就牙疼是什么原因引起的| 湖蓝色是什么颜色| 湿气重的人适合吃什么| 四不像长什么样| 孟夏是什么意思| 2018属什么生肖| 幽门螺杆菌怕什么食物| 吃什么润肺养肺最快| 梦见掉了两颗牙齿是什么意思| 绚丽夺目的意思是什么| nda是什么意思| 看食道挂什么科室| 奇花初胎矞矞皇皇是什么意思| 拉烂屎是什么原因| 宫颈纳囊是什么意思| 真狗是什么意思| 中医四诊是什么| 小狗吃什么| 减肥期间吃什么最好| 说风就是雨什么意思| amp是什么意思| 驻马店以前叫什么名字| 角瓜是什么| 小丑叫什么| 肝低密度灶是什么意思| 属猪五行属什么| 梦见吃月饼是什么意思| 属龙和什么属相相冲| vivi是什么意思| 血止不住是什么原因| 乙肝145阳性是什么意思| 什么是同房| 脚脱皮用什么药| 核磁共振和ct有什么区别| 大便里面有血是什么原因| 卡蒂罗属于什么档次| 旗舰店是什么意思| 冠军是什么意思| 梦见买苹果是什么征兆| 先父遗传是什么意思| 玫瑰糠疹是什么原因引起的| 女性血热吃什么好得快| 单侧流鼻血是什么原因| 二次报销需要什么条件| 男性内分泌失调有什么症状| 脖子肿了是什么原因| 喉咙疼吃什么| 什么运动降血糖最快| 消化内科是看什么病的| 七月七日是什么节日| 肺炎支原体感染吃什么药| 自食恶果是什么意思| 天冬与麦冬有什么区别| 钾高吃什么可以降下来| 大冒险问什么| 肾阴虚的症状吃什么药| 吃什么降血压最快最好方法| itp是什么意思| 茵陈是什么| 次月是什么意思| 被口是什么感觉| 12月18日什么星座| 屁股胀痛什么原因| 做什么能快速赚钱| 手背肿胀是什么原因| 入睡困难挂什么科| 吃什么可以养胃| 杨梅有什么功效和作用| 冰丝纤维是什么面料| 方便是什么意思| 调教什么意思| 怀孕一个月吃什么对宝宝发育好| 驴板肠是什么部位| 女人阴唇发黑是什么原因| 死心眼什么意思| 感冒能吃什么| 人丝是什么面料| 属鼠的是什么命| 二代试管是什么意思| 梦见亲人哭是什么征兆| 便秘是什么症状| 失策是什么意思| 阑尾切除后有什么影响和后遗症| 巴适是什么意思| 女性白带有血丝是什么原因| 7.9是什么星座| 高铁列车长是什么级别| 高胆红素血症是什么病| 羊蛋是什么| 辛辣是什么意思| rh血型阳性什么意思| 腊猪脚炖什么好吃| 看见蛇过马路什么征兆| 土耳其烤肉是用什么肉| 女人吃枸杞有什么好处| 秋后问斩是什么意思| 穿刺是什么检查| 有氧运动是什么| 六亲不认什么意思| hiv弱阳性是什么意思| 抗ccp抗体高说明什么| 拉肚子可以吃什么食物| 漫威是什么意思| 五月二十三日是什么星座| 年金是什么| 高攀是什么意思| 糖尿病是什么| 晚上2点是什么时辰| 碘化银什么颜色| 心率慢是什么原因| 尿酸高看什么科| 洗牙有什么危害吗| 牙龈红肿是什么原因| 开口腔诊所需要什么条件| 猫发烧吃什么药| 坐飞机需要什么证件| 格力空调se是什么意思| 属兔配什么属相最好| 河南南阳产什么玉| 肾病钾高吃什么食物好| 社会保险费是什么| dan是什么单位| 维生素b是什么| 尽善尽美是什么意思| 过氧化氢一个加号什么意思| 摩丝是什么| 三个火是什么字| 窦性心律不齐吃什么药| 小孩吐吃什么药| 什么主筋骨| 线差是什么意思| 开理疗店需要什么证件| 肚子里有虫子会有什么症状| foreplay是什么意思| rr过高是什么意思| 气血不足什么引起的| 肾上腺结节挂什么科| 蜘蛛侠叫什么| 胃病挂什么科| 齿痕舌吃什么中成药| 百度
Wikimedia Foundation logoWikimedia Privacy Engineering

《音乐快递》 20180317 欢唱盛典

百度 还没等到嵩崑批准,杨霈霖就开始了弹压行动。

Welcome to the Wikimedia Foundation's differentially-private daily pageview data release!

This dataset uses differential privacy to safely facilitate the large-scale release of pageview data at a low level of granularity, allowing users to conduct analysis on hundreds of thousands of pages per day on a country-project level.

Differential privacy injects a controlled amount of statistical noise into data before it is released. This noise impedes attempts to recover information about any single individual in the dataset without significantly changing the conclusions of the data.

You can find more information about this project on its metawiki homepage.

Update #1: From 15 Feb 2024 on, this dataset includes information about countries deemed "medium risk" and "higher risk" on the updated Country and Territory Protection List. More information on variable epsilon values, release thresholds, etc. are detailed in the rest of this document.

Update #2: During dataset upgrades to add Wikidata QIDs in early March 2024, we discovered two pre-existing dataset bugs. Firstly, due to a internal database naming error, data from the United States was not published from 6 Feb 2023 to 19 Sep 2023. Secondly, due to pipeline orchestration bugs, seven days of data (19 Jun 2023; 25 Oct 2023; and 13, 17, 19, 23, and 27 Nov 2023) were previously missing from the dataset. Due to WMF's data retention guidelines, the identifying data that would enable an exact recalculation of those days has been dropped. To at least partially rectify the situation, we've made smaller datasets for those countries/days available using the same techniques (and with the same privacy guarantees) as the historical pageview dataset that spans from 2017 to early 2023. Please see the linked documentation for precise descriptions of that algorithm's privacy and utility guarantees.

To download dataset files, go to the current dataset homepage.

Dataset characteristics

  • Time range: 6 Feb 2023 - present
  • Time granularity: daily
  • Data features:
    • country (excluding countries with a "not published" risk classification on the Country and Territory Protection List)
    • project (e.g. “en.wikipedia”, “wikidata”, “zh.wikibooks”, etc.)
    • page_id (numerical ID for a given page — together with project, this forms a unique identifier)
    • page_title (the page title for a given page_id)
    • item_id (If existing, the cross-project Wikidata QID for the page. If not existing, an empty string.)
    • gbc (the differentially-private number of pageviews this page_id received)
  • Dataset structure:
country_project_page/
|-> 2023-2-6.csv
|-> 2023-2-7.csv
...
|-> <year>-<month>-<day>.csv
  • Hive table access (all days): differential_privacy.country_project_page


Data creation pipeline

  1. Using the client-side differential privacy cookie, collect a boolean flag representing whether a given pageview was one of the first 10 unique pageviews for a given device in a given day.
  2. For date YYYY-MM-DD, retrieve all pageviews where the differential privacy cookie is true and that come from pages have received >150 global pageviews on that day
  3. Create a key space of all possible country-project-page_ids (we will calculate noise for all parts of this ~125 million-row space)
  4. Do a group-by + count on the pageview data, adding Gaussian noise (zero-concentrated differential privacy; rho=1.505E-2 for lower risk countries, rho=6.166E-4 for medium risk countries, rho=1.546E-4 for higher risk countries; sensitivity=10 unique pageviews) to each row of the dataset
  5. Calculate internal error metrics to ensure that we don't have data drift
  6. Threshold the data so that only rows with >90 pageviews (for lower risk countries?— >550 pageviews and >1000 pageviews for medium and higher risk countries, respectively) are released.
  7. Share the final table with the world!

See the code for releasing this data on Wikimedia's gitlab instance



Privacy parameters

  • Noise type: Gaussian zCDP
  • Sensitivity: 10 unique pageviews
  • Privacy budget: For lower risk, rho = 1.505E-2 (roughly equivalent to epsilon = 1, delta = 1e-07). For medium risk, rho = 6.166E-4 (roughly equivalent to epsilon = 0.2, delta = 1e-07). For higher risk, rho = 1.546E-4 (roughly equivalent to epsilon = 0.1, delta = 1e-07).
  • Ingestion threshold: 150 global pageviews (from Wikimedia REST API)
  • Release threshold: For lower risk, 90 pageviews. For medium risk, 550 pageviews. For higher risk, 1000 pageviews.

For lower risk countries, pageview counts are 95% likely to be within 35.7 pageviews of the true value. For medium risk countries, the 95% confidence interval is 176.5 pageviews. For higher risk countries, the 95% confidence interval is 352.5 pageviews.



Utility and accuracy

This dataset was optimized to perform well across several utility metrics: median relative and absolute error; percentage of output rows with relative error <10%, <25%, and <50%; spurious rate; and drop rate. For more information about these metrics, you can consult the WMF DP error glossary.

For this data release:

  • Median relative error: ≤6% for lower risk, ≤7% for medium risk, ≤8% for higher risk. The average row differs from its true value by no more than 6-8%, depending on risk level.
  • Median absolute error: ≤14 pageviews for lower risk, ≤70 pageviews for medium risk, ≤140 pageviews for higher risk. The average row differs from its true value by at most 14-140 pageviews, depending on the risk level.
  • Percentage of output rows with relative error <10%: ≥60% across all risk levels. More than 60% of rows are within 10% of the true value.
  • Percentage of output rows with relative error <25%: ≥90% across all risk levels. More than 90% of rows are within 25% of the true value.
  • Percentage of output rows with relative error <50%: ≥95% across all risk levels. More than 95% of rows are within 50% of the true value.
  • Spurious rate: ≤0.05%. Fewer than 1 in 2000 published rows actually has a true value of 0.
  • Drop rate: ≤0.5%. Fewer than 1 in 200 rows that should have been published was not published.

These metrics are calculated on a daily basis, and are also calculated for continental and subcontinental regions. In order to achieve geographic equity, the vast majority of subcontinental regions must meet rigorous data quality standards (median relative error ≤6%, spurious rate ≤1%, drop rate ≤1%).



Caveats

  • The privacy guarantee of this dataset is that the contribution of the first 10 unique pageviews on a given user's browser on the data will be obfuscated. If a user clears their cookies, uses multiple devices, or uses multiple browsers, they might incur additional privacy loss.
  • This dataset only considers the first 10 unique pageviews for each user, and only on pages that garner >150 pageviews. Excluding non-unique pageviews, unique pageviews >10, bots, and lesser-visited pages means the total number of pageviews is therefore significantly lower than the real value. On a row-by-row basis, values are more similar to the ground truth.
  • Differential privacy necessarily involves adding random noise to data outputs, which means that data in this dataset may not exactly mirror the truth, and some values may be spurious (i.e. that country-project-page_id tuple might not appear in the underlying dataset). We've introduced the release threshold to deal with this fact, but keep in mind that these values are not 100% exact and some rows may be incorrect.
    • Values that are closer to the release threshold of 90 (or 550, or 1000) are likelier to be spurious.
  • There are more page titles than page_ids (because of title changes, redirects, etc.). We calculate this aggregation on page_ids and join page titles after, so the title in the dataset might not be the canonical non-redirect name.
  • From 25 May 2023 on, a more aggressive filter was used to only retrieve human-contributed views, not bot/web indexer views. Data before this date may contain bot-influenced counts.
  • Data from 6 Feb 2023 may be incomplete


Other DP datasets

You can find data from 9 Feb 2017 - 5 Feb 2023 in the country_project_page_historical dataset, and data from 1 July 2015 - 8 Feb 2017 in the country_project_page_historical_pre_2017 dataset.

吃你鲍鱼是什么意思 荔枝肉是什么菜系 武火是什么意思 凉粉是什么做的 八八年属什么
对戒是什么意思 仲什么意思 鸡五行属什么 什么水果含维生素b 梦到自己杀人是什么意思
金牛男最烦什么女孩 京兆尹是什么官 列文虎克发明了什么 生不逢时什么意思 梦见自己有孩子了是什么预兆
什么牌子的辅酶q10好 咳嗽应该挂什么科 灵官爷是什么神 党费什么时候开始交 罗贯中是什么朝代的
姜不能和什么一起吃hcv8jop5ns9r.cn 胎停是什么原因引起的hcv8jop3ns0r.cn 转氨酶高吃什么食物降得快hcv8jop7ns3r.cn 东山再起是什么意思hcv9jop2ns0r.cn 蘑菇不能和什么一起吃shenchushe.com
bb是什么意思hcv8jop3ns8r.cn 上海市市委书记是什么级别hcv9jop0ns2r.cn al是什么意思hcv8jop9ns4r.cn 童心未泯是什么意思hcv7jop6ns4r.cn 签证和护照有什么区别hcv7jop6ns6r.cn
胆囊手术后不能吃什么hcv7jop5ns6r.cn 刚出生的小鱼苗吃什么hcv8jop5ns1r.cn 昕字取名什么寓意xjhesheng.com 牙齿黑是什么原因hcv9jop7ns4r.cn 父母都是a型血孩子是什么血型hcv8jop0ns2r.cn
失信名单有什么影响hcv9jop6ns6r.cn bally什么档次hcv8jop6ns0r.cn 男人下面流脓吃什么药hcv9jop2ns9r.cn 有的没的是什么意思hcv9jop5ns7r.cn 为什么一喝牛奶就拉肚子hcv7jop9ns8r.cn
百度