Видео: Настя и сборник весёлых историй (Ноември 2024)
За да получавам своите новини, често сканирам Google News, който обобщава статии от цял свят въз основа на това, което "роботът" е определил, че е в тенденция. Всичко е в тенденцията. По принцип пропуска новините и напълно игнорира важни коментари, като моята колона. Вместо това изглежда, че предпочитам да отидете на мъртви връзки - под това имам предвид Wall Street Journal , който изисква абонамент за четене.
Днес е важен случай. От CES имаше чудна новина за това, че Dish Network направи оферта за закупуване на Clearwire. Но вместо да се свързва към някоя от свързаните истории чрез безплатни и четими уебсайтове, Google решава, че основната история трябва да идва от Wall Street Journal .
В миналото Google имаше някаква сделка, която позволяваше на потребителите поне да прочетат основния параграф или дори цялата статия, преди да бъдат блокирани от paywall. Освен ако не знаете байпас трик (обсъден по-долу), това вече не се прилага. Сега се сблъскате с paywall и сте готови. Предполагам, че действителните абонати минават през това, но се чудя как Google ботовете преминават, за да намерят историята на първо място. Google плаща ли? Съмнявам се. Значи трябва да има някакъв заден план за ботовете на Google, нали?
Това е фалшиво и прави услуга за потребителите на Google. Google минава през цялата тази проблем, за да победи хората, които се опитват да играят в системата, но позволява на Wall Street Journal да дърпа този каскад? Това е по същество платен за абонаменти на Wall Street Journal . Това ли иска Google? Губи ли Google?
Google не може да бъде толкова трудна, че просто да поправи тази досада. Ще отнеме една минута - пет върха. Това твърде много работа ли е?
Ако една компания има вградена платежна стена в услугата си, Google изобщо не трябва да търси сайта. Ботовете трябва да знаят, че има paywall и просто да избягват търсенето. И, да, бих искал обяснение как точно ботовете могат да търсят сайт, който е блокиран от paywall. Това е загадка.
Платежната стена трябва да бъде точно същата като "robots.txt", която казва на бота на робота да замине. Но нещо е риба в отношенията WSJ -Google. Най-лесният начин да убиете всички ботове е мета таг във файла robots.txt, като по този начин: ,
Вместо това WSJ блокира конкретно под-директории, но очевидно не всички. И още по-странно, ако правите търсене в Google News за същата тази статия, а не просто кликнете върху връзката в рунда, ще получите статията чрез някакъв друг механизъм.
Предизвиквам по-техническите читатели там да разберат какво се случва с тези двама, като разгледам файла robots.txt, използван от WSJ . Публичен документ е на разположение тук.
Какъвто и да е случаят, сайтовете имат заплати по финансови причини. Ако искат да играят игри със съдържанието им, това е едно, но трябва да бъдат забранени от резултатите от търсенето по същия начин, по който Google се опитва да осуети хората, които се опитват да играят в системата. Google ще забрани злополучен блогър при падането на шапка за някакво схематично поведение. Какво ще кажете за работа с по-големите сайтове по същия начин?
Можете да следите Джон C. Dvorak в Twitter @therealdvorak.
Още Джон К. Дворак:
Излезте извън темата с Джон С. Дворак.
ВИЖТЕ ВСИЧКИ СНИМКИ В ГАЛЕРИЯТА