Saturday, September 12, 2015

Calculs sur un coin de table...

Billet remanié sérieusement le 12/09 pour prendre en compte les remarques qu'on m'a soufflé dans l'oreille

Je pose ça là, ces petits calculs qui je l'espère démontre un peu l'hypocrisie des tarifs de prix des "gros" éditeurs, et de leur pseudo défense des droit des auteurs...

Pour rappel, le % droits d'auteurs sur le numérique sont, dans les grands groupes d'édition, alignés sur le % du papier, autour de 10%.

Bon, je ne vous demande pas de me croire sur parole, c'était dit il y a un tout petit moins d'un an au Forum SGDL sur la rémunération des auteurs. Regardez donc la vidéo lors du dialogue Marie Sellier/Vincent Montagne à 20:40 (10% de droits qui diminuent vers 8) et 28:30 au sujet des taux identiques entre le numérique et le papier.

20€ Papier 10€ EBook 10% 10€ EBook 20%
Libraire 8€ 40% 3€ 30% 3€ 30%
Diffuseur Distributeur 3€ 15% 1€ 10% 1€ 10%
Fabrication 3€ 15% / / / /
Editeur 4€ 20% 5€ 50% 4€ 40%
Auteur 2€ 10% 1€ 10% 2€ 20%

Bon, on y constate quoi dans ce premier tableau ?

Première série de 2 colonnes, la répartition entre les différents maillons pour un livre papier

Seconde série, vente du livre numérique avec le pourcentage droits d'auteurs "papier" appliqué au numérique. Avec un prix de vente divisé par deux, on voit un reversement à l'auteur divisé par deux également... Alors que l'éditeur gagne PLUS sur ce livre. Alors que ça impose un "sacrifice financier" à l'auteur, l'éditeur a une marge plus importante sur le livre !

La troisième série montre la répartition avec un pourcentage doublé à 20% sur le numérique, et prouve que même dans ces conditions, aussi bien l'auteur que l'éditeur sont autant "rémunérés" sur la vente du livre numérique que sur celle du livre papier. Evidemment, l'imprimeur, le diffuseur, le distributeurs et le libraires sont BIEN moins gagnants, et il va se soi qu'ils n'ont AUCUN intérêt à cette migration. N'oublions pas d'ailleurs que certains groupes d'édition ont également des "filiales" d'impression, diffusion, distribution...

Je vois venir la remarque que je n'ai pas pris en compte la "fabrication" de la version numérique, mais je ferai remarquer qu'en contrepartie, je ne prend pas en compte la réduction des risques et coûts d'immobilisation de la fabrication des livres papier.

On m'a fait remarquer que les coûts d'impression numériques ne sont pas si négligeables que ça pour les petites maisons d'éditeurs notamment. Ce à quoi je répondrai la chose suivante : les petits éditeurs que je connais se répartissent en deux catégories : celles des pseudo-éditeurs qui font du compte d'auteur, et celle des éditeurs passionnés bien souvent plus équitables et proposant de meilleures répartitions que les 10% dont on parle plus ici. Ces éditeurs là, je les aime d'amour ! et c'est clair qu'entre une taille plus petite et des conditions plus équitables, ils tirent la langue pour faire une version numérique... Ils ont tout mon respect.

Et j'en profite pour poser l'hypothèse de travail que la répartition "2/3 pour l'éditeur, 1/3 pour l'auteur" constatée dans le papier serait équilibrée, et permettrait à l'éditeur de rentrer dans ses frais et de prendre des risques sur d'autres livres, pendant que ça compenserait correctement l'auteur. Je considère pour ma part que 1/2 pour chacun serait plus "juste", mais bon, on va "supposer" l'usage équitable...

On peut aussi remarquer qu'une telle différence de prix entre les deux versions est inacceptable pour les diffuseurs/distributeurs/libraires, c'est pourquoi je fais une nouvelle version du tableau avec un ebook à 15€ "plus acceptable par la chaîne historique" (encore en dessous il me semble du prix "moyen" des ebooks de la rentrée littéraire)

15€ EBook(1) 15€ EBook(2)
Libraire 4,5€ 30% 4,5€ 30%
Diffuseur Distributeur 1,5€ 10% 1,5€ 10%
Editeur 7,5€ 50% 6€ 40%
Auteur 1,5€ 10% 3€ 20%

Dans la première hypothèse, correspondant je crois à ce qui se fait dans les grands groupes, j'ai posé un taux de 10% pour l'auteur, et on voit dans ses conditions qu'il perd sur une vente numérique 25% de son revenu par rapport au papier, il est dès lors très peu surprenant que les auteurs ne soient pas très demandeurs de version numérique.

Quand au fait que l'éditeur double presque ses gains, c'est sans doute un hasard.

Dans la seconde hypothèse, la répartition 2/3 , 1/3 est conservée, et dans ces conditions, aussi bien l'auteur que l'éditeur augmentent leurs gains de 50% par rapport à la version papier à 20€ ou l'ebook à 10€.

Bref, les auteurs en danger, je veux bien... mais je suis certain que plus d'un éditeur du SNE est capable de faire mieux que 10% de DA sur le numérique...

Comme d'habitude, n'hésitez pas à relever les erreurs, à me les remonter, je corrigerai...

Tuesday, August 25, 2015

Mème Zombie : les prix bas dévaluent les livres

Ça faisait longtemps que je n'avais pas traduit de billet, cette fois ci c'est le second d'une série que J A Konrath co-écrit avec Barry Eisler sur les "mèmes zombies" , ces idées préconçues qui résistent aux arguments et reviennent sans fin.

Au menu du jour, celui le mème selon lequel la "valeur" d'un livre serait liée à un prix de vente élevé. 

Un billet court (bien plus que son précédent) et qui n'est pas exempt de simplifications excessives, mais bien intéressant pour au moins poser les contradictions portées par le meme en lui même.

http://jakonrath.blogspot.fr/2015/08/zombie-publishing-memes-2-low-prices.html

Des prix bas "dévaluent" les livres

Le postulat que porte ce mème est non seulement faux, mais aussi extraordinairement étrange. Après tout, si vous aimez les livres, pourquoi vous concentrer sur leur valeur monétaire plutôt que leur valeur pour la société ? Ce qui fait la valeur d'un livre n'est-il pas de ce qu'il est largement lu, absorbé et discuté plutôt que dans l'argent qu'il rapporte ? Et si les livres coûtent moins et sont accessibles à un plus grand nombre, ne semble-t-il pas raisonnable (à supposer l'expérience quotidienne valide et que les bases de l'enseignement en économie soit correct) que les gens achèteront plus de livres ? Si les livres sont effectivement importants pour la société, ne devrions nous pas chercher les moyens de rendre les livres moins chers et donc plus largement accessibles ?


Mais même si vous pensez que la seule valeur d'un livre est dans l'argent qu'il rapporte, il est idiot de considérer que des prix plus élevés  impliquent automatiquement de plus hauts revenus. Petit cas d'étude imaginaire : il est peu probable que qui que ce soit maximise ses revenus avec un prix de 5 cents, mais pourquoi ne pas vendre les livres à des centaines de dollars ? Ce prix de 100$ ne prouverait-il pas une encore  plus grande valeur du livre ?

Bien sûr que non. Alors, intuitivement, on sait tous qu'il y a un meilleur prix (le prix auquel le volume * prix unitaire maximise les revenus) et logiquement, ce devrait être celui qu'apporte la plus grande valeur (financière) au livre. Si on fait plus d'argent sur nos livres avec un prix à 5 dollars qu'à 10 ( pas une hypothèse pour nous d'ailleurs, mais un fait empirique) quel est le prix qui "dévalue" le livre ?

Il est aussi raisonnable de penser que différents auteurs avec différentes "marques" auront un "meilleur prix"  différent. Ce qui semble clair est que seules les plus grandes "marques" maximisent le revenu à des pris unitaires supérieurs ou égaux à $9.99. L'attachement de l'industrie historique à ces prix élevés a peu de rapport avec l'optimisation des revenus aux auteurs, et beaucoup à voir avec une intention de retarder la croissance du numérique et la préservation du positionnement du papier. Mais c'est une vérité inconfortable à admettre pour l'industrie historique, alors elle préfère le discours contre-intuitif selon lequel des prix bas (qui rendent les livres accessibles à un plus grand nombre) "dévaluent" les livres. Il semble dommage que certaines personnes semblent croire que les livres devraient être comme des diamants (de chers marqueurs symboliques de statut, accessibles uniquement à quelques élus) plutôt que des objets vitaux quotidiens accessibles à tous, comme l'eau, la nourriture et autres. Mais l’égoïsme produit des arguments étranges.


NoteDuSFReader : Bien étrange en France, alors que politique de TVA spéciale du livre est à l'exact opposé de la notion de produit de luxe, que ce mème y soit quasi identique...

NoteDuSFReader2 : J'ai écrit un billet (particulièrement abscons, mais je crois assez complet) consacré à l'aspect prix du livre pour tous ses aspects "hors" émotionnel : http://readingandraytracing.blogspot.fr/2014/11/prix-du-livre-la-con.html


Saturday, March 21, 2015

Interopérabilité des livres électroniques

Doesn’t mean what you think it means 1

Ces jours-ci, j’ai eu plusieurs fois l’occasion de voir, lire des articles, ou discuter autour de l’interopérabilité des ebooks. Une constante revient souvent : “Mais Amazon a son propre format à lui, fermé et non interopérable, alors que l’EPUB est un format interopérable en lui-même”. Il m’est arrivé de le penser, de le dire, mais comme d’habitude, la vérité est un peu plus compliquée que ça.

L’EPUB

Déjà, prenons pour exemple cet EPUB présenté en idéal de l’interopérabilité. Déjà, et sans vouloir être trop technique, l’EPUB est un standard (dans plusieurs versions) normalisé par l’IDPF, une organisation regroupant plusieurs industriels ayant des intérêts au livre électronique.

Ce standard définit comment rassembler dans un fichier unique (le fichier EPUB) un ensemble d'autres fichiers “ressource” qui le constituent.

Ces fichiers ressource (dans des formats le plus souvent compatibles “web”) peuvent contenir

  • du texte (au format (X)HTML)
  • une image
  • une feuilles de styles
  • des fontes ou autres…
  • des métadonnées et informations complémentaires explicitant/liant le tout (table de sommaire par exemple).

À peu de choses près, on peut dire que ça correspond à un site web qu’on aurait encapsulé/archivé dans une “boite” fichier unique.

Yo ho ho

Et puisqu’on peut dire que c’est un site web, on se dit évidemment qu’afficher un livre en EPUB, c’est aussi simple qu’afficher un site web, donc l’affaire est entendue.

Mais outre le fait que ce ne soit déjà pas “aussi simple” qu’afficher un site web, il est intéressant de se rappeler l’histoire du Web. Et alors que la marque “Internet Explorer” est sur le point de rendre l’âme, on se souviendra avec émotion les guerres inter-navigateurs des années 2000, et les sites incompatibles. Et bien pour l’EPUB, on se retrouve exactement dans la même situation, avec différents “navigateurs de sites EPUB” (moteurs de rendus d’EPUB) qui n’affichent qu’imparfaitement ces fichiers pourtant “normalisés”.

Le problème est d’autant plus important sur les liseuses dont le moteur de rendu n’est mis à jour que rarement.

Alors certes, les fichiers sont souvent au moins partiellement lisibles sur les plateformes “EPUB” différentes de celles sur lesquelles elles ont été testées, mais de là à pavoiser sur un format “interopérable”, il est peut-être plus prudent de s’abstenir.

Mais c’est quand même mieux que pas interopérable du tout, non ?

En fait, il y a des cas où… non, pas du tout.

Prenez par exemple un ebook d’un grand éditeur acheté chez Apple. C’est un EPUB, vous le savez, c’est donc interopérable, vous pourrez donc le lire sur votre liseuse… Eh bien non.

Car si le format est interopérable, le contenu a été transformé pour que seules vos installations de lecture Apple puissent les lire, et selon des règles que ces installations imposent. Et il n’y a pas d’installation possible de logiciel de lecture pour votre liseuse.

Cette transformation du contenu, vendue aux auteurs et éditeurs sous le nom de DRM (Digital Right Management), est supposée permettre de lutter contre les copies illicites (contrefaçon). Elle fonctionne grosso modo de la manière suivante :

Une clef de chiffrement est choisie. Elle est utilisée pour chiffrer plusieurs des ressources à l’intérieur du fichier EPUB, on modifie également les fichiers de métadonnées pour préciser comment l’opération a été faite.

Coffre-fort HT15 Hartmann

Si l’on s’arrête là, le fichier est illisible par le client à qui il a été vendu, il est donc nécessaire de s’assurer qu’il aura la clef pour y accéder. Cette transmission se fait le plus souvent “sous le manteau”, de manière cachée, mais au bout du compte, le client possède le fichier EPUB (avec les ressources chiffrées et les indications pour déchiffrer), et évidemment la clef.

C’est d’ailleurs là qu’on se rend compte d’une des limites du système : le client a tout ce qu’il faut pour déchiffrer ce qu’on ne veut pas qu’il déchiffre, tout en voulant qu’il déchiffre quand même…

Dans le cas de l’ebook acheté chez Apple, le format est certes interopérable (avec les réserves relevées sur le fichier en lui même), mais le chiffrement et la méthode d’accès à la clef et de (dé)chiffrement ne le sont pas. L’ebook chiffré en lui même ne peut donc pas prétendre à une quelconque interopérabilité.

On n’est pas des pommes.

Ah, mais je ne parlais jusqu’ici que d’ebooks issus d’un écosystème fermé, celui d’Apple ! On peut regarder plutôt chez des libraires bien de chez nous, Decitre, Chapitre, leslibraires.fr, feedbooks ou autre…

Et bien, si l’on parle de fichiers sous DRM (la quasi totalité du catalogue des groupes majeurs d’édition), ils sont disponibles chez ces libraires avec des DRM Adobe. Alors, certes, la plupart des solutions de lectures sont compatibles des DRM Adobe, mais on n’est toujours pas interopérable. Prenez par exemple des clients avec des machines sous Linux. Et bien ils ne peuvent pas lire ces ebooks.

On est interopérable ou on ne l’est pas. En l’occurrence, là ça ne l’est pas.

L’IDPF planche semble-t-il, sur une solution de DRM “Lightweight” (LCP : Lightweight Content Protection), censée être interopérable. Les détails techniques de cette solution seraient disponibles, et diffusés, mais dans un cadre restreint ? À condition de signer un accord de confidentialité ? Sans vraies informations depuis que les travaux ont démarré, je ne peux que m’abstenir de commenter. Outre les détails techniques du système en lui-même, et même si se débarrasser de l’influence d’Adobe dans le domaine serait un progrès, reste qu’il sera quasi impossible de mettre à jour les liseuses des lecteurs équipés, l’interopérabilité restera donc problématique.

Le vrai problème de l’interopérabilité

Mais qu’on arrête de se voiler la face, parmi les défenseurs de l’interopérabilité, deux camps se distinguent : celui des usagers (lecteurs, bibliothécaires/conservateurs etc.) et celui des ayant-droits (éditeurs, associations d’auteurs, politiques de tout bord etc.).

Si les premiers réclament une interopérabilité effective, les seconds ce qui les intéresse en tout premier chef c’est… de contrer les gros écosystèmes anglophones, les “AGAK” (Amazon, Google, Apple, Kobo), et Amazon le premier. Amazon, ce grand épouvantail de la librairie, cet antéchrist de la chaîne du livre, qui a l’outrecuidance d’imposer son propre format propriétaire donc non-interopérable.

Boats at Amazon River

Bon, Amazon c’est certes un gros méchant qui optimise fiscalement tout ce qu’il peut. C’est certes un gros méchant qui écrase la concurrence en rasant les prix et impose des conditions de travail quasi inacceptables. Mais là ça dépasse les bornes ! Amazon utilise un format propriétaire non interopérable !

Bof.

Bof, bof.

Vous voulez que je vous dise ce que j’en pense ? Cette histoire d’interopérabilité c’est du flan. La preuve, leur format propriétaire là, ça fait belle lurette qu’il a été dé-propriétarisé. La preuve ? (bis) Le logiciel Calibre (gratuit et sous licence libre) lit les ebooks “Kindle” sans soucis, sans utiliser une ligne de code venant d’Amazon. Pas parfaitement, mais pas franchement plus imparfaitement que certaines solutions de lectures EPUB avec des fichiers EPUB “normaux”. Et non seulement il les lit, mais il est capable de convertir des fichiers Kindle en fichier EPUB et réciproquement.

Il faut dire qu’un “site web” encapsulé dans un fichier EPUB ou un “site web” encapsulé dans une base de données, ça reste composé à peu près de la même manière : des fichiers (X)HTML, des ressources graphiques ou autre, des fontes, des métadonées etc.

Alors les outils de conversions (comme Calibre dont je parlais plus haut) n’ont qu’à ouvrir la capsule, en extraire les ressources, les manipuler un peu et les réintégrer dans une nouvelle capsule pour aboutir au fichier dans le format voulu.

Et puis si on perd un peu de mise en page au passage, “un livre est un livre” , c’est le texte qui compte, et croyez-moi ou pas, le texte résiste plutôt bien à la transformation.

Mais si ça convertit, il est où le problème ?

Justement, il n’y en a pas… ou plutôt, il n’y en aurait pas s’il n’y avait pas de DRM. Quel que soit l’e-libraire, s’il met des DRM (à la demande le plus souvent de l’éditeur), la conversion est impossible, que ce soit dans un sens ou dans l’autre.

Impossible car le contenu des fichiers “ressource” est chiffré et donc illisible par le logiciel de conversion.

Impossible de convertir des fichiers chiffrés… Impossible sans la clef… que l’on a puisqu’on en a besoin pour lire l’ebook… que des petits malins savent où aller chercher la où elle est cachée et nous la donner… des petits malins qui ont écrit légalement des programmes pour aller chercher cette clef et l’utiliser pour déverrouiller l’ebook… qui sont interdits en France.

Bon. Si on ne se pose pas de question de légalité (ou si c’est légal chez vous), autant le dire, l’interopérabilité n’est pas un problème insurmontable : on s’assure d’avoir une solution légale – et configurée correctement – de lecture conforme aux besoins des logiciels en question, on installe le logiciel, on lui passe le fichier et il en ressort tout “interopérable-ready”. Un coup de moulinette Calibre et zioup, vous avez votre fichier en sortie.

L’interopérabilité ? “No soucy”, comme le dit ma pote Ophely.

Mais bon, en France (en Europe ?), on a quand même ce petit souci de légalité quand même : depuis le vote de la loi DADVSI (coucou les copains HADOPI!), la légalité du déchiffrement est au moins douteuse, et donc l’interopérabilité l’est.

Il y a bien une solution quand même ?!

Oui, il y en a.

On pourait déjà supprimer la sur-protection légale du DRM (vous savez, cette interdiction artificielle de passer outre un verrou trop faible pour se protéger lui-même…). Ou en publier les spécifications et les clefs, comme le préconise Julia Reda, mais bon, “elle veut détruire le droit d’auteurs, alors on rejette en bloc toutes ses propositions”.

Autrement, n’en déplaise à certains amis auteurs, éditeurs, ayant-droits et affiliés (Coucou les copains 3l3ctr0n ! ) la solution c’est de se passer de DRM.

De se passer par exemple purement et simplement de tout type de protection. C’est le choix – le meilleur à mon avis – qu’ont fait les éditeurs américains Baen et Tor par exemple, des éditeurs “classiques”, qui publient sans aucune protection les versions numériques de leurs livres papier, et sans que cela ait nuit à leurs ventes.

Zank wodny pl1

Mais sans aller aussi loin, ni géographiquement ni conceptuellement, une solution intermédiaire existe. Il s’agit de la solution du Watermark/Filigranne. Cette solution consiste en l’ajout masqué et/ou visible d’informations attribuant l’exemplaire à l’acquéreur, et ne présente aucun des soucis d’interopérabilité. Et si le nombre d’éditeurs qui adoptent ce type de protection est en augmentation 2 3, je n’ai pas lu/vu d’éditeur se retourner vers les DRM après avoir fait ce choix. Cette solution n’est certes pas parfaite non plus, mais d’un point de vue interopérabilité, elle n’est pas obstacle aux conversions/corrections.

Alors que la très grande majorité (totalité ?) des e-libraires français (et je pense européens) supporte cette solution de filigranne, les e-libraires nord-américains (Amazon, Google, Apple, Kobo – et Fnac par extension– ) ne le font pas, et remplacent les demandes de watermark par du DRM. S’il y a un reproche à leur faire sur l’interopérabilité, c’est plutôt celle là, mais je n’entend pas les représentants des éditeurs, des distributeurs ou des auteurs s’en préoccuper.

Bref

Bref, chers amis qui réclamez de l’interopérabilité, vous savez ce qui vous reste à faire : convaincre l’ensemble de la chaîne du livre de se passer de ces verrous qui brident l’interop. A défaut, arrêtez de jouer les hypocrites en utilisant l’interopérabilité comme système de guidage ou de nuage de fumée pour vos attaques anti GAFA(K).

Les sujets sont nombreux pour s’en prendre à ces grands groupes nord-américains en quasi-monopole : abus de position dominante, optimisation (fraude ?) fiscale, conditions de travail indignes ou abusives, externalisations.

Outre le fait que les GAFA n’ont pas le monopole de ces pratiques (regardons le groupe Lagardère/Hachette, exemplaire j’imagine…), le public vous emboitera le pas sur ces sujets tout comme il vous suivra sur ceux de la liberté d’expression et des censures morales américano-centrées, des Conditions Générales d’Usages discretionnaires ou abusives et de tant d’autres.

Mais mettre sur le dos des e-libraires des problèmes d’interopérabilité de son propre fait qu’on empire en les consacrant légalement, c’est tout simplement n’importe quoi.


MAJ 26/03/2015 : Il y a une erreur dans mon texte, que je me dois de signaler : les ebooks achetés chez Apple n'ont pas tous de DRM, qui ne seraient positionnés qu'à la demande des éditeurs (soit demande explicite de chiffrement, soit demande de Watermark). N'ayant pas de matériel Apple pour comparer, et les DRM n'étant pas (contrairement à la législation française) signalés, je ne peux pas le vérifier. Ca ne contredit en rien les problèmes liés à ces DRM sur le format "interopérable" EPUB en présence de DRM.


  1. Bon point au premier qui saura. Je sais, c’est facile…

  2. merci à l’Atalante, Bragelonne, Diable Vauvert, Editions de Minuit, Robert Laffont pour n’en citer que quelques-uns

  3. Merci aussi à la plupart des éditeurs Pure-Players, Walrus, Numeriklivres, Publie-Net, et tous les autres…

Wednesday, February 4, 2015

An "Author Earnings" Methodology primer

(updated in September 2015)

Here is a lightly edited compilation about explanations about the methodology used by Hugh Howey and Data Guy for their 10 (so far) Author Earnings reports.

I try and give a source for the different extracts, and will probably update it if new explanations arrive.


General 

From The 50K report

For techies out there who geek out on methodology, the spider works like this: It crawls through all the categories, sub-categories, and sub-sub-categories listed on Amazon, starting from the very top and working its way down. It scans each product page and parses the text straight from the source html. Along with title, author, price, star-rating, and publisher information, the spider also grabs the book’s overall Amazon Kindle store sales ranking. This overall sales ranking is then used to slot each title into a single master list. Duplicate entries, from books appearing on multiple bestseller lists, get discarded.
Our spider is looking at a snapshot of sales rankings for one particular day. Extrapolation is only useful for determining relative market share and theoretical earnings potential. Our conclusions assume that the proportion of self-published to traditionally published titles doesn’t change dramatically from day to day, and the similarity of datasets lends that assumption some support.
The preponderance of nonfiction in the february and later sample does not reflect market share. Rather, it reflects the many hundreds of detailed Amazon sub-sub-sub-category bestseller lists for non-fiction (Health, Fitness & Dieting > Alternative Medicine > Holistic, for example), that make lower-selling nonfiction more visible to the spider than equally low-selling fiction.
A few things make doing so a little challenging: the once-per-quarter frequency of our data capture and the high turnover of the bestseller lists and sublists.
(In our October report, we found that almost 80,000 of the 120,000 July bestsellers had since fallen off the lists to be replaced by 80,000 others.)
We are getting a very comprehensive look at Amazon sales every time, though — the data “holes” are mostly down where titles are selling fewer than a handful of copies each. With each dataset, we’re capturing:
– practically all of the top several hundred ranks
– 95% of the top 1,000
– 80% of the top 5,000
– 68% of the top 10,000
– 52% of the top 25,000
– 42% of the top 50,000
– 33% of the top 100,000
– 11% of the top 1,000,000
– some additional ones ranked in the 2,000,000-3,000,000 range (mostly from really specific nonfiction bestseller lists like “Renaissance Painter Biographies” or whatever.)
Ideally, I’d like to grab all 3 million-ish every single day instead… :)
But the comprehensiveness of our snapshots comes at a nontrivial technical cost. For the technically curious out there, the data collection for this last report used 40 enterprise-grade servers (with 8 high-speed CPUs each) to crawl Amazon’s best seller lists and product pages, sucking almost 600 Gigabytes of HTML webpages across the Internet and ripping their HTML apart to extract the information we need and store it into a MySQL database. Each run takes a few hours, after which we shut the servers down before they burn a hole in our bank accounts.
Each report is thus a deep cross-sectional study of Amazon’s sales that day, but each is a single snapshot taken on a particular day. Their compositional consistency from quarter to quarter strongly suggests that we wouldn’t find much variation on the days in between, either. But perhaps we’ll try a longitudinal study in parallel at some point (or even better, someone else will) using a smaller set of titles.

http://authorearnings.com/report/may-2015-author-earnings-report/#comment-295886

For the May 2015 data set (which lists 200K ebooks), I launched the spider simultaneously on 120 servers, each with 8 CPUs and 16 GB of RAM. This Author Earnings data run took roughly an hour and a half, while running over a thousand separate webcrawler threads on those 120 servers. During that time, it read and extracted data from nearly a million Amazon.com product pages — print and audio books as well as ebooks — over a terabyte of data in all.

But the anonymized spreadsheet we publish is just the tip of the iceberg. Even so, it’s an unwieldy 60MB or so in size — we may trim it back down to 120K in future reports, just to keep things manageable.


On Rank to Sales ranking

For this report, Author Earnings threw out all of our previous assumptions. We built a brand new rank-to-sales conversion curve from the ground up. This time we based it on raw, Amazon-reported sales data on the precise daily sales figures for hundreds of individual books from many different authors, spanning a period of many months. Our raw sales data included titles ranked in Amazon’s Overall Top 5 — titles whose KDP reports verified that they were each selling many thousands of copies a day — and it also included books ranked in the hundreds of thousands — whose KDP reports revealed were selling less than a single copy a day. We combined that mass of hard sales data with a complete daily record of Amazon Kindle sales rankings for each of those books, pulled directly from individual AuthorCentral graphs. We ended up with nearly a million distinct data points in total.
Why did we need so many data points? Because Amazon’s Overall Best Seller Rankings aren’t a simple calculation based on each book’s single-day sales — they also factor in time-decaying sales from previous days as well. To reverse-engineer Amazon’s ranking algorithms, the more raw sales and ranking data we used, the more accurate our results would get. So we fired up some powerful computers, fed them all that raw data, and let them crunch the numbers.
For our fellow geeks: We applied both old-school statistical curve-fitting approaches and more modern machine learning techniques, iterating our underlying numerical model until we zeroed in on the solution that yielded the best predictive accuracy. Taking advantage of a neat mathematical series-convergence trick (one whose applicability was no accident, because Amazon’s algorithms undoubtedly rely on it, too), we ended up with a brand new, simpler, more elegant, and far more accurate rank-to-sales conversion formula for Kindle ebooks.
For the non-geeks: Our data-science awesomesauce now tastes even better.
Here’s what the new rank-to-sales curve looks like:
Screen Shot 2016-02-09 at 12.43.43 AM
In retrospect, it’s striking how well AE’s old, crowdsourced rank-to-sales curve (in black) matches our new data-derived one. Graphically, the old AE curve ping-pongs back and forth between the new computed upper bound (shown in red), defined by the higher number of daily sales required to first “hit” a rank when spiking up from a much lower sales baseline, and the new computed lower bound (shown in blue), defined by the more modest number of daily sales required to steadily “hold” the same rank through consistent day-to-day sales.
(Old Rank to Sales was :)

 http://www.hughhowey.com/the-january-author-earnings-report/#comment-233671
Sales RankSales Per Day
17,000
54,000
203,000
352,000
1001,000
200500
350250
500175
750120
1,500100
3,00070
5,50025
10,00015
50,0005
100,0001

Mostly, it still follows: http://www.theresaragan.com/salesrankingchart.html with a few additional data points added (like the one at rank 100) to increase curve accuracy.
We’ve left it consistent since we started to avoid introducing yet another variable into the report-to-report comparisons.
Hugh clearly stated that these numbers were based on data gathered by numerous writers of their own books and corresponding rank/sales numbers. He included three different links. Numerous authors have corroborated these correlations.
The rank within a category or sub-category is irrelevant. Sales numbers are generated based on overall store rank.
Even if you don’t believe these correlations are accurate, they are applied uniformly to all books – both self-published and traditionally published. So no matter what you plug in, the relative sales will remain the same. If you think self-published authors aren’t making as much as the charts indicate, then that means the traditionally published authors aren’t making as much either.

Initial report (5th footnote)

Daily sales according to Amazon rank can be found in numerous places, including here, here, and here. Depending on the source, the model changes, but not enough to greatly affect the results. Keep in mind that the dollar figures and the exact sales are irrelevant to the ratio and percentages shown. Any change in those numbers impacts all books equally, so the picture of how authors are doing according to how they publish remains the same. These daily sales figures are adjustable in our spreadsheet, which contains our full data set and which we are offering at the low, low price of absolutely zilch.

Integration for missing books

But we know what the shape of the sales-to-rank curve is, and so we know what the “missing” books at ranks in between the ones we captured are selling. We then numerically integrate the whole curve to get a total daily sales number for all ebooks at all ranks. In other words, for each rank, whether or not we happened to capture that particular book in our data set, we add up its corresponding unit sales to compute Amazon’s total unit sales. Picture “shading in the area under the curve.”
While the books in long tail below rank 100,000 are shown as having 0 daily sales in our spreadsheet, they actually do sell a book every few days in the 100,000-500,000 range, a book a week in the 500,000-1,000,000 range, etc. (We zeroed those out in the spreadsheet because we didn’t want to get caught up explaining to the math-challenged how a book can sell a fraction of a copy a day. ;) But we do include those fraction-sellers in the integrated total of 1,542,000 total ebooks sold per day (of which 1,331,910 are ranked 1-100,000).
 The thing that makes [numerical integration] easy (and accurate) is the by-definition monotonically-decreasing nature of the sales-to-rank curve (it’s a pareto distribution, more or less, with a couple kinks in it caused by different “list visibility” regimes).
So it just becomes a choice of what numerical-integration interpolation strategy you use. We used linear interpolation between sales-to-rank data points, to get an appropriate level of accuracy.
Error magnitude didn’t matter as much before, as out focus was mainly the relative performance of books published via each path. Therefore, an error affected all sectors consistently and equally and didn’t change those relative results.
However, now we’re looking at predicting the actual absolute number of ebook sales on Amazon.com, and the actual absolute size of the market as a whole. That requires more accuracy.
“Within 20%” is no longer good enough — we need a better handle on the accuracy. That’ll be our next focus.
The data, however, doesn’t follow a strict pareto or power-law distribution — it’s close, but not exact. There are those rank regimes I mentioned where the slope steepens or flattens — most likely due to sharp differences in how much bestseller list visibility books get in those ranges

100 000 and lesser ranks

http://authorearnings.com/report/january-2015-author-earnings-report/#comment-224419


To make the spreadsheet simpler, we left out the roughly 13% of Amazon’s sales that live down in the deep long tail below rank 100,000. But we do account for them when scaling up our daily sample to estimate total daily or annual sales.
Ranks 1 to 100,000 of the rank-to-sales curve add up to a total of 1,331,910 sales per day.
Ranks 101,000 to 3 million+ add up to roughly 210,000 more sales per day.

The reason that we didn’t put them in the spreadsheet is we didn’t want to have to keep explaining to the less mathematically inclined folks how a book can sell a fraction of a copy in a day.


Categories

A frequent question in the comments is:
How were books classified as “Indie-Published,”  “Small/Medium Publisher,” or ‘Uncategorized Single-Author Publisher”?
Here’s how:
1) The Big-5 Published books were easy to separate out, no matter what imprint they were published under, by checking the “Sold By” line in the Amazon Product Details, which listed one of: Random House, Penguin, Hachette, Macmillan, HarperCollins, or Simon & Shuster as seller.
2) If multiple author names used the same listed Publisher, and the book’s “Sold By” wasn’t one of the Big-5, it was considered a Small/Medium Publisher. A lot of these might indeed be Indie Publishers, but we wanted to be conservative and err on the side of understating–rather than overstating–Indie numbers.
3) If no Publisher at all was listed under Product Details, the book was considered Indie-Published.
4) If the full name of the author was included in the Publisher name, the book was considered Indie-Published.
5) The remaining books, whose publishers represented only a single author name, were initially grouped under Uncategorized Single-Author Publisher, and sorted by revenue. Then we rolled up our sleeves.
Going down the list one by one, we Googled the publisher names and author names. We were able to classify hundreds of them. Many were already known to us… for example: Broad Reach Publishing (Hugh), Laree Bailey Press (H.M. Ward), Reprobatio Inc. (Russell Blake), etc. We started from the biggest earners and went down, until the names became too obscure to find and we ran out of energy and time, and none of the remaining Uncategorized Single-Author Publishers individually accounted for a significant chunk of revenue.
So the vast majority of the remaining  Uncategorized Single-Author Publishers are most likely “Indies in disguise.” But there are also a few examples of poor-selling imprints of small and medium traditional publishers in the mix (such as Baen), so again we didn’t want to overstate Indie market share by lumping them all in with the Indies.
Is there any way to quantify how much of the Small Medium Publisher/Single –> Indie market share can be attributed to re-classification of the publishers to Indie ?
The answer is very little – I just checked. Less than 0.1% of what was originally classified as Small/Medium Publisher income has been reclassified over the course of the last few reports. What you are seeing there is actual market-mix shift.
On the other hand, ~1.3% of what was “Uncategorized” income back in Feb 2014 report has since been definitively classified as indie, while another ~0.2% of it has since moved into Small/Medium Publisher income.

Kindle Unlimited

The methodology is explained in the October 2014 report
http://authorearnings.com/report/october-2014-author-earnings-report-2/

The amount paid per borrow is independent of price and depends instead on how much Amazon funds a shared pool. The rate per borrow has averaged $1.62 over the three months since KU launched. Each borrow appears to affect ebook ranking just as a sale does, so we have to take the borrow-to-sales rate into account for our earnings projection. As you will soon see, our data is robust enough that even wildly varying estimates for this rate do not appreciably affect our results. Before we get to our new baseline earnings report, let’s look at what our final graph would look like with five different assumptions for the borrow rate.

The difference in the total share of earnings by publishing type is only affected by a few percent even with wildly impossible assumptions about the borrow rate. In order to determine which of these charts to go with, we collected data from hundreds of authors and their individual titles, and these averages showed an average borrow/sales rate close to 1:1. The 50% borrow/50% sales data will be used for the rest of the report, and it will provide a baseline for our future reports.

(Note from TheSFReader : the amount paid is updated at each subsequent report based on the most recent rate/borrow)


Update for KU 2.0 in the September 2015 report

from http://authorearnings.com/report/september-2015-author-earnings-report/#comment-296014
Kindle Unlimited does make things a little trickier. But Amazon also provides us a nice monthly mechanism for calibrating our model: the overall KU payout size and the number of KENP read. With the KU 2.0 switch to compensation for pages read, the ghost-borrow issue is no longer a source of error. Our model for KU compensation now factors in the page-length of each title, the per-page KU 2.0 payout, and an average-%-read factor that lets us exactly match Amazon’s announced $11.5 million / 2-billion-KENP-read numbers from July.

(Update on the 05/06/2015 for additional data related to the 200K sample)
(Update on the 05/07/2015 for precisions on the KU borrows impact + Additional data on the 100K to 3M+ book sales)
(Update on the 09/14/2015 with updates on KU 2.0 specific methodology)
(Update on the 02/10/2016 with updates on the reverse-engineered rank-to-sales conversion)

Thursday, January 22, 2015

Quelques lectures de SF militaire...

On m'a demandé quelques recommandations sur la SF militaire, voici une petite liste, orientée sur l'action surtout. Les aspects psychologiques ne sont pas spécialement pris en compte dedans...

The Red: First Light de Linda Nagata essentiellement pour les combats terrestres basse intensité (commando/guerrilla/contre-guerilla). Avec également une utilisation technologique à la pointe de l'actualité (couplage humain/drone, cybernétique etc.). On va dire pre/early cyberpunk.

Turing Evolved de David Kitson, est plus loin dans le futur, plus post-cyberpunk/mech

Evidemment Ender's Game/La Stratégie Ender de Orson Scott Card, (période post-essaimage interplanétaire), mais là on est entré dans le domaine spatial.

On est jusque là resté plutôt dans la basse intensité.

De plus haute intensité en terrestre, évidemment Etoiles Garde à vous/Starship Troopers, de R.A. Heinlein, même si les côtés idéologiques peuvent être mis de côté allègrement.

Pour des piou-piou et des bangs dans l'espace, la série Honor Harrington de David Weber, même si le manichéisme du script et l'intégrité absolue de l'héroïne finit par me lasser. Pour les combats spatiaux, c'est plutôt bien fait (meêm si dérivant vers la technique). On parle là de flottes de vaisseaux de combats qui s'affrontent à coup de centaines de missiles, torpilles et autre laser.

Chez le même éditeur (baenebooks.com), beaucoup d'autre SF(et Fantasy) militaire, donc certains livres gratuits.


Sans oublier la très bonne anthologie Militaire mais pas militariste  War Stories d'Andrew Liptak et Jaym Gates. Pour le coup, c'est bien plus la psychologie et les impacts humains qui en font la force...

Sunday, January 11, 2015

Où acheter ses ebooks

On vient de me demander où je conseille d'acheter ses ebooks.
Voici ma réponse :

Si vous ne voulez aucune prise de tête maintenant (mais vous la risquez plus tard), sur la librairie "de sa liseuse".

Si par contre vous souhaitez garantir un accès à long terme à vos achats de livres électroniques, il faut vous assurer d'en garder des copies chez vous. Ce qui implique l'installation de logiciels sur votre PC et sauvegarde sur celle ci. (Adobe Reader, Calibre, et si c'est légal chez vous les plugins de apprenti d'alf (dispo en anglais) )

Et à partir du moment où vous gérez votre bibliothèque sur votre PC, plus de raison de vous limiter à la librairie "de votre liseuse", Vous pouvez sans trop de soucis aller voir chez Immateriel, Decitre, Feedbooks par exemple, et en dernier ressort Fnac/Kobo, voire Amazon...

Comme je lis beaucoup en anglais et de l'auto-publié, je rajoute à cette liste Smashwords (même si la qualité y est très variable), et Amazon remonte un peu dans la liste.


Thursday, January 8, 2015

J'me sens minable

Envie d'écrire mes engagements, d'user de ma liberté d'expression en réponse aux terroristes, d'expliquer mes choix militants (et tenter de justifier ma paresse en mon manque d'engagement)...

Paresse intellectuelle que de ne pas analyser pourquoi une attaque contre la liberté d'expression me touche plus que  d'autres drames, "banaux" comme les SDF morts du froid ou plus exceptionnels comme les immigrés retrouvés morts sur les plages de l'Europe.

Mais j'y arrive pas.  Je suis minable, dans mon confort matériel et intellectuel, à me prendre la tête sans arriver à écrire une page sur mes engagements...

Pourquoi j'ai choisi le combat de la lecture et des livres plutôt que celui de la lutte contre la misère, de l'enseignement ou de la sécurité...

Pourquoi j'ai choisi de lutter pour la dissémination des idées et expressions, mais aussi pour le soutien aux créateurs...

J'vais pas plus loin... Trop minable pour finir ce presque texte que j'ai pas réussi même à commencer...

Saturday, January 3, 2015

Lecture Martin Page (Pit Agarmen) un auteur 5*

Je ne sais plus comment j'ai rencontré Martin Page (auteur engagé) et son alter-ego Pit Agarmen (auteur enragé), mais c'est dans un premier temps son militantisme pragmatique pour les auteurs qui m'a rapproché de lui. Puis j'ai découvert ses livres.


Photo (c) de l'auteur sur sa page.



Son "Manuel d'écriture et de survie" déjà, constat romancé et militant de la réalité du métier d'écrivain, qui m'a ravi, moi qui suis curieux de l'envers du décor (au cas où vous ne l'auriez pas déjà remarqué).

"L'apiculture selon Samuel Beckett", rencontre d'un étudiant avec l'auteur, et encore une fois une étude sur l'écrivain. Cette fois plus sur le rapport entre l'auteur et ses œuvres.

J'ai lu également "La nuit a dévoré le monde" écrit sous le pseudo de Pit Agarmen, livre où le narrateur se retrouve seul au monde, Robinson Crusoë dans un immeuble au milieu d'une ville infestée de zombies.

Et enfin hier (après des semaines puis heures impatientes), "Je suis un dragon", l'histoire violente d'une fillette sur-humaine qui n'aspire qu'à la normalité que lui refusent ses pouvoir et l'humanité. Le parcours initiatique d'une fillette pas assez --croit-elle-- comme les autres, qui veut trouver sa place dans une société qui veut lui en donner une toute autre...

Je ne vais pas rentrer dans les détails de l'un ou l'autre des livres, mais en retirer quelques traits communs : un regard tendre et distant vers l'humanité, marginal sans être asocial, une écriture accessible, fine et subtile. Le tout relevé d'une critique militante de la société...

Je ne suis pas critique littéraire, vous le constatez sans doute à la lecture de chaque billet de mon blog, mais ça ne m'empêche pas de noter les livres sur mon étoilomètre, où ces quatre là obtiennent la note maximale de 5 étoiles. Et leur auteur Martin Page également, évidemment.

MAJ: Noter que Martin fait spécialement attention à demander (par contrat) à ses éditeurs l'usage de marquage sur ses livres plutôt que des DRM. Ce n'est évidemment pas toujours respecté par les e-libraires, mais c'est un effort que je salue, pour lui pour son insistance, mais également pour l'éditeur qui accepte...

Si vous cherchez où l'acheter sans DRM, j'ai trouvé Feedbooks (lien vers "Je suis un Dragon").

MAJ-de la MAJ précédente (5/01/2015): Renseignements pris, le marquage n'est pas demandé par Martin, qui préfèrerait un fichier "nu", mais il s'agit du compromis obtenu avec l'éditeur, qui aurait préféré des DRM. 

Dans le cas présent, on voit qu'il s'agit bien d'une négociation qui a eu lieu. Mais qui met en contradiction l'idée selon laquelle les DRM seraient demandés par l'auteur, et qu'il ne s'agirait pas d'un choix d'éditeur... 

Maj de ma Maj de la Maj : le Responsable des développements numériques des marques Robert Laffont précise : l'intégralité du catalogue français des marques Laffont est sous watermark et non DRM.